参看下面的字符串转换函数。
/** * 用getBytes(encoding):返回字符串的一个byte数组 * 当b[0]为 63时,应该是转码错误 * A、不乱码的汉字字符串: * 1、encoding用GB2312时,每byte是负数; * 2、encoding用ISO8859_1时,b[i]全是63。
* B、乱码的汉字字符串: * 1、encoding用ISO8859_1时,每byte也是负数; * 2、encoding用GB2312时,b[i]大部分是63。 * C、英文字符串 * 1、encoding用ISO8859_1和GB2312时,每byte都大于0; * 总结:给定一个字符串,用getBytes("iso8859_1") * 1、如果b[i]有63,不用转码; A-2 * 2、如果b[i]全大于0,那么为英文字符串,不用转码; B-1 * 3、如果b[i]有小于0的,那么已经乱码,要转码。 C-1 */ private static String toGb2312(String str) { if (str == null) return null; String retStr = str; byte b[]; try { b = str.getBytes("ISO8859_1");
for (int i = 0; i < b.length; i++) { byte b1 = b[i]; if (b1 == 63) break; //1 else if (b1 > 0) continue;//2 else if (b1 < 0) { //不可能为0,0为字符串结束符 retStr = new String(b, "GB2312"); break; } } } catch (UnsupportedEncodingException e) { // e.printStackTrace(); } return retStr; }
3、
unsigned char *str = "test测试test" ; int length; int i; length = strlen (str); for (i = 0; i < length - 1; i++) { if ( *str >= 0x81 && *str <= 0xFE && *(str + 1) >= 0x40 && *(str + 1) <= 0xFE) { // 汉字 } } unsignedchar*str="test测试test";//把字符串换成“汉A”试试,结果为2 有人说:“一个GBK汉字要占两个char空间(二字节),而且第一个字节里的值是小于0的。可以据此判断是否为汉字。” 1、为什么第一个字节的值小于0呢? 2、如果仅通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字,这种逻辑是否保险? 3、因为还看到有人说,GBK编码的汉字有高位和低位两位,第一个是低位吧?需要第一个字节在160-254之间,第二个字节在64-254之间,这样是不是比2中提到的方法要保险? 4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK,这个是GBK字符集?GBK兼容GB2312 似乎有些字符集中有些汉字占三个字节 “通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字” //GBK汉字内码范围 //81-A0 ,40-7E 80-FE //AA-AF ,40-7E 80-A0 //B0-D6 ,40-7E 80-FE //D7 ,40-7E 80-F9 //D8-F7 ,40-7E 80-FE //F8-FE ,40-7E 80-A0 例如://81-A0 ,40-7E 80-FE 表示字符的ascii码要在129-160,64-126,128-254这三个区间段内 4、在工作中,遇到要截取字符串在屏幕上显示出来,因为字符串带有汉字,如果截取不好,会引起乱码,写了下面的函数
在uclinux下与VC6.0中测试可以通过。
view plaincopy to clipboardprint?
1. /*截取字符串
2. name :要截取的字符串
3. store:要存储的字符串
4. len:要截取的长度
5. */
6. void split_name( char * name , char * store , int len )
7. {
8. int i= 0 ;
9. char strTemp[L(NAMEL)]={0};
10.
11. if ( strlen(name) 12. {
13. strcpy( store, name ); *name=0;
14. return ;
15. }
16.
17. //从第1个字节开始判断
18. while( i < len )
19. {
20. if ( name[i]>>7&1 && name[i+1]>>7&1 ) //if ( name[i] < 0 && name[i+1] < 0 )
21. i = i + 2 ;
22. else
23. i = i + 1 ;
24. }
25. i = i > len ? i-3 :i-1;
26. strncpy( store , name , i+1 ); //截取前i+1位
27. *(store+i+1)=0;
28. strcpy( strTemp , name + i + 1 );
29. strcpy( name , strTemp );
30. }
转载于:https://www.cnblogs.com/shenchao/archive/2013/05/02/3055129.html
相关资源:获取字符串中的汉字