字节流编码获取原来这么复杂，但也很简单

字节流编码获取原来这么复杂，但也很简单

2009年4月15日星期三

字节流编码获取原来这么复杂，但也很简单

一）需求
很多情况下我们需要知道字节流的编码，比如
1) 使用编辑器打开文本文件的时候，编辑器需要识别文本文件的各种编码
2) 上传文件后，分析上传文件字节流需要知道它的编码
3) 读取某个web页面的源代码，并要输出时，需要知道正确的编码才能输出正确的内容

二）探讨
最初和同事讨论如何获取文件/流/字节是否是utf8编码时，发现c#并没有直接的函数，但在SDK中发现UTF8的开头三个字节是“0xEF 0xBB 0xBF”(称为BOM--Byte Order Mark)，Unicode文件的开头两个字节是“0xFF 0xFE”，UTF16SmallEndian文件的开头两个字节是“0xFE 0xFF”，于是写了一个简单的函数去解决，由于没有时间做足够的测试，总觉得会有问题.......

/**/

void GetEncoding(out Encoding enc,byte[] buff)

{

bool flag = false;

//用于测试的编码

byte[] testencbuff = new byte[0];

int fileLength = buff.Length;

//判断上传的文件的编码是否是Unicode

enc = Encoding.Unicode;

testencbuff = enc.GetPreamble();

if(fileLength>testencbuff.Length && testencbuff[0] == buff[0] && testencbuff[1]==buff[1])

{

flag = true;

}

//判断上传的文件的编码是否是UTF8

if(!flag)

{

enc = Encoding.UTF8;

testencbuff = enc.GetPreamble();

if(fileLength>testencbuff.Length && testencbuff[0] == buff[0] && testencbuff[1]==buff[1] && testencbuff[2]==buff[2])

{

flag = true;

}

}

//判断上传的文件的编码是否是BigEndianUnicode

if(!flag)

{

enc = Encoding.BigEndianUnicode;

testencbuff = enc.GetPreamble();

if(fileLength>testencbuff.Length && testencbuff[0] == buff[0] && testencbuff[1]==buff[1])

{

flag = true;

}

}

if(!flag)

{

enc = Encoding.Default;

}

}

0 评论:

发表评论

订阅：博文评论 (Atom)