MyException - 我的异常网
当前位置:我的异常网» C++ Builder » c++ builder 中如何判断txt(记事本)文件是不是utf

c++ builder 中如何判断txt(记事本)文件是不是utf8编码?()(2)

www.myexceptions.net  网友分享于:2013-02-24  浏览:206次

* We will also return FALSE is it is only 7-bit ascii, so the right code page
* will be used.
*
* Actually for 7 bit ascii, it doesn 't matter which code page we use, but
* notepad will remember that it is utf-8 and "save " or "save as " will store
* the file with a UTF-8 BOM. Not cool.
*/

INT IsTextUTF8( LPSTR lpstrInputStream, INT iLen )
{
INT i;
DWORD cOctets; // octets to go in this UTF-8 encoded character
UCHAR chr;
BOOL bAllAscii= TRUE;

cOctets= 0;
for( i=0; i < iLen; i++ ) {
chr= *(lpstrInputStream+i);

if( (chr&0x80) != 0 ) bAllAscii= FALSE;

if( cOctets == 0 ) {
//
// 7 bit ascii after 7 bit ascii is just fine. Handle start of encoding case.
//
if( chr > = 0x80 ) {
//
// count of the leading 1 bits is the number of characters encoded
//
do {
chr < <= 1;
cOctets++;
}
while( (chr&0x80) != 0 );

cOctets--; // count includes this character
if( cOctets == 0 ) return FALSE; // must start with 11xxxxxx
}
}
else {
// non-leading bytes must start as 10xxxxxx
if( (chr&0xC0) != 0x80 ) {
return FALSE;
}
cOctets--; // processed another octet in encoding
}
}

//
// End of text. Check for consistency.
//

if( cOctets > 0 ) { // anything left over at the end is an error
return FALSE;
}

if( bAllAscii ) { // Not utf-8 if all ascii. Forces caller to use code pages for conversion
return FALSE;
}

return TRUE;
}

------解决方案--------------------
http://blog.csdn.net/fjye/archive/2007/02/02/1501442.aspx
------解决方案--------------------
UTF8/UTF16等编码的文件,主要分为两种,一种是有标识头的,一种是无标识头的,通常在讨论的时候,只讨论有标识头的。先读取前三个字节,判断编码(UTF8三个,UTF16只须两个)。对于只有几个字节的数据,无须采用memcmp,而直接采用等于操作符就可以。由于考虑到文件可能会比较大,以及编码问题,不建议采用Utf8ToAnsi进行转换。最好的办法是MultiByteToWideChar/WideCharToMultiByte进行映视。否则的话会由于当前系统的编码与原始文件内容的编码不一致而导致乱码(比如说一篇GBK码字元组成的文章,被存为UTF8编码文件之后,再转换的时候,如果当前系统默认是BIG5编码,那么将导致部分GBK/Unicode文字在BIG5字符集当中得不到对应而被默认字符如问号等字元代替)。
------解决方案--------------------
to 楼主,给你一个我自己写的判断文件编码格式的函数吧,另外如果UTF8编码文件很短的话可能会误判,这个就是windows下记事本的那个 "联通 "的bug,不过处理一般的utf8编码已经足够了


BYTE FileType()
{
const char File_Unicode_Character[2]={0xFF,0xFE};
const char File_UTF8_Character[3]={0xEF,0xBB,0xBF};
BYTE bFileType;
char buff[4]={NULL};
FILE *fp;
fp=fopen(PathName.c_str(), "r ");
if(!fp)
{
fclose(fp);
bFileType = Error_File;
return bFileType;
}
fread(buff,1,3,fp);//共读取3个字节
fclose(fp);
if(!memicmp(buff,File_UTF8_Character,sizeof(File_UTF8_Character)))
{
bFileType = File_UTF8;
}
else if(!memicmp(buff,File_Unicode_Character,sizeof(File_Unicode_Character)))
{
bFileType = File_Unicode;
}
else
{
TMemoryStream *ss;

文章评论

亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
代码女神横空出世
代码女神横空出世
那些争议最大的编程观点
那些争议最大的编程观点
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
程序员应该关注的一些事儿
程序员应该关注的一些事儿
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
如何成为一名黑客
如何成为一名黑客
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
程序员必看的十大电影
程序员必看的十大电影
程序员和编码员之间的区别
程序员和编码员之间的区别
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
编程语言是女人
编程语言是女人
Java程序员必看电影
Java程序员必看电影
为什么程序员都是夜猫子
为什么程序员都是夜猫子
程序员都该阅读的书
程序员都该阅读的书
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
 程序员的样子
程序员的样子
每天工作4小时的程序员
每天工作4小时的程序员
10个调试和排错的小建议
10个调试和排错的小建议
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
旅行,写作,编程
旅行,写作,编程
程序员的鄙视链
程序员的鄙视链
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
漫画:程序员的工作
漫画:程序员的工作
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
我的丈夫是个程序员
我的丈夫是个程序员
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
鲜为人知的编程真相
鲜为人知的编程真相
老程序员的下场
老程序员的下场
总结2014中国互联网十大段子
总结2014中国互联网十大段子
我是如何打败拖延症的
我是如何打败拖延症的
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有