以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 C/C++编程思想 』  (http://bbs.xml.org.cn/list.asp?boardid=61)
----  Unicode格式和纯文本格式的相互转换  (http://bbs.xml.org.cn/dispbbs.asp?boardid=61&rootid=&id=26938)


--  作者:卷积内核
--  发布时间:2/5/2006 10:38:00 AM

--  Unicode格式和纯文本格式的相互转换


---- 用Word7.0写完文章,可选用Unicode格式或纯文本格式保存文件。
Unicode文件以0xff,0xfe作为开始,文件中每个ASCII符和汉字均用两个字节表
示;纯文本文件中,汉字也用两个字节表示,但编码与Unicode文件不同。以有代
表性的"0a啊雹帷幔"字串为例,在GB-2312(80)码表中,"啊雹"是一级字,对
应16区1位和17区2位,"帷幔" 是二级字,对应65区1位和65区3位,在Unicode文
件中,此字串依此存成0x30,0,0x61,0,0x4a,0x55,0xf9,0x96,0x37,0x5e,0x54,
0x5e在纯文本文件中,依此存成0x30,0x61,0xb0,0xa1,0xb1,0xa2,0xe1,0xa1,
0xe1,0xa3.两者的存储映射关系不易看出。

---- 下面给出实用转换C程序,它将Unicode文件的内容处理为宽字节,将纯文
本文件的内容处理为多字节,用VC2.0中的数据转换例程wcstombs,mbstowcs及
专门处理本地字符(汉字)的setlocale实现转换。u2a()函数将名为"u.fil"的
Unicode文件转为名为"a.fil"的纯文本文件,a2u()函数的作用与u2a()正相反。
这里假定文件长度小于1000字节.

#include
#include  
/*含有setlocale原型*/
#include  
/*含有wcstombs,mbstowcs原型*/
FILE *f;int i;char abuf[1000];char ubuf[1000];
void u2a(){
f=fopen("u.fil","rb");
/*二进制读文件*/
i=fread(ubuf,1,1000,f);
/*读出了i个字节*/
fclose(f);
i=wcstombs(abuf,(wchar_t*)(ubuf+2),i-2);
/*跳过Unicode头,转成的多字节数返到i*/
f=fopen("a.fil","wb");
/*二进制写文件*/
fwrite(abuf,1,i,f);
/*将写入i个字节*/
fclose(f);}
void a2u(){
f=fopen("a.fil","rb");
/*二进制读文件*/
i=fread(abuf,1,1000,f);
/*读出了i个字节*/
fclose(f);
i=mbstowcs((wchar_t*)ubuf,abuf,i);
/*转成的宽字节数返到i*/
    f=fopen("u.fil","wb");
fputc(0xff,f);fputc(0xfe,f);
/*写Unicode头*/
fwrite(ubuf,1,i*2,f);
/*一个宽字节占两个字节*/
fclose(f);}
void main(){
setlocale(LC_CTYPE,".OCP");
/*代码页来自中文95操作系统*/
u2a();a2u();}

---- 以上程序在Windows95,VC6.0环境下通过.


W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
31.250ms