新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论高级C/C++编程、代码重构(Refactoring)、极限编程(XP)、泛型编程等话题
    [返回] 计算机科学论坛计算机技术与应用『 C/C++编程思想 』 → [原创]C里的文件读取探索 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 11877 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [原创]C里的文件读取探索 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     binaryluo 帅哥哟,离线,有人找我吗?
      
      
      威望:6
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:679
      积分:5543
      门派:IEEE.ORG.CN
      注册:2005/2/19

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给binaryluo发送一个短消息 把binaryluo加入好友 查看binaryluo的个人资料 搜索binaryluo在『 C/C++编程思想 』的所有贴子 引用回复这个贴子 回复这个贴子 查看binaryluo的博客楼主
    发贴心情 [原创]C里的文件读取探索

    写在前
    昨天带实验的时候发现很多同学在读文件的时候老是要么多了一个字符,要么不能完全读取……以前在用C的时候对文件操作自己也会遇到一些问题,但是都没有去深究,昨晚突然心血来潮,决定把他弄清楚。

    测试环境
    windows
    c-free3.0

    C文件操作遇到的状况
    1.将一个文件读到另一个文件,用“(ch = getc(fp)) != EOF”来判断文件是否结束,如果文件是全英文文本的话绝对没问题,新文件的大小和原文件大小一样;但是如果是一些有中文字符或者是二进制文件,原文件没读完就结束。
    2.将一个文件读到另一个文件,用“!feof(fp)”判断文件是否结束,不管原文件是什么类型的都可以将原文件全部读完才结束,但是新文件的大小比原文件多了一个字节。
    问题:在C里如何才能正确判断文件结束??

    探索
    测试一,我写了一个函数来试用EOF判断文件结束的情况:
    -------in.txt内容如下---------
    abcde
    -------in.txt结束-------------
    -------test1.c----------------
    int main(int argc, char* argv[]){
        char ch;
        FILE* in;
        FILE* out;
        
        in = fopen("in.txt", "rb");  /* in.txt全为英文字符 */
        out = fopen("out.txt", "wb");
        while ((ch = getc(in)) != EOF){
             putc(ch, out);
        }
    }
    运行后结果是:out.txt的大小和in.txt的大小完全一样。
    然后修改in.txt如下,在原来的基础上加入一些中文:
    -------in.txt修改后的内容如下---------
    abcde
    这是一个测试文件
    测试中文字符
    -------in.txt结束--------------------
    运行后记过也是大小是一样的。将源程序中的“in = fopen("in.txt", "rb");out = fopen("out.txt", "w");”改为“in = fopen("in.rar", "rb");out = fopen("out.rar", "wb");”,其中,in.rar是一个压缩包文件,大小有4M多,运行程序后,得到的out.rar文件只有800多k,双击解压也出现错误,无法解压。

    结论1:在C里,操作文件的时候,如果打开方式是“r”或者“w”,是以文本形式打开,也就是读如内存的字符值都是0-256之间,不可能出现-1,所以用EOF来判断是可以的,但是如果以“rb”或者“wb”方式打开,以二进制读入内存或者写入文件,出现负数是可能的,所以用EOF来判断不能将文件读完就已经结束了。之所以在上面测试中有中文的in.txt文件没有出错,是因为在这个文中的中文恰好没有一个的二进制码是-1的;在后来的.rar测试中,就是读到800多K时就遇到了-1,所以文件结束。

    测试二,修改test1.c为test2.c
    -------test2.c----------------
    int main(int argc, char* argv[]){
        FILE* in;
        FILE* out;
        
        in = fopen("in.txt", "rb");
        out = fopen("out.txt", "wb");
        while (!feof(in)){
             putc(getc(in), out);
        }
    }
    不管是什么方式打开,打开什么文件,都能把原文件完全读到新文件中,不过在新文件的末尾多了一个奇怪的字符(y上面多两点,其二进制值是-1)。
    在读in.rar的时候,我把循环该成了永真循环,执行后用CTR+Z结束,out.rar大小为11M,比in.rar(4.2M)大了一倍多,但是我打开out.rar可以解压,而且解压出来的文件跟in.rar解压出的文件的大小是一样的。用UtralEdit打开out.rar发现从某一个时候开始,后面的所有二进制都是‘FF’(即-1),顿时明白out.rar比in.rar大的那部分其实全是-1。

    结论2:在C里-1被定义成是文件结束符,所以在文件末尾多余的-1都不会影响文件的使用。

    测试三,根据第二得到的结论,我想那如果一开始读第一个字符的时候就读到-1(文件结束符)会怎么样呢?我又做了测试,
    -------test3.c----------------
    int main(int argc, char* argv[]){
        char ch= -1;
        FILE* in;
         
        in = fopen("in.txt", "wb");
        putc(ch, in);
    }
    然后又用记事本打开in.txt,在那个奇怪的字符(y上面多两点,其二进制值是-1)后面自己加了一些英文字符。分别用test1.c和test2.c进行试验,test1中新文件没有内容;test2全部都能读到新文件中,只不过test2中的新文件后面仍让有那个奇怪字符(y上面多两点,其二进制值是-1)。很奇怪阿,如果-1是文件结束符的话,应该在读第一个字符的时候就停止了阿,怎么还能把-1后面的字符都读到新文件中呢?又查阅了资料,自己猜想结论如下:虽然-1在C里被定义成文件结束符(EOF),但并不是说文件里出现了-1就表示文件结束,其实文件结束时候的-1是系统在读到文件结束时候返回的一个值,而不是说系统读到-1就知道文件结束(不知道有没有把我的意思描述清楚),简言之就是系统现知道文件结束了才返回-1,而不是先读到-1才知道文件结束。所以,在文件中出现的-1并不是说文件结束,只有当真正文件指针指向文件结尾的时候系统返回的那个-1才表示文件结束。之所以在test1中不能读是因为EOF=-1,用读出来的-1跟EOF比较肯定是真的。(这个部分很难描述,大家可以去实际试验下,有什么问题欢迎讨论。)

    第四,用fread()函数来判断文件结束:
    -------test4.c----------------
    int main(int argc, char* argv[]){
        char ch;
        FILE* in;
        FILE* out;
        
        in = fopen("in.txt", "rb");
        out = fopen("out.txt", "wb");
        while (fread(&ch, sizeof(char), 1, in) == 1){
             putc(ch, out);
        }
    }
    这个方法能够把文件都读到新文件中,并且能有效判断文件结束(不会在末尾添加上奇怪字符(y上面多两点,其二进制值是-1)),在测试三中试验的文本in.txt也能读,而且是全部字符都读到新文件中。

    结论4:从一定程度上证明了测试三猜想的正确性。

    最后
    通过上面四个试验,对C中的文件操作又有了更深的认识,在查资料的时候还发现文件操作跟操作系统、编译器也有一定的关系。不管怎么说,如果用C操作文件的时候,建议用上面测试四中的方法。


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/9/30 11:30:00
     
     PureC 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2005/10/15

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给PureC发送一个短消息 把PureC加入好友 查看PureC的个人资料 搜索PureC在『 C/C++编程思想 』的所有贴子 引用回复这个贴子 回复这个贴子 查看PureC的博客2
    发贴心情 
    最近也在研究这个文件读写的问题,碰到个问题,希望跟大家交流交流!
    这上我写的一个小demo程序
    #include <stdio.h>
    int main()
    {
     FILE *fp;
     FILE *wp;
     unsigned char ch1;

     if((fp = fopen("ss.bin","rt")) == NULL)
      printf("File could not be opened.\n");
     else{
      if((wp = fopen("ss.txt","wt")) == NULL)
       printf("File could not be opened.\n");
      else{
       while (fread(&ch1, sizeof(char), 1, fp) == 1)
                putc(ch1, wp);
      }
     }

     fclose(fp);
     fclose(wp);
     return 0;
    }

    假如ss.bin中的第一个字节是 1AH 的话,他就会认为文件结束了,不读了,但后面还有字节!
    1AH 是一个替代控制符号,
    把 1AH 换成其他的字符倒都能读出来,FFH 也能读出来,不知道大家有没有碰到这中情况呢!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/10/15 14:42:00
     
     binaryluo 帅哥哟,离线,有人找我吗?
      
      
      威望:6
      等级:研二(Pi-Calculus看得一头雾水)(版主)
      文章:679
      积分:5543
      门派:IEEE.ORG.CN
      注册:2005/2/19

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给binaryluo发送一个短消息 把binaryluo加入好友 查看binaryluo的个人资料 搜索binaryluo在『 C/C++编程思想 』的所有贴子 引用回复这个贴子 回复这个贴子 查看binaryluo的博客3
    发贴心情 
    用fread,打开方式是rb是不会出问题的。
    你能不能把你的ss.bin文件传上来看下。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/10/18 11:50:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 C/C++编程思想 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/11/25 21:15:11

    本主题贴数3,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    78.125ms