dos2unix与unix2dos之学习记录

1. unix2dos与dos2unix这两个tool是用来干什么的？

这首先应该要说明一下背景知识：

unix类操作系统下，换行字符是\n；

而早期的dos操作系统，其换行字符是由\r\n组成。

所以如果将unix系统下的文本文件copy到dos系统下

或者将dos系统下的文本文件拷贝到unix下可能会存在问题。

所以就出现了unix2dos以及dos2unix这两个tool。

2. 为什么早期的操作系统换行需要用\r\n两个字符来表示？

关于这个历史就当是看故事吧。

在计算机出现之前，有一种叫做电传打印机的设备，每秒钟打印10个字符，

但是当一行打印结束，需要换到下一行时，需要耗时0.2s做换行回车的动作

将打印机指向下一行起始位置。而如果在这过程中有新的字符传过来，

则该新字符就会丢失。那为了解决这个问题，研究人员就想到了在回车换行的

过程中多打印\r\n这两个不会影响到显示的字符来解决可能存在的字符丢失问题。

而随着计算机的发展，科学家发现用\n一个字符即可达到这种换行回车的目的了。

3. linux系统下的文本文件直接copy到windows下面显示只会显示出一正行长长的字串？

这个目前我也不确定，需要通过实验以及更丰富的理论知识来确认。

如果有知道的朋友，也可以跟我讲喔，谢谢。

4. 所以dos系统下文本文件的size要比unix系统下文本文件的size要小？

毫无疑问，在二者显示内容完全相同的情况下dos系统文本文件每一行都会多一个\r字符。

5. unix2dos源代码应该如何实现？

综上所讲，我们知道unix2dos其实很简单的就是在每一个\n字符前面不上\r字符。

假设unix2dos这个tool的用法是：

./unix2dos ./unix_file ./dos_file

那伪代码过程基本如下：

#include <stdio.h>
#include <stdlib.h>
int main(int argc, char *argv[])
{
    fp_unix = fopen(argv[1], "rb");
    fp_dos = fopem(argv[2], "wb");
    while(!feof(fp_unix))
    {
        char = fgetc(fp_unix);
        if (char != '\n')
        {
            fputc(char, fp_dos);
        }
        else
        {
            fputc('\r', fp_dos);
            fputc(char, fp_dos);
        }
    }
}

6. dos2unix源代码应该如何实现？

dos2unix的代码实现很类似，区别在于如果连续的两个字符分别为\r,\n，

则需要将\n之前的\r字符删除掉。所以网上有朋友写了类似的程序将文件

中所有的\r字符删除是不正确的，因为\r可能是用户特定有用的字符。

部分代码如下：

while(!feof(fp_dos))
    {
        char1 = fgetc(fp_dos);
        char2 = fgetc(fp_dos);
        if (char1 == '\r' && char2 == '\n')
        {
            fputc(char2, fp_unix);
        }
        else
        {
            fputc(char1, fp_unix);
            fputc(char2, fp_unix);
        }
    }

以上代码并未做诸多参数有效性检查，出错处理等，仅供参考。

秒客网

dos2unix与unix2dos之学习记录

相关文章