最近在查看日志时,突然发现信息没有及时写入日志,研究了很久,突然醒悟:原来是print的缓存原因。
顺着这个详细了解了下perl里的IO缓存机制:
1.正常情况下,操作系统的读写都有缓存(buffer/cache),不同操作系统缓存大小不同,大约8K字节,目的是提高处理效率。因为读写磁盘是一个很低效的操作(相对于内存),累积起来一次读写大量数据会比每次读写少量数据快很多。
2.如果文件句柄是链接到终端的,比如STDOUT(也可以是其他句柄)输出到终端,那么perl标准IO库会默认设置为行缓冲模式,它有两个性质:a)遇到换行符会输出缓存内容;b)遇到从终端读(STDIN)则输出缓存。所以在终端上运行程序一般都会立刻输出内容,除非没有加换行符。
3.如果文件句柄是链接到文件的,如:
STDOUT被重定向到文件
% ./favorite > OUTPUT
那么它就不是行缓冲模式,而是会等到缓冲区满或者程序结束再输出。
这种情况下有时候就会出现文件内容一直为空,或者交互的时候一直在等待的问题。
4.有一个例外是STDERR,始终都默认为行缓冲模式。
5.如果想要取消缓冲模式,可以使用
$| = ;
或者
$fh->autoflush();
之后,perl会立刻输出缓冲区内容。
6.举例:
print "FILE LISTING OF DIRECTORY $dir:\n";
print "---------------------------------\n";
system("ls -l $dir");
print "---------------------------------\n";
如果是输出到终端或者设置了缓冲区立刻输出,那么它的输出顺序是正确的。如果输出重定向到文件,那么头两行print内容会在缓冲区内,而system()的内容在子进程运行结束后先输出进文件中,然后缓存的print内容在整个进程结束后才会写入文件,顺序就变化了。
7.STDOUT和STDERR输出到一个地方,并且使用缓存机制,当程序发生错误时,由于STDERR是行缓存的,所以它会先于STDOUT输出出来。
8.如果程序自身结束了,或者自己调用了die/exit等函数退出,那么缓冲区内容会最后输出出来。但是如果进程是被kill掉的,它的缓冲区内容就来不及输出。所以如果程序没有及时清空缓存,那么被kill之后,在日志文件里会没有数据或者只有部分不完整的数据(上一次buffer满了之后的输出)。
解决办法:在脚本中加入autoflush,每次print都直接输出,不进入buffer。