前一段时间写了一篇文章,投给了Journal of Vibration and Control。现在JVC已经对投稿的字数进行限制了,记得是不能超过5000字。我一直使用latex撰写手稿,上传到投稿系统后,系统会自动生成PDF文件,用于审稿。
投稿几天后我收到了JVC文字处理编辑的邮件,告诉我字数达到了10000+,超出了杂志的字数上限,需要修改。但是我自己知道,我这篇文章的字数是不可能达到10000字的,所以唯一的解释就是文字编辑把字数数错了。。。
将近20页的文稿文字编辑是不可能一个一个字去数的,所以他肯定是把生成的PDF文档用word转成了word文档之后,通过word的字数统计给出的文字数。问题是word转PDF是不完美的,比如本来不应该属于文字的公式,转PDF之后会生成乱码,从而使word的字数统计虚高。我把本地生成的PDF转成word文档之后发现字数统计果然在10000+。
那么既然知道了原因,就要纠正文字编辑的字数统计方法——应该直接从.tex文件中统计文字数。但是.tex文件中不仅包含公式,还包含大量控制代码,直接统计文件内单词数肯定不合适;一个个去数英文单词数又太繁琐。那么到底该怎么办呢?
- 登陆 TexCount
- 点击Web interface
- 上传.tex文档,点击submit。一段时间之后就会生成类似如下报告 
可以看到,后台脚本已经对.tex文档的内容进行了解析。这里统计的text,headers,captions的总和才是真正的文字数。latex的控制代码已经被刨除了。网页背后使用一个PHP脚本来对.tex文件进行解析。也可以在本地安装PHP之后使用网站提供的脚本对文件进行字数统计,具体的做法可以参照网站上的指南。
经过这个网站的“专业”统计,我的文章字数自然是在5000以内。后来给JVC的文字编辑写了一封长邮件,解释了应该如何正确统计.tex文稿字数,文章也进入了后续审稿流程。