文件名称:python批量word转txt(无视文档损坏/不需要依赖库/1秒300个)
文件大小:1KB
文件格式:PY
更新时间:2021-11-19 13:42:05
docx 文件转换 txt word python3
对于没有损坏的word可以用网上常见的教程通过win32com库转换为txt,我的电脑实测约为1.34秒/个文档。对于文档损坏的docx文档,无法借助代码打开office的(没损坏的也可以),使用这个代码,读取xml的文本数据,进行文档转换,实测约为300个文档/秒(也许更快,但是我没有这么多word文档)。【使用方法:将需要转换的文档放入passage文件夹(如有需要变更可以改程序代码),将程序放在passage文件夹外,自动转换所有文件夹内的docx文件,命名为同名+"_xml2txt"的txt文档,文件夹内允许有其他格式文件存在,实测每秒300个】