文件名称:stackexchange-parser:一个简单的脚本,用于将StackExchange XML转储转换为CSV
文件大小:11KB
文件格式:ZIP
更新时间:2024-06-12 04:09:12
Python
stackexchange-parser 一个简单的脚本,用于将StackExchange XML转储转换为CSV 从StackExchange转储中读取Posts.xml和Comments.xml文件,并写出三个CSV:+带有列['id','title','text','url','creation_date']的CSV,其中包含有关每个字段的信息页面(即与所有答案一起考虑的问题)+ CSV,其中列出了帖子提供的文档ID和用户ID对+相同,只是用于注释。 所有输出均为UTF-8编码。 输入文件中以“ <row”开头的每一行都被视为StackExchange帖子的XML规范。 通过结合答案和问题的文本,将答案和问题汇总到单个输出行中。 既不是答案也不是问题的帖子将被忽略。 用法示例: python stackexchange_parser.py --posts-input sam
【文件预览】:
stackexchange-parser-master
----stackexchange_parser.py(7KB)
----LICENSE.md(11KB)
----README.md(983B)
----xml_utils.py(1KB)
----sample-inputs()
--------Comments.xml(843B)
--------Posts.xml(4KB)