reader-classic:远程阅读器是一种阅读工具

时间:2024-08-23 18:57:17
【文件属性】:

文件名称:reader-classic:远程阅读器是一种阅读工具

文件大小:5.26MB

文件格式:ZIP

更新时间:2024-08-23 18:57:17

HTML

远程阅读器经典 Distant Reader Classic 是一个高性能计算(HPC)系统,它以几乎任意数量的非结构化数据(文本)作为输入,并输出一组结构化数据进行分析——“阅读”。 远程阅读器采用五种不同类型的输入之一: URL - 适用于博客、单一期刊文章或长报告 URL 列表 - 最具扩展性,但创建列表可能有问题 文件 - 适用于您计算机上的长 PDF 文档 一个 zip 文件 - zip 文件可以包含您计算机中的任意数量的文件 一个zip文件加上一个元数据文件——有了元数据文件,读者的分析更完整 给定一个或另一个可能的输入,远程阅读器首先缓存原始内容。 然后它将内容转换为一组纯文本文件。 第三,Reader 对文本文件进行文本挖掘和自然语言处理以提取特征:n-gram、词性、命名实体等。这个过程的结果是一组制表符分隔的文本文件。 然后将整个制表符分隔的文本文件提炼到关系数据库


网友评论