authorship-tracking:Python作者身份跟踪算法

时间:2024-06-03 16:07:41
【文件属性】:

文件名称:authorship-tracking:Python作者身份跟踪算法

文件大小:12KB

文件格式:ZIP

更新时间:2024-06-03 16:07:41

Python

作者追踪 此代码实现了用于跟踪已发布在WWW 2013中的修订内容中文本作者的算法: : 该思想在于将文本的每个部分归因于它出现的最早的修订版本。 例如,如果一个修订版本包含句子“ the cat ate the mouse”,并且将该句子删除,并在以后的修订版本中重新引入(不一定是还原的一部分),则一旦重新引入,它仍然是最早的版本。作者。 精确地,该算法采用参数N。如果之前出现了长度等于或大于N的令牌序列,则归因于其最早出现。 有关详细信息,请参见本文。 该代码通过在类AuthorshipAttribution的对象中构建修订的整个历史记录的基于Trie的表示来工作。 每次将新修订传递给对象时,对象都会更新其内部状态,并计算新修订的最早属性,然后可以轻松获得该属性。 对象本身可以使用基于json的方法进行序列化(和反序列化)。 为避免整个过去历史的表示量过大,我们从对象中删除


【文件预览】:
authorship-tracking-master
----.gitignore(13B)
----authorship_attribution.py(30KB)
----json_plus.py(6KB)
----README.md(3KB)

网友评论