Zglebianie-danych-projekt

时间:2024-06-20 05:10:49
【文件属性】:

文件名称:Zglebianie-danych-projekt

文件大小:970KB

文件格式:ZIP

更新时间:2024-06-20 05:10:49

Java

齐夫定律 入学 Zipf 定律 - 这是一个定律,它表明文本中单词的频率应该与排名成反比,其中排名是通过计算单词的频率并按降序对结果列表进行排序来进行的。 IE。 算法遇到的第一个单词的出现频率大约是排名中第二个单词的两倍。 工具 为了考虑这个问题,我使用了一个用 Java 编写的算法。 要在本地运行项目,安装 jre 8 就足够了。 数据 用于分析的书籍文本来自pl.wikisource.org、autocentrum.pl门户和ae-lib.org.ua/texts-c 我选择了以下书籍/文章进行测试: 亨利克·显凯维奇《条顿骑士团》第 2 部分 波列斯瓦夫·普鲁斯《玩偶》第一卷 来自 autocentrum.pl 门户网站的 3 篇最新出版物 约翰 RR 托尔金《指环王:王者归来》第五卷 正文中去掉了章节编号和标题,这里附上github存储库中的程序代码。 该程序应该从系统命令行正


【文件预览】:
Zglebianie-danych-projekt-master
----lalka_tomI.csv(217KB)
----bin()
--------WordCounter.class(5KB)
--------Zipf.class(3KB)
--------WordCounter$ValueComparator.class(1KB)
----lalka_tomI.txt(554KB)
----img()
--------total.png(8KB)
--------lalka.png(7KB)
--------krzyzacy.png(9KB)
--------autocentrum.png(11KB)
--------lotr.png(9KB)
----README.pdf(113KB)
----total_pl.csv(278KB)
----autocentrum_pl_3publikacje.txt(22KB)
----krzyzacy_cz2.txt(162KB)
----return_of_the_king_bookV.csv(111KB)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
----src()
--------WordCounter.java(2KB)
--------Zipf.java(1KB)
----.project(363B)
----.classpath(295B)
----.gitignore(574B)
----autocentrum_pl_3publikacje.csv(17KB)
----README.md(5KB)
----.gitattributes(378B)
----return_of_the_king_bookV.txt(706KB)
----krzyzacy_cz2.csv(76KB)

网友评论