文件名称:pg-essay-lda:保罗·格雷厄姆(Paul Graham)的论文的主题建模
文件大小:1006KB
文件格式:ZIP
更新时间:2024-05-30 17:12:59
Python
保罗·格雷厄姆(Paul Graham)写什么? 背景:保罗·格雷厄姆(Paul Graham)可能是当今时代最有影响力的技术专家之一。 这不仅是因为ViaWeb或YC,还因为他在与计算机科学,技术及其对整个社会的影响有关的所有方面都堪称典范。 他的论文具有传奇色彩,他简洁的思想表达风格使每个人都渴望得到更多。 因此,当我了解了使用NLP工具包可能实现的一些更高级的内容时,我想为什么不将它们应用于他的论文中,以了解他写的最多的书! 最初,我考虑过训练一个gram gram word2vec以生成特定于PG的嵌入,但是后来我着手进行主题建模。 在某个时间点之后,单词代数就没那么有趣了。 训练数据实际上也很小。 方法: 我在他的网站上抓了一些文章,但不包括Lisp特有的章节。 (我们都知道这将始终是#1主题) 然后,我在论文上运行spaCy管道以清理数据:删除时间/日期,空格,停用词