文件名称:KeyBERT:使用BERT进行最少的关键字提取
文件大小:77KB
文件格式:ZIP
更新时间:2024-04-07 18:49:22
mmr keyword-extraction bert keyphrase-extraction Python
基伯特 KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。 相应的媒体帖子可以在 找到。 目录 2.1。2.2。2.3。2.4。2.5。 1.关于项目 尽管已经有很多方法可用于关键字生成(例如 , ,TF-IDF等),但我想创建一种非常基本但功能强大的方法来提取关键字和关键字。这就是KeyBERT进来的地方!它使用BERT嵌入和简单的余弦相似性来查找文档中与文档本身最相似的子短语。 首先,使用BERT提取文档嵌入,以获得文档级表示。然后,针对N元语法词/短语提取词嵌入。最后,我们使用余弦相似度来查找与文档最相似的词/短语。然后,可以将最相似的词识别为最能描述整个文档的词。 KeyBERT绝不是唯一的,它是一种用于创建关键字和关键词的快速简便的方法。虽然有许多伟大的论文和解决方案,在那里,使用BERT-嵌入物(如, , ,
【文件预览】:
KeyBERT-master
----.gitattributes(31B)
----.github()
--------workflows()
----images()
--------icon.png(21KB)
--------logo.png(36KB)
----keybert()
--------model.py(14KB)
--------__init__.py(56B)
--------maxsum.py(2KB)
--------mmr.py(2KB)
----theme()
--------style.css(0B)
----mkdocs.yml(1KB)
----LICENSE(1KB)
----setup.py(2KB)
----README.md(9KB)
----Makefile(329B)
----docs()
--------index.md(4KB)
--------guides()
--------api()
--------style.css(0B)
----tests()
--------utils.py(2KB)
--------test_model.py(3KB)
--------__init__.py(0B)
--------conftest.py(176B)
----.gitignore(916B)