SIFRank_zh:基于预训练模型的中文关键词提取方法（论文SIFRank下载

【文件属性】：

文件名称：SIFRank_zh:基于预训练模型的中文关键词提取方法（论文SIFRank

文件大小：2.4MB

文件格式：ZIP

更新时间：2024-04-09 22:14:21

word-embeddings python36 keyword-extraction keyphrase-extraction sif

SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取，这里迁移到中文上，部分管道进行了改动英文原版在。。版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能，部分细节还有待优化和扩展。核心算法预训练模型ELMo +句向量模型SIF 词向量ELMo优势：1）通过大规模预训练，较早的TFIDF，TextRank等基于统计和图的具有更多的语义信息； 2）ELMo是动态的，可以改善一词多义问题； 3）ELMo通过Char -CNN编码，对生隐词非常友好； 4）不同层的ELMo可以捕捉不同层次的信息句子矢量SIF优势：1）根据词频对词向量进行平滑逆频率变换，能更好地捕捉句子的中心话题； 2）更好地过滤通用词最终关键焦点识别首先对句子进行分词和词性标注，再利用正则表达式确定确定名词短语（例如：形容词+名词），将名词作为前缀关键字最终关键利率

立即下载

【文件预览】：
SIFRank_zh-master
----auxiliary_data()
--------chinese_stopwords.txt(5KB)
--------zhs.model()
--------__init__.py(91B)
--------dict.txt(4.84MB)
--------user_dict.txt(62B)
----others()
--------elmo.py(8KB)
----data()
--------__init__.py(91B)
--------test.01.txt(770B)
----model()
--------extractor.py(2KB)
--------__pycache__()
--------__init__.py(91B)
--------method.py(7KB)
--------input_representation.py(2KB)
----test()
--------test.py(2KB)
----.idea()
--------codeStyles()
--------misc.xml(197B)
--------vcs.xml(180B)
--------modules.xml(266B)
--------dictionaries()
--------SIFRank.iml(453B)
--------workspace.xml(33KB)
----README.md(8KB)
----util()
--------__pycache__()
--------fileIO.py(416B)
----embeddings()
--------__pycache__()
--------sent_emb_sif.py(12KB)
--------word_emb_elmo.py(1KB)
--------__init__.py(90B)

秒客网

SIFRank_zh:基于预训练模型的中文关键词提取方法（论文SIFRank

网友评论

相关文章