SIFRank_zh:基于预训练模型的中文关键词提取方法(论文SIFRank

时间:2021-03-21 04:27:41
【文件属性】:
文件名称:SIFRank_zh:基于预训练模型的中文关键词提取方法(论文SIFRank
文件大小:2.4MB
文件格式:ZIP
更新时间:2021-03-21 04:27:41
word-embeddings python36 keyword-extraction keyphrase-extraction sif SIFRank_zh 这是我们论文的相关代码原文是在对英文关键短语进行抽取,这里迁移到中文上,部分管道进行了改动英文原版在。。 版本介绍 2020/03 / 03——最初最初版本本版本中只包含了最基本的功能,部分细节还有待优化和扩展。 核心算法 预训练模型ELMo +句向量模型SIF 词向量ELMo优势:1)通过大规模预训练,较早的TFIDF,TextRank等基于统计和图的具有更多的语义信息; 2)ELMo是动态的,可以改善一词多义问题; 3)ELMo通过Char -CNN编码,对生隐词非常友好; 4)不同层的ELMo可以捕捉不同层次的信息 句子矢量SIF优势:1)根据词频对词向量进行平滑逆频率变换,能更好地捕捉句子的中心话题; 2)更好地过滤通用词 最终关键焦点识别 首先对句子进行分词和词性标注,再利用正则表达式确定确定名词短语(例如:形容词+名词),将名词作为前缀关键字 最终关键利率
【文件预览】:
SIFRank_zh-master
----auxiliary_data()
--------chinese_stopwords.txt(5KB)
--------zhs.model()
--------__init__.py(91B)
--------dict.txt(4.84MB)
--------user_dict.txt(62B)
----others()
--------elmo.py(8KB)
----data()
--------__init__.py(91B)
--------test.01.txt(770B)
----model()
--------extractor.py(2KB)
--------__pycache__()
--------__init__.py(91B)
--------method.py(7KB)
--------input_representation.py(2KB)
----test()
--------test.py(2KB)
----.idea()
--------codeStyles()
--------misc.xml(197B)
--------vcs.xml(180B)
--------modules.xml(266B)
--------dictionaries()
--------SIFRank.iml(453B)
--------workspace.xml(33KB)
----README.md(8KB)
----util()
--------__pycache__()
--------fileIO.py(416B)
----embeddings()
--------__pycache__()
--------sent_emb_sif.py(12KB)
--------word_emb_elmo.py(1KB)
--------__init__.py(90B)

网友评论