NER_NEL_KG:命名实体识别和命名实体与Stanza的链接,可从RSS新闻和Subreddits中创建知识图

时间:2024-04-25 23:22:01
【文件属性】:

文件名称:NER_NEL_KG:命名实体识别和命名实体与Stanza的链接,可从RSS新闻和Subreddits中创建知识图

文件大小:10KB

文件格式:ZIP

更新时间:2024-04-25 23:22:01

Python

命名实体识别和命名实体与Stanza的链接,可从RSS新闻和Subreddits中创建知识图 “数据”文件夹:包含项目的所有数据。 “ data / raw”文件夹:包含reddit和rss中从22.03.2021到05.04.2021的所有已抓取新闻。 使用0_crawlReddit.py和0_crawlRSS.py脚本对数据进行爬网。 “ data / prepprocessed”文件夹:包含由1_preprocess.py脚本创建的所有预处理新闻。 由1_preprocess.py创建的文件。 “ data / news_stanza.json”包含由节处理的具有已连接实体ID的所有新闻。 由2_NER_stanza.py创建的文件 “ data / entities.json”包含节检测到的所有实体,包括已连接的news_ids。 由2_NER_stanza.py创建的文件


【文件预览】:
NER_NEL_KG-main
----3_SPARQL_Wikify.py(4KB)
----6_CountEntities.py(789B)
----0_crawlRSS.py(1KB)
----5_News.yarrr.yml(974B)
----0_crawlReddit.py(2KB)
----2_NER_stanza.py(6KB)
----4_SPARQL_Check.py(10KB)
----Readme.md(2KB)
----1_preprocess.py(3KB)

网友评论