文件名称:SMMT:社交媒体挖掘工具包(SMMT)主存储库
文件大小:229KB
文件格式:ZIP
更新时间:2024-05-27 17:37:49
tweets annotation twitter-api data-acquisition spacy
社交媒体挖掘工具包(SMMT) 此处收集和展示的工具集旨在促进社交媒体数据(目前主要为Twitter)的获取,预处理和初步探索。 该集中式存储库取决于需要安装的其他广泛可用的库。 我们将此工具包分为三个类别(每个类别在一个单独的文件夹中): 1.数据获取工具:从社交媒体网站收集数据的实用程序2.数据预处理工具:用来解析社交媒体“原始”数据并按术语分开的实用程序3.数据注释和标准化工具:用于在预处理的推文上进行自动NER注释的实用程序,使用流行注释工具和NER系统的插件 用法 安装依赖项(如下) 克隆存储库 如果您正在收集任何Twitter数据,请确保您拥有Twitter API密钥 每个工具文件夹类别中的README文件都描述了每个工具及其用法。 可以使用以下命令安装此工具包中使用的所有库。 sh requirements.sh 注意:如果您想设置无头浏览自动化任务,请安装下面提供
【文件预览】:
SMMT-master
----data_acquisition()
--------copy_api_keys.sample(153B)
--------streaming.py(4KB)
--------streaming_simple.py(3KB)
--------get_metadata.py(7KB)
--------copy_auth.py(263B)
--------userConfig.pyc(450B)
--------userConfig.py(357B)
--------search_generic.py(4KB)
--------geckoDriverInstall.sh(755B)
--------README.md(5KB)
--------scrape.py(7KB)
----data_annotationANDstandardization()
--------SMMT_NER_basic.py(4KB)
--------2termsAE.PNG(58KB)
--------create_dictionary.py(667B)
--------singletermAE.PNG(58KB)
--------README.md(3KB)
----data_preprocessing()
--------parse_json_lite.py(3KB)
--------separate_tweet_tsv.py(3KB)
--------fields.py(5KB)
--------separate_tweet.py(6KB)
--------README.md(9KB)
----requirements.sh(182B)
----LICENSE(34KB)
----examples()
--------Example2()
--------Example1()
----.gitignore(41B)
----README.md(5KB)