文件名称:scattertext:关于文档类型之间语言差异的漂亮可视化
文件大小:7.38MB
文件格式:ZIP
更新时间:2024-02-24 09:03:04
visualization d3 nlp machine-learning natural-language-processing
分散文字0.1.0.0 一种用于在语料库中查找区别性术语并将其显示在交互式HTML散点图中的工具。 与术语相对应的点被有选择地标记,以使它们不与其他标记或点重叠。 以下是使用Scattertext创建可视化术语的示例,该术语在2012年美国政治公约中使用。 在散点图中,最关联的2,000个字母组合显示为点。 他们的x轴和y轴分别是共和党和*党议长使用它们的密集等级。 import scattertext as st df = st.SampleCorpora.ConventionData2012.get_data().assign( parse=lambda df: df.text.apply(st.whitespace_nlp_with_sentences) ) corpus = st.CorpusFromParsedDocuments( df, category_col='party', parsed_col='parse' ).build().get_unigram_corpus().compact(st.AssociationCompactor(2000