文件名称:百度开源其NLP主题模型工具包
文件大小:58KB
文件格式:ZIP
更新时间:2020-09-11 07:43:29
LDA模型 主题模型 工具包
2017年7月4日,百度开源了一款主题模型项目,名曰:Familia。 InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访,在本文中,他将为我们解析Familia项目的技术细节。 什么是Familia Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。
【文件预览】:
Familia-master
----.travis.yml(221B)
----run_show_topic_demo.sh(188B)
----run_query_doc_sim_demo.sh(211B)
----depends.mk(1KB)
----run_word_distance_demo.sh(199B)
----model()
--------download_model.sh(384B)
--------README.md(2KB)
----python()
--------run_slda_infer_demo.sh(176B)
--------run_query_doc_sim_demo.sh(196B)
--------run_word_distance_demo.sh(186B)
--------cpp()
--------run_lda_infer_demo.sh(174B)
--------demo()
--------README.md(1KB)
--------run_doc_distance_demo.sh(175B)
--------run_topic_word_demo.sh(183B)
----include()
--------familia()
----run_inference_demo.sh(175B)
----LICENSE(1KB)
----src()
--------util.cpp(729B)
--------vocab.cpp(1KB)
--------semantic_matching.cpp(4KB)
--------vose_alias.cpp(2KB)
--------model.cpp(3KB)
--------inference_engine.cpp(3KB)
--------sampler.cpp(12KB)
--------tokenizer.cpp(3KB)
--------demo()
--------document.cpp(3KB)
----AUTHORS(384B)
----.gitignore(105B)
----Makefile(3KB)
----README.md(5KB)
----proto()
--------config.proto(751B)
----build.sh(68B)
----run_doc_distance_demo.sh(178B)
----run_topic_word_demo.sh(226B)