文件名称:百度开源项目Familia
文件大小:58KB
文件格式:ZIP
更新时间:2021-12-23 14:13:23
LDA
Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。考虑到主题模型训练成本较高以及开源主题模型资源有限的现状,我们会陆续开放基于工业级语料训练的多个垂直领域的主题模型,以及这些模型在工业界的典型应用方式,助力主题模型技术的科研和落地。(English)
【文件预览】:
Familia-1.1.2
----run_inference_demo.sh(175B)
----build.sh(68B)
----proto()
--------config.proto(751B)
----AUTHORS(384B)
----depends.mk(1KB)
----src()
--------document.cpp(3KB)
--------sampler.cpp(12KB)
--------model.cpp(3KB)
--------demo()
--------inference_engine.cpp(3KB)
--------util.cpp(764B)
--------tokenizer.cpp(3KB)
--------vocab.cpp(1KB)
--------semantic_matching.cpp(4KB)
--------vose_alias.cpp(2KB)
----run_topic_word_demo.sh(226B)
----model()
--------README.md(2KB)
--------download_model.sh(384B)
----run_doc_distance_demo.sh(178B)
----run_word_distance_demo.sh(199B)
----run_show_topic_demo.sh(188B)
----.travis.yml(221B)
----LICENSE(1KB)
----run_query_doc_sim_demo.sh(211B)
----README.md(5KB)
----Makefile(3KB)
----.gitignore(105B)
----python()
--------cpp()
--------run_topic_word_demo.sh(183B)
--------run_doc_distance_demo.sh(175B)
--------run_word_distance_demo.sh(186B)
--------demo()
--------run_query_doc_sim_demo.sh(196B)
--------README.md(1KB)
--------run_slda_infer_demo.sh(176B)
--------run_lda_infer_demo.sh(174B)
----include()
--------familia()