Familia:工业主题建模工具包

时间:2024-02-24 08:58:43
【文件属性】:

文件名称:Familia:工业主题建模工具包

文件大小:6.01MB

文件格式:ZIP

更新时间:2024-02-24 08:58:43

nlp topic-modeling lda topic-models sentence-lda

Familia开源项目包含文档主题文档,语义匹配计算工具以及基于工业级语料训练的主题模型:Latent Dirichlet Allocation(LDA),SentenceLDA和Topical Word Embedding(TWE)。支持用户以“拿来即用”的方式进行文本分类,文本聚类,个性化推荐等多种场景的研究和应用。考虑到主题模型训练成本以及开源主题模型资源有限的现状,我们会陆续开放基于工业级语料训练的多()一个垂直领域的主题模型,以及这些模型在工业界的典型应用方式,助力主题模型技术的科研和落地。 新闻!!! 近期,我们在 1.8版本中上线了Familia中的LDA模型,根据数据集的不同,区分为lda_news,lda_novel和lda_webpage。 PaddleHub使用起来非常方便,我们以lda_news的使用来进行实例介绍。 首先,在使用PaddleHub之前,需要先安装PaddlePaddle深度学习框架,更多安装说明请查阅。 安装Paddlehub: pip install paddlehub lda_news模型安装: hub install lda_news


【文件预览】:
Familia-master
----run_inference_demo.sh(175B)
----build.sh(68B)
----.dockerignore(36B)
----proto()
--------config.proto(751B)
----AUTHORS(423B)
----depends.mk(1KB)
----src()
--------document.cpp(3KB)
--------sampler.cpp(12KB)
--------model.cpp(3KB)
--------demo()
--------inference_engine.cpp(3KB)
--------util.cpp(729B)
--------tokenizer.cpp(3KB)
--------vocab.cpp(1KB)
--------semantic_matching.cpp(4KB)
--------vose_alias.cpp(2KB)
----run_topic_word_demo.sh(226B)
----model()
--------README.EN.md(3KB)
--------README.md(3KB)
--------download_model.sh(505B)
----Dockerfile(416B)
----run_doc_distance_demo.sh(178B)
----run_word_distance_demo.sh(199B)
----run_show_topic_demo.sh(188B)
----.travis.yml(221B)
----LICENSE(1KB)
----tools()
--------TWE_tools()
--------TopicFastMerge()
--------run_topic_model_fastmerge.sh(159B)
--------TopicCompress()
--------README.EN.md(1KB)
--------TopicMerge()
--------README.md(1KB)
--------run_topic_model_compress.sh(177B)
--------run_topic_model_merge.sh(159B)
----run_query_doc_sim_demo.sh(211B)
----README.EN.md(6KB)
----README.md(7KB)
----Makefile(3KB)
----papers()
--------Familia.pdf(5.22MB)
--------FTM.pdf(1.28MB)
----run_document_keywords_demo.sh(245B)
----.gitignore(258B)
----python()
--------cpp()
--------app.py(13KB)
--------run_topic_word_demo.sh(183B)
--------run_doc_distance_demo.sh(175B)
--------familia_wrapper.py(9KB)
--------run_word_distance_demo.sh(186B)
--------run_doc_keywords_demo.sh(180B)
--------requirements.txt(20B)
--------demo()
--------run_query_doc_sim_demo.sh(196B)
--------README.EN.md(1KB)
--------README.md(1KB)
--------run_slda_infer_demo.sh(174B)
--------run_doc_keywords_twe_demo.sh(203B)
--------run_lda_infer_demo.sh(172B)
----include()
--------familia()

网友评论