文件名称:atec-nlp:ATEC金融大脑-金融智能NLP服务
文件大小:10.17MB
文件格式:ZIP
更新时间:2024-02-24 12:31:27
nlp deep-learning text-classification siamese-network NaturallanguageprocessingPython
ATEC NLP句子对相似度竞赛 1,赛题任务描述 问题相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示相同的语义。 示例: “花呗如何还款”-“花呗怎么还款”:同义问句“花呗如何还款”-“我怎么还我的花被呢”:同义问句逾期了怎么还款”-“花呗分期后逾期了哪里还款”:非同义问句对于例子a,比较简单的方法就可以判定同义;对于示例b,包含了错别字,名词,词序变换等问题,两个句子乍一看并不类似,想正确判断比较有挑战;对于示例c,两句话很类似,只是处处细微的区别“如何”和“哪里”,就造成语义平行。 2,数据 本次大赛所有数据均来自蚂蚁金服金融大脑的实际应用场景,赛制分初赛和复赛两个
【文件预览】:
atec-nlp-master
----.gitignore(59B)
----pytorch()
--------siamese_network.py(3KB)
--------dataset.py(4KB)
--------train.py(11KB)
--------train2.py(10KB)
--------model.py(6KB)
--------__init__.py(80B)
--------text_rcnn.py(3KB)
----README.md(4KB)
----utils()
--------__init__.py(79B)
--------zh_wiki.py(140KB)
--------train_test_split.py(492B)
--------langconv.py(8KB)
--------data_stats.py(4KB)
--------feature_engineering.py(1KB)
----LICENSE(1KB)
----tf()
--------siamese_net.py(14KB)
--------dataset.py(12KB)
--------train.py(16KB)
--------pred.py(2KB)
--------encoder.py(10KB)
--------__init__.py(80B)
--------bad_cases.py(3KB)
----requirements.txt(42B)
----data()
--------atec_nlp_sim_train.csv(8.69MB)
--------atec_nlp_sim_train2.csv(5.37MB)
--------pred.csv(868KB)
--------word_vec(4.96MB)
--------atec_token.csv(3.44MB)
--------w2v.txt(1.83MB)
--------UserDict.txt(66B)
--------atec_nlp_sim_train1.csv(3.32MB)
--------char_vec(1.83MB)