文件名称:Sentences_Pair_Similarity_Calculation_Siamese_LSTM:基于注意力的暹罗曼哈顿LSTM的Keras实现
文件大小:40.91MB
文件格式:ZIP
更新时间:2024-06-04 17:02:26
keras attention manhattan-distance siamese-lstm Python
孪生LSTM网络(Siamese-LSTM) 本项目是基于孪生LSTM网络+注意力机制+曼哈顿距离(Manhattan distance)实现的句对相似度计算。 中文训练数据为蚂蚁金服句对数据,约4万组,正负样本比例1:3.6;英文训练数据来自Kaggle上的Quora句对数据,约40万组,正负样本比例1:1.7。新增一组翻译数据:使用Google Translator将Quora数据翻译成中文。 资料 参考文献 *可能无法访问《How to predict...Manhattan LSTM》一文,请直接查看本项目中附件之参考博客 其它数据 英文词向量: 英文词向量: 中文词向量: 工程参考 Original author's GitHub 一些网络设计思路 使用 训练 $ python3 train.py $ type cn for Chinese Data or en for
【文件预览】:
Sentences_Pair_Similarity_Calculation_Siamese_LSTM-master
----data()
--------stopwords.txt(13KB)
--------atec_train_segmented.csv(3.75MB)
--------atec_train_nonsegmented.csv(3.15MB)
--------quora_train_segmented.csv.zip(17.25MB)
--------README.md(291B)
--------quora_train.csv.zip(21.17MB)
----train.py(7KB)
----predict.py(2KB)
----util.py(5KB)
----【参考博客】在英文数据集上实现基于Siamese_LSTM网络的句对相似度计算.pdf(671KB)
----word2vec.py(1KB)
----score.py(3KB)
----README.md(3KB)