文件名称:PpdaiQuestionPairsMatching:第三届魔镜杯大赛 相似问匹配
文件大小:9KB
文件格式:ZIP
更新时间:2024-05-29 16:56:25
Python
LSTM CNN 2. 特征工程 question(leak): tf: q1/q2/q1+q2 tfidf: q1/q2/q1+q2 words(chars): 针对字符串计算 词数 词数差 重叠词数:len(set(q1) & set(q2)) 相同度(相异度 = 1 - 相同度): com / (q1 + q2 - com)每个状态分量根据目标设置最优权重 simhash jaccard: jaccard = lambda a, b: len(set(a).intersection(b))/(len(set(a).union(b))+0.) 对目标影响大的词(lstm状态差等) 编辑距离 fuzz.QRatio fuzz.WRatio fuzz.partial_ratio fuzz.token_set_ratio fuzz.token_sort_ratio fuzz.partial_
【文件预览】:
PpdaiQuestionPairsMatching-master
----.gitignore(1KB)
----README.md(2KB)
----LICENSE(1KB)
----Baseline()
--------README.md(1B)
--------wv_lstm.py(8KB)
--------SimaeseLSTM.md(1016B)
--------线上0.35.py(2KB)
--------线上0.507.py(2KB)