文件名称:kaggle-quora-question-pairs:我对Kaggle Quora Question Pairs竞赛的解决方案(排名前2%,私有LB对数损失0.13497)
文件大小:2.6MB
文件格式:ZIP
更新时间:2024-02-24 12:29:32
nlp competition data-science machine-learning kaggle
kaggle-quora-问题对 我对(排名前2%,私人LB对数损失0.13497)。 总览 该解决方案结合了纯统计功能,经典NLP功能和深度学习。 将近200种手工制作的特征与来自具有不同架构的4个神经网络的失意预测相结合。 最终模型是GBM(LightGBM),使用分层的K折交叉验证对它进行了早期停止训练并且学习率非常低。 复制解决方案 硬件要求 几乎所有代码(某些第三方脚本除外)都可以有效利用多核计算机。 同时,其中一些可能需要大量内存。 所有代码均已在具有64 GB RAM的计算机上进行了测试。 对于所有非神经笔记本电脑, c4.8xlarge AWS实例应表现出色。 对于神经网络
【文件预览】:
kaggle-quora-question-pairs-master
----Vagrantfile(3KB)
----data()
--------README.md(521B)
--------aux()
----assets()
--------solution-diagram-drawio.xml(1.04MB)
--------solution-diagram.png(766KB)
----LICENSE(1KB)
----requirements.txt(638B)
----.gitignore(1KB)
----provisioning()
--------playbook.yml(4KB)
--------requirements.yml(309B)
--------inventory.ini(120B)
--------config.yml(425B)
----README.md(3KB)
----run-all.sh(2KB)
----notebooks()
--------feature-fuzzy.ipynb(6KB)
--------feature-3rdparty-dasolmar-whq.ipynb(13KB)
--------feature-phrase-embedding.ipynb(7KB)
--------cv_random_search_keras.py(6KB)
--------feature-oofp-nn-mlp-with-magic.ipynb(49KB)
--------cv-feature-dropout.ipynb(10KB)
--------preproc-nn-sequences-fasttext.ipynb(9KB)
--------feature-master-csv.ipynb(5KB)
--------feature-wordnet-similarity.ipynb(18KB)
--------feature-simple-summaries.ipynb(9KB)
--------feature-oofp-nn-cnn-with-magic.ipynb(62KB)
--------assets()
--------feature-magic-pagerank.ipynb(7KB)
--------cv-sigopt-search.ipynb(9KB)
--------feature-tfidf.ipynb(8KB)
--------feature-3rdparty-image-similarity.ipynb(11KB)
--------classify-lightgbm-cv-pred.ipynb(83KB)
--------feature-jaccard-ngrams.ipynb(8KB)
--------preproc-extract-unique-questions.ipynb(4KB)
--------feature-3rdparty-abhishek.ipynb(21KB)
--------preproc-embeddings-fasttext.ipynb(5KB)
--------feature-wmd.ipynb(5KB)
--------feature-nlp-tags.ipynb(32KB)
--------eda-features.ipynb(288KB)
--------feature-magic-frequencies.ipynb(7KB)
--------feature-wm-intersect.ipynb(107KB)
--------feature-oofp-nn-bi-lstm-with-magic.ipynb(57KB)
--------feature-magic-cooccurrence-matrix.ipynb(40KB)
--------preproc-tokenize-spellcheck.ipynb(13KB)
--------feature-lda.ipynb(8KB)
--------feature-3rdparty-mephistopheies.ipynb(137KB)
--------unused()
--------feature-oofp-nn-siamese-lstm-attention.ipynb(73KB)
--------cv-overfit-ftim.ipynb(11KB)