文件名称:kaggle-word2vec-movie-reviews:言语的Kaggle袋遇到爆米花袋
文件大小:51.6MB
文件格式:ZIP
更新时间:2024-06-13 00:27:01
Python
kaggle-word2vec-电影评论 言语的Kaggle袋遇到爆米花袋 这是我为Kaggle竞赛“言语的包遇到爆米花的袋子”提交的内容的源代码( )。 公开排行榜AUC得分是0.97568。 该模型是两步集成模型。 第一步是使用logistic回归(由WA表示)对Bag-of-Words , Word2Vec , Doc2Vec和NBSVM进行加权平均。 第二步是WA及其两个修改的加权平均合奏。 进行两个修改:1)如果平均集合给出的概率大于0.5,则选择四个区分器的最大概率; 如果平均集合给出的概率小于0.5,则选择四个区分器的最小概率。 2)如果加权平均集合给出的概率大于0.5,则选择四个差分分类器的最大概率; 如果加权平均集合给出的概率小于0.5,则选择四个差分分类器的最小概率。 原因是正样本的输出尽可能接近1,而负样本的输出尽可能接近0。 两步合奏的性能比第一合奏的性能好
【文件预览】:
kaggle-word2vec-movie-reviews-master
----KaggleWord2VecUtility.py(3KB)
----nbsvm.py(2KB)
----generate_d2v.py(3KB)
----predict.py(8KB)
----LICENSE(18KB)
----generate_w2v.py(3KB)
----README.md(2KB)
----data()
--------testData.tsv(31.21MB)
--------unlabeledTrainData.tsv(64.16MB)
--------negator.txt(89B)
--------labeledTrainData.tsv(32MB)