文件名称:tencent_ad:腾讯社交广告算法大赛2018
文件大小:200KB
文件格式:ZIP
更新时间:2024-05-14 23:22:49
Python
tencent_ad 腾讯社交广告算法大赛 Baseline baseline : baseline_topk: 选择在interest kw topic等特征中出现频率topk的值,删除剩余的低频值 由于kw topic等id类特征繁多,并且发现很多kw或者topic成对出现: 因此首先使用word2vec进行词向量构造, 然后使用k-mean对词向量进行降维,对相似度极高的kw或者topic进行合并处理;再使用 缺陷: 由于机器原因 词向量的维度太小,而id类特征太多,导致词向量无法对id进行很好的区分; 数据量较大,kmean需要极大的内存开销,并且聚类时间较长;
【文件预览】:
tencent_ad-master
----feature_cross.py(6KB)
----util_feature_selcet.py(7KB)
----util_vectorTokmeans.py(2KB)
----feature_user.py(4KB)
----baseline.py(5KB)
----baseline()
--------Baseline.py(3KB)
--------data_to_ffm_format.py(2KB)
--------Baseline_topk.py(4KB)
--------input()
--------big_old_baseline.py(4KB)
--------userFeature_to_DataFrame.py(986B)
--------README.md(6KB)
----feature_nlp.py(6KB)
----util_word2vec.py(4KB)
----feature_select.py(1KB)
----feature_kmeans.py(2KB)
----one_hot_baseline.py(6KB)
----README.md(672B)
----Main.py(3KB)
----util_base.py(2KB)
----util_models.py(3KB)
----util_convert_ffm.py(2KB)
----feature_ad.py(1KB)