eluvio-challenge

时间:2024-04-29 18:58:53
【文件属性】:

文件名称:eluvio-challenge

文件大小:91.62MB

文件格式:ZIP

更新时间:2024-04-29 18:58:53

JupyterNotebook

挑战 数据集是表格形式的,涉及的特征应该是不言自明的。 我们希望您自己提出一个具体问题并妥善解决。 这是一个“开放挑战”,主要关注自然语言处理。 问题可能是有关预测建模的问题,也可能是针对某些业务用例的分析见解。 请注意,该问题应视为大规模问题,因为数据集很大(例如> 100GB),并且不适合计算机的RAM。 在编码语言方面,强烈建议使用Python。 问题形成 根据兴趣和兴趣主题为读者建议新闻标题 方法 为了解决这个问题,我将根据数据集构建一个嵌入模型,以不同地显示数据集上可用标题之间的相似性,然后将其馈入Kmeans算法(无监督学习)中以创建可用于建模的聚类。 但是,为了启动该项目并且由于时间限制,我将使用Tensorflow的Sentence Encoder和Gensim Word2vec模型等可用模型作为我的嵌入


【文件预览】:
eluvio-challenge-main
----.ipynb_checkpoints()
--------note-checkpoint.ipynb(24KB)
----models()
--------autoEncoder()
----embed.py(373B)
----README.md(1KB)
----encoder.py(896B)
----data()
--------embeddings.csv(76.7MB)
--------centroids.csv(12KB)
--------new_set.csv(76.96MB)
--------Eluvio_DS_Challenge.csv(78.36MB)

网友评论