文件名称:kaggle-tfi:Kaggle 的 TFI 餐厅收入预测竞赛代码
文件大小:3KB
文件格式:ZIP
更新时间:2024-08-04 15:43:30
Python
概括 比赛提供了一个包含 137 个观察值的训练集(是)和一个包含 100,000 个的测试集。 所有模型都会过拟合——目标是不要过拟合太多。 我主要用线性模型进行试验。 使用梯度提升树/随机森林似乎有点傲慢; 这些捕获更复杂的变量交互,因此导致更多的过度拟合。 我尝试了几种变量选择技术,其中 RandomizedLasso 最有用。 引用 sklearn 的文档:“基于 L1 的稀疏模型的局限性在于,面对一组非常相关的特征,他们只会选择一个。为了缓解这个问题,可以使用随机化技术,多次重新估计稀疏模型扰乱设计矩阵或子采样数据并计算给定回归量被选择的次数。” 用这么小的训练集,可以彻底了解变量空间。 具有原始、变换和多项式特征的单变量回归在建模过程中发挥了重要作用。 对于组织者以及任何想要制作更好模型的人来说,这真的很简单:获取更多数据! 要训练模型并生成提交,请在命令行上运行以
【文件预览】:
kaggle-tfi-master
----create_submission.py(4KB)
----README.md(1KB)