我的最后一公里

一、实习了这么久，总结一下，第一个月就只在接触数据库SQL语句，做了很多重复性的工作，每天只是在看FJR的SQL脚本，根据60个基本表构建20个过程表，并基于此构建一个总的用户汇总表。然后就是在他的脚本基础上改月份的引用，并没有多少进步。

等我将oracle脚本改成了pgsql的存储过程后，又发现其实做这个没有那么必要。所以第二阶段又开始做java程序，其实是一个很简单的程序。

然后最近才开始研究R脚本和python，发现这个工作才叫真正的数据建模和挖掘工作，很有意思，但是工作需要一些业务的知识去筛选变量好设置参数，如果业务了解的话，基本上都只是调用一下函数而已。

我称这个基于数据宽表的建模工作为数据挖掘的最后一公里，因为之前的大量工作都是在数据探索，数据清洗，而最后用到这个模型，只是一个函数，并输出带排名的名单。

等学会了最后一公里的知识，我这个实习的阶段算是结束了，也算是学到了东西。我选择python而不是R，因为python更接近于是一种面向对象的编程语言，与java相似，而且之前有系统学过它的数据类型，是一个很好地过渡语言，同时现在的python也比R更加强大了。

二、总结一下最后一公里需要学的东西有：

python的pandas包、matplotlib包、seaborn包、sklearn包，以及各种数理统计用到的思想。对于数据要有最原始的敏感，知道数据的分布，而且能画出来并表达清楚怎样的取舍；对于各种模型要有了解，在建模的时候知道应该选择哪一种模型更为合适，其实也是可以选择后对比的，但是对于模型的用途：分类、聚类、回归都要有一定的了解。

三、这个数据挖掘的流程算是跑通了，以后对于自己能干什么，会干什么都有一定能的了解了，对于此很欣慰。

虽然数据的准备工作还是在关系型数据库上得到的，最多只是接触到了基于pgsql的greenplum，并没有很深的接触到Hadoop和spark架构，但是这个流程算是通了，从数据准备到数据清洗，数据探索，数据建模，再到模型的用处，我都有一定的知识储备，对于各个流程的每个细节都有一定认识，可以胜任中间任何一个部分！只是需要一个机会。

秒客网

我的最后一公里

相关文章