从2016年年初，开始用python写一个简单的爬虫，帮我收集一些数据。
6月份，开始学习Machine Learning的相关知识。
9月开始学习Spark和Scala。
现在想，整理一下思路。
先感谢下我的好友王峰给我的一些建议。他在Spark和Scala上有一些经验，让我前进的速度加快了一些。

学习算法

作为一个程序猿，以前多次尝试看过一些机器学习方面的书，其过程可以说是步履阑珊，碰到的阻力很大。
主要原因是，读这些机器学习的书，需要有一些数学方面的背景。
问题就在这些数学背景上，这些背景不仅仅是数学技巧，也有一些共识。对于缺乏这些背景的我，即使一个简单的公式，也有时会感到困惑。
如果你像我一样是一个程序猿，我建议读Peter Harrington写的Machine Learning in Action （中文书名是《机器学习实战》）。
这本书是以开发者的知识背景来写的，并且提供的python代码可以下载，方便开发人员理解。

学习算法的Level

Level 1：了解如何使用算法
Level 2：了解算法的正确使用场景
正确的使用一个算法，需要经验和对算法理论的了解。
我以前有些这方面的经验，很多错误在于不正确地使用了算法。
当我们编程序给别人用时：
- 需要理解算法
  最低要求，也要有一些基本的统计知识。
- 需要实现算法
  实现算法一般比较简单，需要注意性能和精度。
  基本上这部分在实现好后，比较稳定。
- 需要实现将用户数据应用到算法上的过程。
  这是程序员主要干的工作，接口、性能上的考虑很多。
- 需要理解用户的使用场景。
  这部分价值很大。
  一方面，写单元测试是不可避免的，理解用户的场景才能写出有效的单元测试程序。
  另外，会有很多处理客户问题的工作，也是长经验的机会。
Level 3：了解算法的后面的数学理论
有人觉得这个用处不大。我觉得了解数学理论，可以：
- 成为真正的行家
- 未来的路还很远，怎么能戛然而止!
- 使用算法来帮助自己的一些事情，或者实现一个新的算法。
- 现在人工智能的潜力很大，可以自己好好玩玩。

学习python

在数据量不大的情况下（几个G），单机上就可以很好跑机器学习的程序。
这时，Python的用途就很大，不仅有已经实现好的算法，也可以实现爬虫，从网上获取数据。

学习Scala和函数式编程

对于大数据处理来说，Spark和Scala结合是现在的大趋势。
我写的博文有：
学习Scala：初学者应该了解的知识
 函数式编程 : 一个程序猿进化的故事
 Scala underscore的用途
 不变(Invariant), 协变(Covarinat), 逆变(Contravariant) : 一个程序猿进化的故事
 Scala Collection简介
 Scala on Visual Studio Code

学习Spark架构

我写的博文有：
Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境
 Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用
 Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用
 Spark集群 + Akka + Kafka + Scala 开发(4) : 开发一个Kafka + Spark的应用

学习在Spark上的机器学习项目开发经验

学习更多的算法

蒙特卡洛树算法

成为Spark的Contributer

成为Spark的Contributer是件很cool的事。

可以读读Spark的代码，从中应该可以增长不少。
然后，尝试修一些Spark的Bugs。

深度学习

路还很长。

秒客网

我的Machine Learning学习之路