文件名称:文本分类-c#实现文件夹的复制和删除
文件大小:1.82MB
文件格式:PDF
更新时间:2024-06-29 10:35:55
面试算法
7. @Copper_PKU:July的svm tutorial 我个人觉得还可以加入和修改如下部分:(1) 对于支持向量解 释,可以结合图和拉格朗日参数来表达,松弛中sv没有写出来. (2) SMO算法部分,加入Joachims论文 中提到的算法,以及SMO算法选取workset的方法,包括SMO算法的收敛判断,还有之前共轭梯度求 解方法,虽然是较早的算法,但是对于理解SMO算法有很好的效果。模型的优化和求解都是迭代的过 程,加入历史算法增强立体感。-- http://weibo.com/1580904460/Akw6dl3Yk#_rnd1385474436177。 8. //@廖临川: 之所以sgd对大训练集的效果更好,1.因为SGD优化每次迭代使用样本子集,比使用训练 全集(尤其是百万数量级)要快得多;2.如果目标函数是凸的或者伪凸的,SGD几乎必然可以收敛到全 局最优;否则,则收敛到局部最优;3.SGD一般不需要收敛到全局最优,只要得到足够好的解,就可以 立即停止。//@Copper_PKU:sgd的核心思想:是迭代训练,每拿到一个样本就算出基于当前w(t) 的 loss function,t代表训练第t次,然后进行下一w(t+1)的更新,w(t+1)=w(t)-(learning rate) * loss function的梯度,这个类比神经网络中bp中的参数训练方法。 sample by sample就是每次仅处 理一个样本 而不是一个batch。 9. //@Copper_PKU:从损失函数角度说:primal问题可以理解为正则化项+lossfunction,求解目标是 在两个中间取平衡 如果强调loss function最小则会overfitting,所以有C参数。 //@研究者July: SVM还真就是在一定限定条件下,即约束条件下求目标函数的最优值问题,同时,为减少误判率,尽 量让损失最小。 10. ... 参考文献及推荐阅读 1. 《支持向量机导论》,[美] Nello Cristianini / John Shawe-Taylor 著; 2. 支持向量机导论一书的支持网站:http://www.support-vector.net/; 3. 《数据挖掘导论》,[美] Pang-Ning Tan / Michael Steinbach / Vipin Kumar 著; 4. 《数据挖掘:概念与技术》,(加)Jiawei Han;Micheline Kamber 著; 5. 《数据挖掘中的新方法:支持向量机》,邓乃扬 田英杰 著; 6. 《支持向量机--理论、算法和扩展》,邓乃扬 田英杰 著; 7. 支持向量机系列,pluskid:http://blog.pluskid.org/?page_id=683; 8. http://www.360doc.com/content/07/0716/23/11966_615252.shtml; 9. 数据挖掘十大经典算法初探; 10. 《模式识别支持向量机指南》,C.J.C Burges 著; 11. 《统计学习方法》,李航著(第7章有不少内容参考自支持向量机导论一书,不过,可以翻翻看看); 12. 《统计自然语言处理》,宗成庆编著,第十二章、文本分类; 编程之法:面试和算法心得 - 200 -本文档使用 看云 构建