介绍:Sebastian,无人车之父,优达学城创始人之一,斯坦福大学教授。这个皮肤癌检测项目就是他最近的一个深度学习课题。
1、皮肤癌症的种类
皮肤癌症有很多种类,有恶性肿瘤、黑色素瘤。其中黑色素瘤有0期、1期、2期、3期和4期之分。0期5年存活率99%-100%,4期5年存活率为15-20%。也就是说,发现的越早越容易治疗。
2、数据集
从临床、比赛搜集的13万皮肤影像。有健康的,也有不健康的,包含2000多种疾病:有皮肤癌症的,也有其他皮肤炎症,皮疹,损伤等。
3、清洗数据的挑战
重合,分辨率不一,亮度不一,大的黄色标记
一些医生在进行研究时,会对影像用黄色标记,来表征皮肤疾病的形态。这个对皮肤疾病的检测也是一个干扰,需要清洗掉。
4、神经网络
google循环神经网络:
最后分成757类。
使用google之前用于分类猫、狗、汽车的权重作为初始化权重,比直接使用随机权重更容易。
5、查全率,查准率和敏感性、特异性
见我的博文:https://blog.****.net/weixin_41770169/article/details/80362646
6、阈值的选择
p为0-1之间的概率,用来区分良性和恶性。选择0.2作为最终的阈值,可以区分所有良性、恶性,虽然有一些良性会进行更多的检查,但这个跟将病人误判为健康的代价比起来,小多了。
7、ROC曲线
一般的ROC曲线,是把TP作为水平轴,FP作为垂直轴。
这里的ROC曲线,是把敏感性Sensitivity作为水平轴,特异性Specificity作为垂直轴。
对于下面这张图,敏感性就是阈值右边,所有诊断为病变,被正确分类的比例是多少。特异性就是阈值左边,所有诊断为健康,被正确分类的比例是多少。
将阈值从0-1不断增加,得到的ROC曲线如下:
8、测试项目与医生对比:
蓝线是项目结果,红点是医生结果,绿点是医生的平均结果。
医生的结果很分散,而且有些医生会将癌症病人误判为健康。
9、混淆矩阵
当分类器很好时,对角线应该大于非对角线,甚至是单位矩阵。