最早的一批数据分布为:据W 老师说水表有三种
姑且认为第一种为
第二种水表为:
第三种水表可能为(因为我不确定)
第一批训练集中的样本分布情况为:
总共 8781 张样本。
其中 0 开头的样本为:6006 张
1开头的样本为:415张
2 开头的样本为:361 张 全为第二种水表
3 开头的样本为:620 张 第一种水表的样本+第二种水表的样本
4 开头的样本为:139 张 全为第二种水表的样本
5 开头的样本为:446 张 第一种水表的样本+第二种水表的样本
6 开头的样本为:394 张 全第一种水表的样本--测试样本全为第一种水表 所以基本能识别正确
7 开头的样本为:为0
8 开头的样本为:400 张全第一种水表的样本
9 开头的样本为 :样本数为0
对测试集中的4800 张样本进行预测:
第一批测试了1700 张:
第二批测试了3400 张:
第二种水表的2全部识别正确 但是第一种水表的2会被是被成0 或者其他的字符比如5等
第一种水表的4 被错误识别成1 3 8 等
8会识别成4 8跟4很像么 完全不像好么
影响识别正确的原因还可能是检测定位的时候定位框少为小一些:
比如把部分的6 错误识别成5
第二次训练在第一次训练的基础上添加了3045 张样本:
分别是:
0 添加 791 张 第一种水表
1 添加 186 张 第一种水表+第二种水表
2 添加了几张第一种水表的样本 +大部分第二种水表样本
3 543 第一种水表的样本+第二种水表的样本
4 第一种样本243 张
5 402 张第二种样本
6 314张第一种样本
7 66 张第二种样本
8 38 张第一种样本