caffe绘制训练过程的loss和accuracy曲线

时间:2021-01-10 08:09:34

在caffe的训练过程中,大家难免想图形化自己的训练数据,以便更好的展示结果。如果自己写代码记录训练过程的数据,那就太麻烦了,caffe中其实已经自带了这样的小工具 caffe-master/tools/extra/parse_log.sh  caffe-master/tools/extra/extract_seconds.py和 caffe-master/tools/extra/plot_training_log.py.example ,使用方法如下:

1.记录训练日志

在训练过程中的命令中加入一行参数 ,实现Log日志的记录

[plain] view plain copy
  1. TOOLS=./build/tools  
  2. GLOG_logtostderr=0 GLOG_log_dir=deepid/deepid2/Log/ \  
  3. $TOOLS/caffe train \  
  4.   --solver=deepid/deepid2/deepid_solver.prototxt  

其中目录改成自己系统的目录,这样训练结束之后,会在Log文件夹中生成每次训练的Log日志


2.解析训练日志

将最上面说的3个脚本文件拷贝到Log 文件夹下,执行:

[python] view plain copy
  1. ./parse_log.sh caffe.wujiyang-ubuntu.wujiyang.log  

后面的参数为log文件名,这样就会在当前文件夹下生成一个.train文件和一个.test文件


3.生成图片

执行

[plain] view plain copy
  1. ./plot_training_log.py.example 0  save.png caffe.wujiyang-ubuntu.wujiyang.log  

就可以生成训练过程中的Test accuracy  vs. Iters 曲线,其中0代表曲线类型, save.png 代表保存的图片名称

caffe中支持很多种曲线绘制,通过指定不同的类型参数即可,具体参数如下

[plain] view plain copy
  1. Notes:  
  2.     1. Supporting multiple logs.  
  3.     2. Log file name must end with the lower-cased ".log".  
  4. Supported chart types:  
  5.     0: Test accuracy  vs. Iters  
  6.     1: Test accuracy  vs. Seconds  
  7.     2: Test loss  vs. Iters  
  8.     3: Test loss  vs. Seconds  
  9.     4: Train learning rate  vs. Iters  
  10.     5: Train learning rate  vs. Seconds  
  11.     6: Train loss  vs. Iters  
  12.     7: Train loss  vs. Seconds  

最后,看一下效果

caffe绘制训练过程的loss和accuracy曲线caffe绘制训练过程的loss和accuracy曲线


学习曲线如下所示:

caffe绘制训练过程的loss和accuracy曲线

曲线解读:

通过学习曲线,可以评估当前的训练状态: 
train loss 不断下降,test loss 不断下降,说明网络仍然在学习。 
train loss 不断下降,test loss 趋于不变,说明网络过拟合。 
train loss 趋于不变,test loss区域不变,说明学习曲线遇到瓶颈,需减小学习速率或批量数据尺寸。 
train loss 趋于不变,test loss不断下降,说明数据集100%有问题。 
train loss 不断上升,test loss 不断上升(最终变为NaN)可能是网络结构设计不当,训练超参数设计不当,程序bug等某个问题引起的,需要进一步等位。

ps:这里用到了awk用于文本处理,非常方便。