Keras是一个站在巨人肩膀上的深度学习框架,其后端可以用不同的DL框架支撑,比如theano,比如Tensorflow,比如微软的CNTK。
好消息是,原本被吐槽的速度问题,在使用CNTK做后端之后,官方测试表明甚至可以比原生态的Tensorflow速度还要快。
keras中分两种模型Sequential/序贯模型,就是大家熟知的一层一层搭网络的这种模型过程。
# 1.序贯模型要点
# 简单的汉堡堆叠 or 手动加菜
# 可以通过向Sequential模型传递一个layer的list来构造序贯模型,或者通过.add()方法一个个的将layer加入模型中
# 一次性构建汉堡,一次性构建好架构
from keras.models import Sequential
from keras.layers import Dense, Activation
model = Sequential([
Dense(32, units=784),
Activation('relu'),
Dense(10),
Activation('softmax'),
])
# ”手动加菜“ 一步一步的自己搭建
model = Sequential()
model.add(Dense(32, input_shape=(784,)))
model.add(Activation('relu'))
# 1.2 告诉模型数据的维度# 模型需要知道输入数据的shape,Sequential的第一层需要接受一个关于输入数据shape的参数,后面的各个层则可以自动的推导出中间数据的shape。# 第一层的数据维度可以这么给进去(和Tensorflow定义placeholder有点像):# - 传递一个input_shape的关键字参数给第一层,input_shape是一个tuple类型的数据,其中也可以填入None,如果填入None则表示此位置可能是任何正整数。数据的batch大小不应包含在其中。# - 有些2D层,如Dense,支持通过指定其输入维度input_dim来隐含的指定输入数据shape。一些3D的时域层支持通过参数input_dim和input_length来指定输入shape。# - 如果你需要为输入指定一个固定大小的batch_size(常用于stateful RNN网络),可以传递batch_size参数到一个层中,例如你想指定输入张量的batch大小是32,数据shape是(6,8),则你需要传递batch_size=32和input_shape=(6,8)。model = Sequential()model.add(Dense(32, input_dim=784))model = Sequential()model.add(Dense(32, input_shape=784))# ### 1.3 编译你的模型# 在训练模型之前,我们需要通过compile来对学习过程进行配置。compile接收三个参数:# - **优化器optimizer**:该参数可指定为已预定义的优化器名,如rmsprop、adagrad,或一个Optimizer类的对象,详情见[optimizers](http://keras-cn.readthedocs.io/en/latest/other/optimizers/)# - **损失函数loss**:该参数为模型试图最小化的目标函数,它可为预定义的损失函数名,如categorical_crossentropy、mse,也可以为一个损失函数。详情见[losses](http://keras-cn.readthedocs.io/en/latest/other/objectives/)# - **指标列表metrics**:对分类问题,我们一般将该列表设置为metrics=['accuracy']。指标可以是一个预定义指标的名字,也可以是一个用户定制的函数.指标函数应该返回单个张量,或一个完成metric_name - > metric_value映射的字典.请参考[性能评估](http://keras-cn.readthedocs.io/en/latest/other/metrices/)# 多分类问题model.compile(optimizer='rmsprop', loss='categorical_crossentropy', # 多分类交叉熵 metrics=['accuracy'])# 二分类问题model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])# 回归问题model.compile(optimizer='rmsprop', loss='mse')# 自定义metricsimport keras.backend as K # 用k来表示,底层不管是TensorFlow还是theao,都可以了def mean_pred(y_true, y_pred): # 自定义评价函数 return K.mean(y_pred)model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy', mean_pred]) # 使用定义的评价函数
# ### 1.4 训练# 如果你的数据可以一次性读进内容进行建模,那么你会用到fit函数# 构建与编译模型model = Sequential()model.add(Dense(32, activation='relu', input_dim=100))model.add(Dense(1, activation='sigmoid'))model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy'])# 查出数据import numpy as npdata = np.random.random((1000, 100))labels = np.random.randint(2, size=(1000, 1))# 训练与数据拟合model.fit(data, labels, epochs=10, batch_size=32)# 如果你的数据量很大,你可能要用到 fit_generator,如果数据量比较大,使用类似于生产者消费者的模型进行训练def generate_arrays_from_file(path): while 1: f = open(path) for line in f: x, y = process_line(line) img = load_images(x) yield (img, y) f.close()model.fit_generator(generate_arrays_from_file('/my_file.txt'), samples_per_epoch=10000, nb_epoch=10) # 当迭代到10*10000就停止了常用的参数:model.add(Flatten()) # 将矩阵拉成向量,展平
model.add(Embedding(max_features, output_dim=256)) # 把输入数据做一个embedding,就是指embeding到一个什么样的维度model.add(LSTM(128)) # 这里的128 理解成很多cell,每个cell都带有memory,而所谓的memory指需要一定的信息来捕捉之前的信息,捕捉信息在神经网络中就是用矩阵或向量来捕捉,这里用128就表示用128维的向量来捕捉memory的部分
dropout是指每个神经元使不使用的概率,而不是简单的比例batch的选取,模型训练的时候,取小了,会发现输出的损失震荡的很厉害取大了,会发现开始的时候损失下降的很快,过了一会就不下将了,可能到达了局部最优解了keras可以通过回调函数callback 调用TensorFlow 的tensorboard实现可视化model.fit(..., callbacks=[batch_print_callback, plot_loss_callback, cleanup_callback])keras.callbacks.TensorBoard(log_dir='./logs', histogram_freq=0, write_graph=True, write_images=False, embeddings_freq=0, embeddings_layer_names=None, embeddings_metadata=None)回调函数中一些其他的方法EarlyStoppingkeras.callbacks.EarlyStopping(monitor='val_loss', patience=0, verbose=0, mode='auto')当监测值不再改善时,该回调函数将中止训练根据验证集上loss的变化,决定要不要把它停掉,因为验证集上的损失不再降,说明它可能过拟合了