Q1: 假设我们把⼀个感知器⽹络中的所有权重和偏置乘以⼀个正的常数,c > 0。证明⽹络的⾏为并没有改变。
Q2: 假设我们有上题中相同的设置 —— ⼀个感知器⽹络。同样假设所有输⼊被选中。我们不需要实际的输⼊值,仅仅需要固定这些输⼊。假设对于⽹络中任何特定感知器的输⼊ x,权重和偏置遵循 w · x + b = 0。现在⽤ S 型神经元替换所有⽹络中的感知器,并且把权重和偏置乘以⼀个正的常量 c > 0。证明在 c → ∞ 的极限情况下,S 型神经元⽹络的⾏为和感知器⽹络的完全⼀致。当⼀个感知器的 w · x + b = 0 时⼜为什么会不同?
Q3: 通过在上述的三层神经⽹络加⼀个额外的⼀层就可以实现按位表⽰数字。额外的⼀层把原来的输出层转化为⼀个⼆进制表⽰,如下图所⽰。为新的输出层寻找⼀些合适的权重和偏置。假定原先的 3 层神经⽹络在第三层得到正确输出(即原来的输出层)的**值⾄少是0.99,得到错误的输出的**值⾄多是 0.01。
Q4: 证明上⼀段落的推断。提⽰:可以利⽤柯西-施⽡茨不等式。
Q5: 我已经解释了当 C 是⼆元及其多元函数的情况。那如果 C 是⼀个⼀元函数呢?你能给出梯度下降法在⼀元函数的⼏何解释么?
Q6: 梯度下降算法⼀个极端的版本是把⼩批量数据的⼤⼩设为 1。即,假设⼀个训练输⼊ x,我们按照规则 wk → w′k = wk η∂Cx/∂wk 和 bl → b′l = bl η∂Cx/∂bl 更新我们的权重和偏置。然后我们选取另⼀个训练输⼊,再⼀次更新权重和偏置。如此重复。这个过程被称为在线、online、on-line、或者递增学习。在 online 学习中,神经⽹络在⼀个时刻只学习⼀个训练输⼊(正如⼈类做的)。对⽐具有⼀个⼩批量输⼊⼤⼩为 20 的随机梯度下降,说出递增学习的⼀个优点和⼀个缺点。
A: 优点,单次更新权重过程更加快速;
缺点, 整体权重更新过程可能形成震荡,使得模型收敛速度变慢。