问题与答案 部分问题不能很好的总结答案,只列出了在书中的参考页码 问题列表 1. 如何设置网络的初始值? 2. 梯度爆炸的解决办法 3. MLP 的万能近似定理 4. 在 MLP 中,深度与宽度的关系,及其表示能力的差异 5. 稀疏表示,低维表示,独立表示 6. 局部不变性(平滑先验)及其局限性 7. 为什么交叉熵损失相比均方误差损失能提高以 sigmoid 和 softmax 作为激活函数的层的性能? 8. 分段线性单元(如 ReLU)代替 sigmoid 的利弊 9. 在做正则化过程中,为什么只对权重做正则惩罚,而不对偏置做权重惩罚 10. 列举常见的一些范数及其应用场景,如 L0, L1, L2, L∞, Frobenius 范数 11. L1 和 L2 范数的异同 12. 为什么 L1 正则化可以产生稀疏权值,而 L2 正则化可以防止过拟合? 13. 简单介绍常用的激活函数,如 sigmoid, relu, softplus, tanh, RBF 及其应用场景 14. Jacobian 和 Hessian 矩阵及其在深度学习中的重要性 15. 信息论、KL 散度(相对熵)与交叉熵 16. 如何避免数值计算中的上溢和下溢问题,以 softmax 为例 17. 训练误差、泛化误差;过拟合、欠拟合;模型容量,表示容量,有效容量,最优容量的概念; 奥卡姆剃刀原则 18. 高斯分布的广泛应用的原因