导航:首页 > 网络问题 > 神经网络学习率怎么设置

神经网络学习率怎么设置

发布时间：2023-07-20 11:10:41

① 神经网络中学习率、批处理样本数量、迭代次数有什么意义和影响

学习率是指每次训练过程中（迭代）变量改变（更新）的比率，例如x(t+1) = x(t) - a * delta
其中a可以看出学习率，一般在0 - 1之间，相当于步长，而delta相当于方向。
批处理样本数量，标准的BP是单样本学习的方法，例如图片识别，第一个图是猫，然后输入图像，网络学习一次（变量更新一次），学习到图片的特征，然后再输入第二个图片狗，在前面的基础上再学习。而批训练，就是说两个图片一起输入后，计算两个样本学习的平均的误差（Loss）, 从整体上来学习整个训练样本集合，这样的学习对于大样本数据更加有效率。
迭代次数就是学习的次数了，每次迭代就是向最优点前进的一小步，神经网络要学习到样本的特征，那就要一步一步地走，走了很多步才能到达符合精度地地点，所以需要学习很多次。

② 神经网络超参数选择

深度学习模型通常由随机梯度下降算法进行训练。随机梯度下降算法有许多变形：例如 Adam、RMSProp、Adagrad 等等。这些算法都需要你设置学习率。学习率决定了在一个小批量（mini-batch）中权重在梯度方向要移动多远。

如果学习率很低，训练会变得更加可靠，但是优化会耗费较长的时间，因为朝向损失函数最小值的每个步长很小。
如果学习率很高，训练可能根本不会收敛，损失函数一直处于波动中，甚至会发散。权重的改变量可能非常大，使得优化越过最小值，使得损失函数变得更糟。

训练应当从相对较大的学习率开始。这是因为在开始时，初始的随机权重远离最优值。在训练过程中，学习率应当下降，以允许细粒度的权重更新。

参考： https://www.jiqixin.com/articles/2017-11-17-2

批次大小是每一次训练神经网络送入模型的样本数。在 合理的范围之内 ，越大的 batch size 使下降方向越准确，震荡越小，通常取值为[16,32,64,128]。

Batch_Size=全部数据集缺点：
1) 随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行。
2) 以 Rprop 的方式迭代，会由于各个 Batch 之间的采样差异性，各次梯度修正值相互抵消，无法修正。
Batch_Size = 1 缺点：
使用在线学习，每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

在合理范围内，增大 Batch_Size 有何好处？
1) 内存利用率提高了，大矩阵乘法的并行化效率提高。
2) 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
3) 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。

盲目增大 Batch_Size 有何坏处？
1) 内存利用率提高了，但是内存容量可能撑不住了。
2) 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
3) Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

参考： https://blog.csdn.net/juronghui/article/details/78612653

迭代次数是指整个训练集输入到神经网络进行训练的次数，当测试错误率和训练错误率相差较小，且测试准确率趋于稳定时（达到最优），可认为当前迭代次数合适；当测试错误率先变小后变大时则说明迭代次数过大了，需要减小迭代次数，否则容易出现过拟合。

用激活函数给神经网络加入一些非线性因素，使得网络可以更好地解决较为复杂的问题。参考： https://blog.csdn.net/tyhj_sf/article/details/79932893

它能够把输入的连续实值变换为0和1之间的输出。
缺点：
1) 在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失，其中梯度爆炸发生的概率非常小，而梯度消失发生的概率比较大。
2) Sigmoid 的 output 不是0均值，使得收敛缓慢。batch的输入能缓解这个问题。

它解决了Sigmoid函数的不是zero-centered输出问题，然而梯度消失的问题和幂运算的问题仍然存在。
tanh函数具有中心对称性，适合于有对称性的二分类

虽然简单，但却是近几年的重要成果，有以下几大优点：
1）解决了梯度消散问题 (在正区间)
2）计算速度非常快，只需要判断输入是否大于0
3）收敛速度远快于sigmoid和tanh
ReLU也有几个需要特别注意的问题：
1）ReLU的输出不是zero-centered
2）Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。

为了解决Dead ReLU Problem，提出了将ReLU的前半段设为 αx 而非 0 ，如 PReLU 。

1）深度学习往往需要大量时间来处理大量数据，模型的收敛速度是尤为重要的。所以，总体上来讲，训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。所以要尽量选择输出具有zero-centered特点的激活函数以加快模型的收敛速度。
2）如果使用 ReLU，那么一定要小心设置 learning rate，而且要注意不要让网络出现很多 “dead” 神经元，如果这个问题不好解决，那么可以试试 Leaky ReLU、PReLU 或者 Maxout.
3）最好不要用 sigmoid，你可以试试 tanh，不过可以预期它的效果会比不上 ReLU 和 Maxout.

公式： https://www.cnblogs.com/xiaobingqianrui/p/10756046.html
优化器比较： https://blog.csdn.net/weixin_40170902/article/details/80092628

③ BP神经网络中学习速率如何确定

学习率的作用是不断调整权值阈值。
对于traingdm等函数建立的BP网络，学习速率一般取0.01-0.1之间。

④ 神经网络BP算法中,如何选择网络学习效率及阈值调整效率

学习效率一般取0~1之间的数如：0.1,0.4，网络初始化阈值赋值（0,1）区间内随机数，之后通过神经网络训练不断调整。楼主只用调整学习效率就行了

阅读全文

与神经网络学习率怎么设置相关的资料

热点内容

网络共享中心没有网卡发布：2023-08-31 22:07:08 浏览：582

电脑无法检测到网络代理发布：2023-08-31 22:06:18 浏览：1464

笔记本电脑一天会用多少流量发布：2023-08-31 21:50:29 浏览：777

苹果电脑整机转移新机发布：2023-08-31 21:50:25 浏览：1427

突然无法连接工作网络发布：2023-08-31 21:50:19 浏览：1186

联通网络怎么设置才好发布：2023-08-31 21:48:37 浏览：1291

小区网络电脑怎么连接路由器发布：2023-08-31 21:47:34 浏览：1181

p1108打印机网络共享发布：2023-08-31 21:40:56 浏览：1264

怎么调节台式电脑护眼发布：2023-08-31 21:37:28 浏览：822

深圳天虹苹果电脑发布：2023-08-31 21:33:09 浏览：1062

网络总是异常断开发布：2023-08-31 21:31:09 浏览：665

中级配置台式电脑发布：2023-08-31 21:27:42 浏览：1123

中国网络安全的战士发布：2023-08-31 21:25:11 浏览：687

同志网站在哪里发布：2023-08-31 21:21:19 浏览：1503

版观看完整完结免费手机在线发布：2023-08-31 21:16:58 浏览：1507

怎样切换默认数据网络设置发布：2023-08-31 21:15:57 浏览：1179

肯德基无线网无法访问网络发布：2023-08-31 21:10:40 浏览：1422

光纤猫怎么连接不上网络发布：2023-08-31 21:09:40 浏览：1627

神武3手游网络连接发布：2023-08-31 20:42:31 浏览：1020

局网打印机网络共享发布：2023-08-31 20:37:10 浏览：1047