训练loss不下降原因总结-程序员宅基地

当我们训练一个神经网络模型的时候，我们经常会遇到这样的一个头疼的问题，那就是，神经网络模型的loss值不下降，以致我们无法训练，或者无法得到一个效果较好的模型。导致训练时loss不下降的原因有很多，而且，更普遍的来说，loss不下降一般分为三种，即：训练集上loss不下降，验证集上loss不下降，和测试集上loss不下降

train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集100%有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

训练集loss不下降
1.模型结构和特征工程存在问题
如果一个模型的结构有问题，那么它就很难训练，通常，自己“自主研发”设计的网络结构可能很难适应实际问题，通过参考别人已经设计好并实现和测试过的结构，以及特征工程方案，进行改进和适应性修改，可以更快更好的完成目标任务。当模型结构不好或者规模太小、特征工程存在问题时，其对于数据的拟合能力不足，是很多人在进行一个新的研究或者工程应用时，遇到的第一个大问题。

2.权重初始化方案有问题
神经网络在训练之前，我们需要给其赋予一个初值，但是如何选择这个初始值，则要参考相关文献资料，选择一个最合适的初始化方案。常用的初始化方案有全零初始化、随机正态分布初始化和随机均匀分布初始化等。合适的初始化方案很重要，用对了，事半功倍，用不对，模型训练状况不忍直视。博主之前训练一个模型，初始化方案不对，训练半天都训练不动，loss值迟迟居高不下，最后改了初始化方案，loss值就如断崖式下降。

3，正则化过度
L1 L2和Dropout是防止过拟合用的，当训练集loss下不来时，就要考虑一下是不是正则化过度，导致模型欠拟合了。一般在刚开始是不需要加正则化的，过拟合后，再根据训练情况进行调整。如果一开始就正则化，那么就难以确定当前的模型结构设计是否正确了，而且调试起来也更加困难。

4.选择合适的激活函数，损失函数
不仅仅是初始化，在神经网络的激活函数、损失函数方面的选取，也是需要根据任务类型，选取最合适的。

比如，卷积神经网络中，卷积层的输出，一般使用ReLu作为激活函数，因为可以有效避免梯度消失，并且线性函数在计算性能上面更加有优势。而循环神经网络中的循环层一般为tanh，或者ReLu，全连接层也多用ReLu，只有在神经网络的输出层，使用全连接层来分类的情况下，才会使用softmax这种激活函数。

而损失函数，对于一些分类任务，通常使用交叉熵损失函数，回归任务使用均方误差，有自动对齐的任务使用CTC loss等。损失函数相当于模型拟合程度的一个评价指标，这个指标的结果越小越好。一个好的损失函数，可以在神经网络优化时，产生更好的模型参数。

5.选择合适的优化器和学习速率
神经网络的优化器选取一般选取Adam，但是在有些情况下Adam难以训练，这时候需要使用如SGD之类的其他优化器。学习率决定了网络训练的速度，但学习率不是越大越好，当网络趋近于收敛时应该选择较小的学习率来保证找到更好的最优点。所以，我们需要手动调整学习率，首先选择一个合适的初始学习率，当训练不动之后，稍微降低学习率，然后再训练一段时间，这时候基本上就完全收敛了。一般学习率的调整是乘以/除以10的倍数。不过现在也有一些自动调整学习率的方案了，不过，我们也要知道如何手动调整到合适的学习率。

6.训练时间不足
我有时会遇到有人问这样的问题，为什么训练了好几个小时了，怎么loss没降多少，或者怎么还没收敛。心急吃不了热豆腐！各种深度学习的训练都有不同的计算量，当需要的计算量很大时，怎么可能几个小时就训练完，尤其是还在使用自己的个人电脑CPU来训练模型的情况下。一般解决方案就是，使用更快的硬件加速训练，比如GPU，在涉及到计算机视觉方面的任务时，加速效果显著，主要是卷积网络的缘故。当已经没有办法使用硬件来加速的时候，唯一的解决方案就是——等。

7.模型训练遇到瓶颈
这里的瓶颈一般包括：梯度消失、大量神经元失活、梯度爆炸和弥散、学习率过大或过小等。

梯度消失时，模型的loss难以下降，就像走在高原上，几乎任何地方都是高海拔，可以通过梯度的检验来验证模型当前所处的状态。有时梯度的更新和反向传播代码存在bug时，也会有这样的问题。

在使用Relu激活函数的时候，当每一个神经元的输入X为负时，会使得该神经元输出恒为0，导致失活，由于此时梯度为0，无法恢复。有一种解决方案是使用LeakyRelu，这时，Y轴的左边图线会有一个很小的正梯度，使得神经网络在一定时间后可以得到恢复。不过LeakyRelu并不常用，因为部分神经元失活并不影响结果，相反，这种输出为0还有很多积极的作用。因为Relu方程输入为负时，输出值为0，利用此特性可以很好地忽略掉卷积核输出负相关信息，同时保留相关信息。

梯度爆炸和梯度弥散产生的根本原因是，根据链式法则，深度学习中的梯度在逐层累积。如1.1的n次方无穷大，0.9的n次方无穷小。网络中某些层过大的输出也会造成梯度爆炸，此时应该为该输出取一个上界，可用最大范数约束。

关于学习率，可按照第5项内容进行调整。

8.batch size过大
batch size过小，会导致模型后期摇摆不定，迟迟难以收敛，而过大时，模型前期由于梯度的平均，导致收敛速度过慢。一般batch size 的大小常常选取为32，或者16，有些任务下比如NLP中，可以选取8作为一批数据的个数。不过，有时候，为了减小通信开销和计算开销的比例，也可以调整到非常大的值，尤其是在并行和分布式中。

9.数据集未打乱
不打乱数据集的话，会导致网络在学习过程中产生一定的偏见问题。比如张三和李四常常出现在同一批数据中，那么结果就是，神经网络看见了张三就会“想起”李四。主要原因是，梯度更新时，总时张三和李四的梯度平均，导致出现固定的梯度走向，使得数据集的丰富度降低了。数据打乱后，张三还会跟王五一起平均，李四也会跟王五一起平均，那么梯度的走向会更丰富，也能更好地在整个数据集上学习到最有用的隐含特征。

10.数据集有问题当一个数据集噪声过多，或者数据标注有大量错误时，会使得神经网络难以从中学到有用的信息，从而出现摇摆不定的情况。就像有人告诉你1+1=2，还有人告诉你1+1=3时，就会陷入困惑。或者还有可能时读取数据出错导致，这时实际情况跟数据标注错误是一样的。另外，类别的不平衡也会使得较少类别由于信息量不足，难以习得本质特征。

11.未进行归一化
未进行归一化会导致尺度的不平衡，比如1km和1cm的不平衡，因此会导致误差变大，或者在同样的学习率下，模型会以秒速五厘米的步伐，左右两边摇摆不定地，向前走1km。有时，不平衡是由于不同的度量单位导致的，比如kg和m，我们都知道，1kg和1m没有什么可比性，虽然数字都是1。因此，我们完全可以通过放缩，使得特征的数值分布更接近一些。

12.特征工程中对数据特征的选取有问题
数据特征的选取不合理，就像数据标注错误一样，会使得神经网络难以找到数据的本质特征进行学习。而机器学习的本质就是在做特征工程，以及清洗数据(逃)。

验证集loss不下降
验证集的loss不下降分为两种。一种是训练集上的loss也不下降，这时问题主要在训练集的loss上，应当先参考上述方法解决。另一种是训练集上的loss可以下降，但验证集上的loss已经不降了，这里我们主要说明这种情况下的问题。

由于验证集是从同一批训练数据中划分出来的，所以一般不存在数据集的问题，所以主要是过拟合。过拟合解决起来，其实不怎么复杂，无非就几种方法，但是对工程师自身的条件要求比较高。

1.适当的正则化和降维
正则化是用来解决模型过拟合问题的一个很重要的手段，比如通过增加一个正则项，并且人为给定一个正则系数lambda，进行权重衰减，将一些相关性不大的特征项的参数衰减到几乎为0，相当于去掉了这一项特征，这跟降维类似，相当于减少了特征维度。而去掉基本无关的维度，那么就避免了模型对于这一维度特征的过分拟合。还有在神经网络两个层之间增加Dropout和Normal等，也起到了抑制过拟合的作用。

2.适当降低模型规模
过拟合很重要的一个原因也是模型的复杂度太高，就像一亩地只种了一棵小麦，那么其他地方不种就会长杂草，于是就会过拟合了一些噪声。所以，除了正则化手段以外，适当减小模型的规模也是很重要的，尽量让神经网络结构的假设空间与预期目标模型需要存储的信息量相匹配。

3.获取更多的数据集
这是终极解决方案，深度学习就是在有大量数据的基础上发展起来的。深度学习的三件套：数据、模型和硬件。模型可以直接拿来用，硬件可以花钱买，但是数据需要一点一点去收集，而且很多问题的解决就依赖于大量的数据，没数据就没有一切。

4.对数据集做扰动和扩增
这个是直接对现有的数据集做扩容，一定程度上可以再次提高验证集上的准确率，比如对图像做旋转，对声音文件进行加噪处理等。最终的效果虽然比不上同等情况下的数据量的增加带来的效果增益，但是在现有条件下，算是扩增数据量的一个有效的方案。

测试集loss不下降
测试集一般为模型之前训练时从未见过的新数据，或者目标应用场景下的真实数据。由于训练集和验证集的loss不下降时，应归为前两节的内容，所以这一节中，我们默认训练集和验证集的loss情况是正常的。所以，如果测试集的loss很高，或者正确率很低，那么一般是因为训练数据的分布和场景与测试数据的分布和应用场景不一致。

1.应用场景有问题
比如，一个语音识别模型，输入的数据集都是女性的录音音频，那么对于男性的声音就不能很好的识别出来。这个也是博主之前做语音识别的时候遇到过的一个真实案例，解决方案就是增加含有大量男性录音音频的数据集来训练。

2.噪声问题
噪声问题是实际应用场景下，频繁遇到的问题。直接容易理解的案例就是，在语音识别中，标准语音数据集都是在安静环境下采集的数据，但是在实际应用中，我们录音时多多少少会有噪声，那么我们需要专门去处理噪声，比如进行一个降噪处理，或者在训练数据中添加噪声等。在图像的识别中，那么就需要考虑图片中的遮挡、雾霾、旋转、镜像和大小远近等问题。

本文链接：https://blog.csdn.net/weixin_43593330/article/details/118574367

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

物联网开发技术栈_物联网技术java技术栈-程序员宅基地

文章浏览阅读2.2k次，点赞2次，收藏10次。物联网开发技术栈内容简介作为互联网技术的进化，物联网开发并非孤立的技术栈，而是向上承接了互联网，向下统领了嵌入式硬件开发的一个承上启下的全栈开发技术。虽然我们并不能预测物联网技术栈最终的样子：统一的开发语言是 JavaScript 还是 Python 亦或者其他编程语言；HTTP、WebSockets、MQTT、CoAP 等协议谁会是最后的赢家，并且随着物联网的不断进化，甚至我们..._物联网技术java技术栈

《Git学习笔记：Git入门 & 常用命令》-程序员宅基地

文章浏览阅读674次，点赞10次，收藏11次。Git是一个分布式版本控制工具，通常用来对软件开发过程中的源代码文件进行管理，通过Git仓库来存储和管理这些文件，Git仓库分为两种：指的是存储在各个开发人员自己本机电脑上的Git仓库指的是远程服务器上的Git仓库commit：提交，将本地文件和版本信息保存到本地仓库push：推送（上传），将本地仓库文件和版本信息上传到远程仓库pull：拉取（下载），将远程仓库文件和版本信息下载到本地仓库。

CPU热点分析——pprof (gperftools)使用_gperftools pprof-程序员宅基地

文章浏览阅读4.6k次。pprof (gperftools)使用谷歌的工具集，可查看CPU采样结果。pprof (google-perftool)，用于来分析程序，必须保证程序能正常退出。使用步骤：1.准备工具，先安装工具包libunwind-1.1.tar.gzgperftools-2.1.tar.gz解压后 configure到系统默认路径即可，之后直接-lprofiler 2.再安装图形工具sudo yum ins..._gperftools pprof

JavaScript BOM-程序员宅基地

文章浏览阅读118次。JavaScript BOM：Navigator、History、Location

MongoDB数据库 —— 图形化工具_mongodb数据库图形化工具-程序员宅基地

文章浏览阅读6.2k次，点赞16次，收藏66次。在前面通过使用MongoDB在命令窗口操作数据库，而MySQL数据库也同样可以在命令窗口使用sql语句操作数据库，在安装数据库的时候提到可以安装这个图形化工具的，为了节省安装时间和卡顿选择后续安装MongoDB图形化工具，在MySQL数据中同样也有这个MySQL workbench 图形化工具可以选择进行安装；那么本篇就来安装MongoDB的图形化工具 — MongoDBCompass。_mongodb数据库图形化工具

ChatGPT带给智慧城市的启示——未来城市演进路径的探讨-程序员宅基地

文章浏览阅读1.4k次，点赞13次，收藏10次。未来城市的大模型包括城市总体规划、城市交通运输管理、城市公共安全和应急管理、经济发展和产业园区发展、社区发展、资源承载调控、污染调控、社会资源优化调控、基础设施调控、人口研究等模型。其对城市要素、关键指标、函数、流程、模型、平台、技术、资金、人才、市场、自然环境等内外部因素进行仿真建模。采用物联网、云计算、大数据、数字孪生和人工智能等技术来获取地、物、人、组织、环境、社会、经济、业务逻辑和运营规律等相关数据。、物联网、大数据、云计算、数字孪生、元宇宙、可穿戴生理传感器、分布式新能源等各类新技术。

随便推点

从零开始开发Shopify主题：（4）调用自定义配置_shopify自定义主题-程序员宅基地

文章浏览阅读3.6k次。在上一篇文章中，我们知道了如何使用配置文件自定义主题，以允许商店所有者自己更改Shopify主题。如上所述，这些设置会在用户单击管理面板的在线商店>主题部分中的自定义主题按钮时显示，并在主题开发文件的config / settings_schema.json文件中定义。在这篇文章中，我们将了解如何访问这些设置并在开发主题时调用它们。调用配置要调用模板中的配置信息，需要使用li..._shopify自定义主题

git本地分支与远程分支关联及遇到的问题解决方案_本地分支 '(no branch)' (远程分支 = '(no branch)') 是无效的。引用名-程序员宅基地

文章浏览阅读2.6k次。1.查看本地分支git branch绿色表示当前分支#######################################################2.查看远程分支git branch -a#######################################################3.切换分支git checkout branch_name..._本地分支 '(no branch)' (远程分支 = '(no branch)') 是无效的。引用名称必须遵循

java连接mysql出现The server time zone value '�й��׼ʱ��' is unrecognized的解决方法_java.lang.runtimeexception: the server time zone v-程序员宅基地

文章浏览阅读2.2w次，点赞18次，收藏28次。java连接mysql出现The server time zone value '�й��׼ʱ��' is unrecognized的解决方法在Idea中连接数据库是抛出The server time zone value ‘�й��׼ʱ��’ is unrecogni错误原因是因为使用了Mysql Connector/J 6.x以上的版本，然后就报了时区的错误。解决办法在配置url中添..._java.lang.runtimeexception: the server time zone value '嚙請對蕭嚙踝蕭