CVPR 2023 ，BP网络剪枝了就不好使？（2）

计算机视觉工坊 | 2023-08-20 18:47:47 阅读：1090

5 积分神经网络的训练

如今，存在各种各样的预训练离散网络。因此，建立一个将此类网络转换为完整网络的过程将是有益的，这种转换后的网络可以作为积分网络训练的更好的初始化。为此，作者提出了一种对权重张量的卷积核和通道进行排列的算法，以便在离散网络中获得平滑的结构。图 5 提供了该策略的直观说明。作者还提出了一种使用梯度下降来优化 INN 的平滑参数表示的算法。这使地能够获得一个可以重新采样（结构修剪）的网络，而无需在推理时进行任何微调。

6 实验

使用 PyTorch 库实现了数值积分的通用框架。框架允许使用自定义积分求积在 Nvidia GPU 上进行数值积分。我们的积分神经网络使用 PyTorch 层来快速评估积分算子。人们可以使用我们的框架在积分网络上独立地进行多个积分的数值积分。为了验证 INN，我们进行了图像分类和图像超分辨率任务的实验。对于图像分类，使用了 Cifar10 和 ImageNet 数据集。对于图像超分辨率任务，选择了分别在 Div2k 数据集和 91-image dataset数据集上训练的 4-x EDSR和 3-x SRCNN 模型。在 Set5 、Set14 和 B100 数据集上进行验证。主要验证流程的示意图如图 6 所示。

6.1 Pipeline A. 与离散NNs的比较

使用两种不同的初始化来训练 INN：从头开始和转换后的预训练离散网络。可以看到，从预训练的离散网络微调的 INN 具有与相应离散网络相同或更高的性能，并且显着优于从头训练的 INN（见表 1）。使用算法 1 微调的 INN 可以重新采样为任何所需大小的相应离散网络。图 7 显示了 EDSR INN 与其离散对应物的比较。可以看出，即使经过 40% 的修剪，INN 仍保持几乎相同的性能。

6.2 Pipeline B. 通过转换为INN而不进行微调的结构化修剪

在这个实验中，使用论文第 4 节中描述的方法通过将离散网络转换为 INN 来修剪离散网络，并调整一些样本的积分分区。结果如图 1 所示（表示为 INN + 分区调整）。值得注意的是，排列步骤在论文的转换算法中非常重要。事实上，当部署分区调优而不使用分区调整时，可以观察到更高的精度下降。这与变异和积分误差的理论联系（参见附录 A）以及作者在表 2 中报告的实证评估一致。图 1. 与我们提出的积分神经网络相比，无需微调的不同通道选择方法的可视化。a) Cifar10 上的 ResNet-18。b) Cifar10 上的 NIN 架构。c) ImageNet 上的 ResNet-18。d) Div2k 验证集上的 4x EDSR。通过压缩，我们表示删除参数的百分比。表2.从预训练DNN转换过程中有和无排列步长INN积分划分的调优，所有模型都被压缩到40%。

6.3 Pipeline C. 离散神经网络无微调的结构化剪枝

获得紧凑神经网络的一种直接方法是以结构化方式删除训练网络的一些参数。通常，每层神经元或过滤器的重要性是根据取决于网络权重 W 和数据 X 的各种标准 ρ(W, X) 进行评估的，例如权重的 ℓ1-范数或对损失。在本文的研究中，结构剪枝应用于卷积层。要修剪的神经元是根据其内核的 ℓ1-范数或在整个数据集上估计的特征图的各种统计数据来选择的。最后，所有 3 个流程的结果如图 1 所示。从这些结果中我们可以看到，INN 显着优于其他具有无需微调的剪枝能力的替代方法。此外，我们观察到非均匀可训练分区优于具有均匀采样的预训练 INN，而均匀采样提供了更快且无数据的重新离散化分区。这里也推荐「3D视觉工坊」新课程《面向三维视觉算法的C++重要模块精讲：从零基础入门到进阶》。

用于改进连续表示的可训练划分

三次卷积插值通常应用于图像或体积等离散数据。然而，均匀采样的分区会限制重建质量。因此，可训练分区提供了额外的灵活性来丰富信号重建，并可能导致更高质量的表示。我们通过执行图像重建来评估具有固定和可分离可训练分区的插值内核的表示能力（图8）。此外，还使用由一组独立的 2D 坐标参数化的不可分离的可训练分区来测试重建。由于分区参数化引入了额外的参数，因此我们通过调整插值节点的数量和分区大小来均衡参数总数。

7 总结

在本文中，作者提出了一种新颖的神经网络积分表示，它允许我们通过积分核的简单重新离散化在推理时生成任意形状的传统神经网络。实验结果表明，所提出的连续 INN 实现了与离散 DNN 对应物相同的性能，同时在结构化剪枝下保持稳定，无需使用任何微调。在这个新方向上，以下问题值得进一步研究：• INN 为研究神经网络的能力开辟了新的可能性。奈奎斯特定理可用于选择采样点的数量。• 自适应积分求积。在这项工作中，本文仅研究了训练 INN 的统一分区。研究无数据的非均匀分区估计也可能对 INN 产生重大影响。• 从头开始训练INN 需要改进分类网络。当前精度下降可能是由于缺少批量归一化层造成的。需要平滑的标准化模拟。

8 一些思考8.1 INN和DNN的比较

INN 可以被视为连续的，或者换句话说，DNN 的模拟扩展。尽管 INN 具有相同数量的参数，但其性能与 DNN 相当。然而，使用不同的离散化进行训练会鼓励沿连续轴的平滑表示，从而为权重添加更多结构和正则化，这种精细的结构对于解决许多问题至关重要，例如神经网络的有效修剪。此外，任何预先训练的 DNN 都可以转换为 INN，而不会降低质量，这是通过通道排列算法实现的，该算法利用了著名的组合旅行商问题的解决方案。这意味着我们可以将 DNN 转换为 INN，反之亦然。它开启了使用现有 INN 推理框架以及使用所有现有预训练 DNN 来获得预训练 INN 的可能性。

8.2 INN对人工智能发展的影响

INN 为进一步研究和更深入地理解模型容量等基本 DNN 问题提供了巨大的可能性。展望未来，作者团队计划利用差异分析来探索适合特定任务的最小 DNN 配置。此外，作者团队打算研究 INN 在其他结构（例如生成对抗网络（GAN））中的应用，并仔细研究 INN 如何处理对抗攻击。初步分析表明，INN 可能在 GAN 训练期间提供更高的稳定性，并表现出更强的抵御对抗性攻击的能力。一个有趣的探索领域是识别能够完全以模拟方式计算 INN 的物理（模拟）系统，从而促进光速神经网络推理。作者团队还计划以开源方式发布 TorchIntegral 框架，这有助于以与 DNN 相同的方式构建 INN，该框架还支持使用 PyTorch 优化操作来计算任何积分。作者团队打算提供一个 INN 的“模型动物园”，为开源社区的进一步贡献做好准备，坚信 INN 技术及其所促进的创新将为边缘计算带来高度优化的网络。

9 参考

https://medium.com/@TheStage_ai/thestage-ais-integral-neural-networks-paper-is-selected-as-an-award-candidate-at-cvpr-2023-773d459b7cfc

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。