李宏毅机器学习&深度学习课程|神经网络压缩2:从各种不同的面向来压缩神经网络

知识蒸馏原理:介绍了知识蒸馏(knowledge distillation)的概念和原理。通过训练一个大的网络作为“老师”,再用这个大网络来指导训练一个小的网络作为“学生”。学生的目标是尽量逼近老师的输出,而不是直接根据正确答案学习。

知识蒸馏与ensemble:介绍了knowledge distillation和ensemble的概念。通过ensemble技术,训练多个模型投票或平均输出结果,提高准确率。使用knowledge distillation时,可以通过改变softmax函数的temperature参数来平滑输出结果,提升学生网络的学习效果。

Softmax前输出与压缩:讨论了关于Softmax前的输出和Network Compression的内容。讨论了如何使用Softmax前的输出进行训练,以及在Lifelong Learning中如何产生旧的资料。同时介绍了Ensembl的不同方式,以及Parameter Quantization的做法。最后提到在作业中并不需要使用Parameter Quantization来压缩Network。

参数压缩方法介绍:介绍了一种压缩神经网络参数的方法,即Weight Clustering,通过将相近数值的参数分成一组并用一个数值代表整组参数,来减少参数存储空间。另外还介绍了Binary Network的概念,即将每个参数设为正一或负一,并展示了Binary Connect在影像辨识上的表现比正常网络更好,因为Binary Network有更大的限制,更不容易overfitting。

参数储存和压缩技术:讲解了参数的储存和压缩技术,包括weight clustering和EWC等方法。通过网络参数的聚类和合并,可以减少参数量,提高模型效率。其中介绍了Depthwise Separable的Convolution方法,通过分阶段操作可以减少参数量,提高性能。

Depthwise与Pointwise结合:介绍了Depthwise Convolution和Pointwise Convolution的结合应用。Depthwise Convolution负责每个Channel的特征提取,而Pointwise Convolution则处理Channel间的关系。两者组合可以减少参数量,提高模型效率。通过比较参数量,展示了两者的优劣。

卷积层拆分减少参数:介绍了通过将传统卷积层拆分为Depthwise Convolution和Pointwise Convolution两层来减少参数量的方法。通过这种方式,可以显著减少网络的大小,提高计算效率。采用Low-Rank Approximation的思想,将参数量从原来的N^2减少到K*N+N*K,有效降低了网络的复杂度。

深度与点卷积结合:讲解了depthwise convolution和pointwise convolution的结合,将一层CNN拆解成两层CNN,减少参数需求。同时介绍了dynamic computation,让网络自由调整运算量,适应不同设备和资源情况,通过训练额外的layer实现。

网络宽度与深度决策:介绍了训练神经网络时如何根据不同的情况决定网络的宽度和深度,以及如何让神经元自主决定宽度和深度。通过不同的训练方法和技术,可以有效压缩网络大小并提高效率。同时强调了在解决复杂问题时,神经元需通过多层网络才能正确分类。

本文资料来源于互联网,仅做网络分享,如有侵权,请联系删除;不代表Sora中文网立场,如若转载,请注明出处:https://www.allinsora.com/6882

(0)
上一篇 2024年4月7日 下午1:59
下一篇 2024年4月7日 下午2:16

相关推荐

  • 李宏毅机器学习&深度学习课程|深度学习基本概念简介

    线性模型的局限性:讨论了Linear Model的简单性以及其在复杂关系中的局限性。提出了需要更复杂、有未知参数的Function来模拟真实情况的需求。通过将多个蓝色Function组合,可以得到类似红色曲线的Piecewise Linear Curve。这种曲线由多个线段组成,更灵活地模拟复杂关系。 Sigmoid逼近线性函数:讲述了如何用蓝色的Funct…

    2024年3月28日
    00586
  • 李宏毅机器学习&深度学习课程|网络训练2:批次与动量

    Batch和Momentum训练技巧:介绍了Batch和Momentum训练技巧。Batch是将数据分成小批量进行参数更新,每个Batch算出Loss后再更新参数,通过Shuffle避免过拟合。使用Batch能降低噪音,参数更新更稳定,相比未使用Batch的方式更有效。 参数更新方法对训练影响:讨论了不同的参数更新方法对机器学习训练的影响。左边方法蓄力时间长…

    2024年3月28日
    00587
  • 李宏毅机器学习&深度学习课程|自督导式学习2:BERT简介

    BERT模型和自监督学习:介绍了BERT模型和Self-Supervised Learning的概念。在Supervised Learning中,需要有Label的资料来训练模型;而Self-Supervised Learning则是在没有Label的情况下让模型学习。BERT是一个Transformer的Encoder,可用于自然语言处理,输入一串文字并进…

    2024年4月1日
    00413
  • 李宏毅机器学习&深度学习课程|Transformer1

    Transformer与Bert关系:介绍了Transformer和Bert之间的关系,以及Sequence-to-Sequence的Model在机器翻译和语音辨识中的应用。通过机器自行决定输出长度,实现语音辨识和翻译等任务。对于没有文字的语言,可以通过语音翻译将其转化为可阅读的文字。 台语翻译实验:讨论了使用神经网络进行台语语音辨识和翻译成中文的可能性。通…

    2024年3月29日
    00508
  • 李宏毅机器学习&深度学习课程|元学习2:万物皆可Meta

    MAML算法与模型泛化:介绍了meta learning中的MAML算法,通过学习初始化参数来提高模型的泛化能力。讨论了MAML的训练过程以及调参的重要性,提出了新的改进方法MAML++。同时,与self supervised learning做了对比,强调了好的初始化对模型性能的重要性。 SSL与memo的关系:介绍了self supervised lea…

    2024年4月7日
    00605

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

关注微信
Sora改变AI认知方式,开启走向「世界模拟器」的史诗级的漫漫征途。