首页 > 编程知识 正文

sparsity of connections,sparsity pattern

时间:2023-05-03 12:57:28 阅读:178096 作者:3838

空间品质的自我理解空间品质

DNN最初的动力以precise为中心,但随着DNN在Edge的普及,Latency和Throuput在inference过程中成为人们关心的问题,对于后者来说,即使稍微失去了精度,也可以接受。

Inference的时间消耗主要分为计算和数据移动两部分。 要在这两部分节约时间,就要各自发挥神通。 就Ineference本身而言,目前常用的方法是Sparsity和Quantization。

在Sparsity中Sparsity处于比较尴尬的位置。 Sparsity是公司VPU处理器的一个卖点,但Sparsity在普及过程中面临的最大挑战是它能带来多少性能收益。 因为DNN在训练阶段,考虑到Edge方面的资源限制,采用各种剪枝技术使网络紧凑化,最终生成的网络weights中可以压缩的成分很少。 关于Activation sparsity,在图像处理方面不太有用。

Sparsity技术本身可以减少数据移动量(数据计算量)和不计算值为0的数据,但还需要额外的硬件支持和元数据管理。 因此,只有当Sparsity rate达到一定的阈值时,才有可能获得收益。

品质和品质在边缘广泛使用。 随着数据位宽度的减小,计算和数据移动都有明显的性能提高,但对网络模型的要求更高。

由于典型的DNN数据类型为float数据类型,如int8/int4,因此通常使用工具将网络模型转换为启用Quantilization的模型。 变换的过程,其实是线性压缩和平移的算术过程。

Quantization有per layer和per channel两种方式,但基于与normalization相同的道理,per channel的物理意义更为清晰。 从Float向int8迁移所固有的问题也是Quantization的问题,由于显示的数据范围变窄,如何进行数据映射成为不可避免的问题。 这方面的资料很多,不展开,主要是提出带来的问题。

在VPU中启用网络模型时,一般以CPU的精度为基准; 经过Quantization,用VPU获得自己的精度。 两者之间的差异可能较大,问题一般在于min/max超过了阈值; 或者,某些层的操作分布不均匀,无法线性压缩。 必须手动调整、更改缩放和缩放,或者更改特殊层的数据映射方法。

记录了比较完善的神经网络模型的量化综述。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。