sparsity of connections,sparsity pattern

空间品质的自我理解空间品质

DNN最初的动力以precise为中心，但随着DNN在Edge的普及，Latency和Throuput在inference过程中成为人们关心的问题，对于后者来说，即使稍微失去了精度，也可以接受。

Inference的时间消耗主要分为计算和数据移动两部分。要在这两部分节约时间，就要各自发挥神通。就Ineference本身而言，目前常用的方法是Sparsity和Quantization。

在Sparsity中Sparsity处于比较尴尬的位置。 Sparsity是公司VPU处理器的一个卖点，但Sparsity在普及过程中面临的最大挑战是它能带来多少性能收益。因为DNN在训练阶段，考虑到Edge方面的资源限制，采用各种剪枝技术使网络紧凑化，最终生成的网络weights中可以压缩的成分很少。关于Activation sparsity，在图像处理方面不太有用。

Sparsity技术本身可以减少数据移动量(数据计算量)和不计算值为0的数据，但还需要额外的硬件支持和元数据管理。因此，只有当Sparsity rate达到一定的阈值时，才有可能获得收益。

品质和品质在边缘广泛使用。随着数据位宽度的减小，计算和数据移动都有明显的性能提高，但对网络模型的要求更高。

由于典型的DNN数据类型为float数据类型，如int8/int4，因此通常使用工具将网络模型转换为启用Quantilization的模型。变换的过程，其实是线性压缩和平移的算术过程。

Quantization有per layer和per channel两种方式，但基于与normalization相同的道理，per channel的物理意义更为清晰。从Float向int8迁移所固有的问题也是Quantization的问题，由于显示的数据范围变窄，如何进行数据映射成为不可避免的问题。这方面的资料很多，不展开，主要是提出带来的问题。

在VPU中启用网络模型时，一般以CPU的精度为基准；经过Quantization，用VPU获得自己的精度。两者之间的差异可能较大，问题一般在于min/max超过了阈值；或者，某些层的操作分布不均匀，无法线性压缩。必须手动调整、更改缩放和缩放，或者更改特殊层的数据映射方法。

记录了比较完善的神经网络模型的量化综述。