首页 > 编程知识 正文

(深度学习硬件基础:TPU和其他芯片)

时间:2023-05-06 14:18:50 阅读:121958 作者:263

文章目录其他芯片DSP:数字信号处理器FPGA :模拟AI ASIC:AI领域专用芯片系统阵列:脉冲阵列总结参考

其他芯片DSP:数字信号处理器

DSP、数字信号处理器,也就是数字信号处理器。 这是具有特殊结构的微处理器,是用数字信号处理大量信息的微处理器。 将模拟信号转换为数字信号,用于专用处理器的高速实时处理。

数字信号处理算法的设计:积分、电位器以及FFT低功率、高性能比移动GPU快5x, 功耗更低的VLIW:Very long instruction word常用于模拟现场编程mmamaca (FPGA ),用一条指令计算数百次累积编程和难以调试的编译器质量的好坏与电容器不同,只有固定的单一功能——FPGA可以用硬件描述语言(HDL )编程,以便执行特定的任务。 超高速集成电路硬件描述语言(VDL )是广泛使用的HDL语言之一。 另一种是Verilog HDL,在工业界也很流行。

有许多可编程逻辑单元和可配置连接,可以将其配置为计算复杂函数的编程语言。 VHDL Verilog通常具有比通用硬件更复杂的工具链质量,一次“编译”可能需要几个小时。 ai领域专用芯片深度学习热门领域的大公司制造自己的芯片(Facebook )谷歌TPu芯片是象征性的芯片,与倪大安GPu一致。 可以大量部署到Google的新核心是systolic array Systolic Array (系统阵列)脉冲阵列计算单元(PE )阵列(一维或二维、串行、阵列、树结构) PE ),目前阵列格式很多(某些二维结构可能具有对角线方向的数据通道。 )矩阵乘法的设计和制造比较简单,可以使数据稍微多流过处理单元)的算例。 在此示例中,x的值被广播到每个运算单元,w的值预先存储在PE中并保持不变,但y的部分结果经过了三个原样采用的时间,最右边的PE的输出是x和w这两个序列卷积运算的第一个结果,之后将y的值保留为

(我理解的是,值和参数之一向右移动,一个向下移动。)

在一般的矩阵乘法的情况下,可以将矩阵截断并根据SA的尺寸批量输入,以减少延迟。 通常,其他硬件单元处理其他NN操作员。 例如,活化层总结参照[1] DSP

[2] FPGA :想学习的人请看。 我知道专栏。 后期还有实验的实现

[3]介绍AI ASIC : CPUGPU和上述其它芯片

[4]系统阵列:原理并不太难,请看一下

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。