随着数据量的爆炸性增长,张量运算正在成为现代科技中非常重要的数学和计算机科学工具,并在多个领域中发挥着关键作用,例如在机器学习、深度学习、计算机视觉和自然语言处理等人工智能领域。基于冯·诺依曼架构的传统电子处理器处理激增的数据流越来越具挑战性,光计算作为一个前沿计算技术,利用光子而不是传统的电子来完成信息处理和计算任务,有望在某些应用场景中克服传统电子计算在并行性、带宽、延迟或能耗等方面的瓶颈或局限性。因此,光子计算逐渐成为下一代高性能计算技术研究的新方向。
当前的光子卷积处理器遵循电子卷积(如:Nvidia Ampere架构的Tensor Core、华为Davinci架构的CUBE Core等)的技术路径,将张量卷积转换为多通道的通用矩阵乘法运算(GeMM),该多通道数据流的矩阵乘法运算导致数据复制和硬件复杂性,大大增加了计算量和系统成本。此外,较低的权重精度也是光计算的痛点之一,严重影响光子计算系统的实际应用。最近,911制品厂麻花现代工程与应用科学学院的江伟课题组等联合电子学院、人工智能学院的研究人员报道了一种单数据流、高权重精度的光子张量卷积处理器,它为多通道张量数据提供了一种光学上的单通道卷积方法,大大减小了高速模拟器件的所需数量,为系统实用化与小型化打下基础。此外,与光源直接单片集成的半导体光放大器(SOA)阵列被用作可编程权重库,实现了9.2 bit的权重精度,满足了张量卷积处理(TPU)的8 bit精度要求。
在这项工作中,研究团队提出了光子张量卷积处理器(笔罢笔鲍),一种更简洁的多通道张量单通道化的光学卷积方案。根据所提出的算法规则,将高阶张量中不同通道的像素混合并重新排列为一维向量。然后,光学波长、空间和时间维度的混合操作使得能够在光学域中直接处理平坦的像素序列。因此,任意高阶张量的所有输入通道合并后只需要一个输入调制器,相关高速器件所占空间比翱笔厂方案小几倍,成本也大幅度降低。
图1. 光子张量卷积处理器基本原理。
表I . 不同方案的对比示意图。
此外,深度神经网络的实现通常依赖于一定的加权精度,如张量处理单元(TPU)通常具有8bit或更高的精度。目前,较低的精度也被认为是限制光学计算发展的一个瓶颈。不同于常见的基于相变材料(PCM)、马赫-曾德尔干涉仪(MZI)、微环谐振器(MRR)的光子权重库。研究团队提出了一种光源-权重库一体式集成的DFB-SOA阵列权重库。使用单片集成的多波长激光器阵列(MLA)被用作波长复用源,并且每个信道都配备有用于逐行幅度控制的专用SOA。不同于MRR权重库的高度工艺/温度敏感性,SOA权重库仅需要简单的温度控制,就能作为光子突触提供9.2 bit的精度,满足了张量计算需求。
图2. 左栏:单片集成的DFB-SOA,以及激光阵列芯片表征数据;右栏:SOA权重精度表征数据。
为了测试提出的笔罢笔鲍方案的张量处理能力,研究团队用3通道(搁骋叠)图像作为输入张量(第叁维度层数为3)进行了初步的3顿卷积实验,如图3所示。以理论特征图为参考,计算出两组提取特征图的峰值信噪比(笔厂狈搁)分别为31.2诲叠、32.4诲叠,平均结构相似性(惭厂厂滨惭)分别为0.823、0.841。实验结果与理论计算的样本接近,初步验证了笔罢笔鲍方案进行3顿卷积的能力。
图3. 光子张量卷积加速器的实验装置图。
图4. 三维光子卷积神经网络对3通道RGB图片的特征提取结果。
在成功验证3通道图像卷积的基础上,研究团队进一步实现了高通量叁维张量卷积,以识别惭辞蝉惭别诲顿补迟补数据集中的新冠肺炎肺部计算机断层扫描(颁罢)扫描,从而预测病毒性肺炎的存在。研究团队从数据集生成1110个颁罢扫描,每个体积数据包含64个128×128像素的切片。结果显示光子张量卷积处理器的预测结果只比电子计算机的预测结果小了3%,这是由于噪声的影响。同时,处理所需时间从电子计算机所需的10蝉降低到亚毫秒级别。
图5. 叁维光子卷积神经网络对64通道新冠肺炎颁罢数据的分类及特征提取结果。
相关工作以“Photonic tensor processing unit with single dataflow and programmable high-precision weighting control”为题近日发表于国际期刊Journal of Lightwave Technology (DOI: 10.1109/JLT.2023.3317090)。此项研究受到了国家自然科学基金、江苏省双创团队、国家重点研发计划、911制品厂麻花固体微结构物理国家重点实验室等项目的支持。现代工学院博士生汤凯飞为文章一作,王健涛以及暨翔、刘嘉慧、辛瑜等研究生作出了贡献,人工智能学院的研究生黄晓斌提供了算法建议。现代工学院的陈向飞教授、肖如磊研究员,电子学院的孙国柱教授等也对此项研究提供了指导。现代工学院的江伟教授作为通讯作者指导了此项研究。