寒武纪科技

中国新纪录:DianNao系列深度学习处理器架构入选《国际计算机学会通讯》评选的研究焦点

文章出处:未知 │ 网站编辑:admin │ 发表时间:2016-11-09 11:35

2016111日,中科院计算所寒武纪团队成员和法国Inria联合发表的深度学习处理器架构概述论文“DianNao Family: Energy-Efficient Hardware Accelerators for Machine Learning”(DianNao系列:高能效机器学习硬件)刊发于《国际计算机学会通讯》(Communications of the ACM)的研究焦点(Research Highlights)栏目。该栏目旨在向全球计算机领域的的学者和工程师介绍计算机科学领域最新最重要的研究进展,每年一般仅十余项,由国际计算机学会(ACM)筛选。这也是中国大陆高校和研究所的研究工作首次入选该栏目。

美国加州大学伯克利分校教授、IEEE会士Kurt Keutzer教授专门在同期的《国际计算机学会通讯》上专门为DianNao系列撰写了一篇题为“If I Could Only Design One Circuit”(如果我只能设计一个电路)的评论文章,高度评价了DianNao系列深度学习处理器架构的学术贡献,并向西方读者深入介绍了DianNao系列背后的汉语拼音和汉字含义。

深度学习是一类借鉴生物的多层神经网络处理模式所发展起来的智能处理技术。这类技术已被微软、谷歌、脸书、阿里、讯飞、百度等公司广泛应用于计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并取得了极好的效果。基于深度学习的围棋程序AlphaGo甚至已经达到了职业棋手的水平。因此,深度学习被公认为目前最重要的智能处理技术。但深度学习技术运算量极大,传统芯片往往难以满足深度学习处理器的需求。例如,AlphaGo在和李世乭对弈时使用了上千个CPU和两百个GPU;谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。因此,传统处理器的速度和能效有限已经成为了深度学习发展的重要瓶颈。

        blob.png                  

为解决深度学习发展卡脖子的速度和能效问题,寒武纪团队成员和Inria前期联合提出了国际上首个深度学习处理器架构DianNaoDianNao以新颖的神经网络运算器和访存层次,实现了对传统处理器架构的突破。模拟实验表明,DianNao架构相对于传统处理器(如CPUGPU)有两个数量级的能效提升。在此之后,该中法联合学术团队又提出了DaDianNao(多核深度学习处理器架构)、ShiDianNao(视觉深度学习处理器架构)和PuDianNao(通用机器学习处理器架构)。这些工作两次获得计算机体系结构顶级国际学术会议的最佳论文奖,形成了较大的国际影响力,受到了包括哈佛、斯坦福、麻省理工、哥伦比亚大学、加州大学、IntelHPNvidiaIBM和微软等在内的大量国际高水平研究机构引用跟踪。2016年计算机体系结构年会上甚至有近1/6的论文引用DianNao系列的工作来进行深度学习硬件探索。

 


在学术研究之外,寒武纪团队依托中科院计算所独立研制了国际上首款深度学习专用芯片,并提出了国际上首个深度学习指令集Cambricon。目前,寒武纪芯片的产业化也已经步入正轨,和上下游多个应用厂商开展了深度合作。寒武纪的使命是做引领智能时代的芯片公司。

 

blob.png


附:链接http://cacm.acm.org/magazines/2016/11/209123-diannao-family

国际计算机学会每年从浩如烟海的计算机学术论文中评选出“研究焦点”,需要经过三个环节:首先,各个计算机顶级国际会议(如SIGGRAPHISCASIGCOMMPLDIASPLOS等)通过参会人员投票(或其它形式)从本次会议中选出1-3篇论文推荐给相应领域的专委会(Special Interests Group)。然后,各个专委会对各个会议上报的论文进行比较,择优提名给研究焦点评委会。最终,研究焦点评选委会从各个专委会推荐的论文中投票选出入选论文。


>