麒麟全新达芬奇架构NPU发布,支持算子数量多达240+,业界领先[CSIA]
 
 
麒麟全新达芬奇架构NPU发布,支持算子数量多达240+,业界领先
更新时间:2019/8/14 14:55:23  
【字体: 】        

2019年8月9日,2019华为开发者大会在东莞松山湖举行,本次大会以“AI&IRethinkPossibilities”为主题,汇集来自全球各地数千名合作伙伴和开发者,共同探讨全场景智慧化的未来趋势,开启全球终端产业革命性体验。
  
  大会现场,华为Fellow艾伟发表“麒麟芯惠天下”的主题演讲,面向广大开发者,分享华为在5G和AI时代,如何充分发挥麒麟平台的技术优势,为广大开发者赋能。会上,艾伟重点介绍了麒麟平台在多媒体融合计算、感知融合计算及AI计算三个方面的核心技术和开放能力,并详细解读全新达芬奇架构NPU强劲算力、IRAPI、模型小型化技术和算法调优工具链,如何进一步解决开发者痛点难题,如何赋能HiAI生态,并带给开发者更高价值。
  
  麒麟平台创新技术集群将全面助力开发者。性能方面,麒麟平台强大的CPU/GPU/DSP/ISP/NPU将提供业内领先的处理速度,实现应用的极速运行;提供alwayson、低功耗、低时延的多传感器融合的智能感知Sensehub平台,以及快速稳定的5G/WiFi/GPS/BT连接能力,为应用的基础体验保驾护航。配套业内领先的多媒体融合解决方案,提供更强大的拍照、音频、视频处理及AR游戏能力,让更多炫酷有趣的应用方向成为可能。
  
  针对开发者最关心的AI能力,麒麟平台从性能、计算架构、算法、工具链和生态角度都将提供更强大的支持。创新自研达芬奇架构NPU将进一步赋能HiAI生态,通过IRAPI,更广泛的私有AI框架可以和HiAI平台直接对接,算法开发者保持原有的开发习惯,在HiAI平台可自动获得加速能力,算子支持数量多达240+,处于业内领先水平;支持CV、ASR、NLP等多种AI算法,充分满足开发者的模型需求;HiAIFoundation提供基于NPU的AI运算加速,突破性能边界,实现极致能效比;此外,麒麟平台还支持NAS、AutoTiling、OperatorOptimization、Datacleaning等一系列工具链,兼容性更好,开发效率更高。
  
  麒麟平台创新技术集群
  
  帮助开发者应对不断变化的需求挑战
  
  在手机应用从初现到爆发的过程中,其对技术的需求是不断提升的。WAP时代,应用基于浏览器开发,性能和交互体验差,需要调用的能力少,对技术要求并不高;4G时代,APP大爆发,用户需要便捷、实时、高效、定制的应用来满足需求,对手机芯片各个创新技术的相互协调与融合提出了要求;未来,应用的趋势是轻量化、免安装、跨平台,而且需要更多的交互体验,这就要求手机芯片具备5G、芯端云一体化的AI能力以及大数据、平台化等更多创新技术集群。也就是说,应用的新浪潮将不再由单一技术引爆,创新技术集群才能让开发者获得更大的红利。
  
  作为5G和AI时代的引领者,华为将充分发挥麒麟平台的创新技术优势,面向开发者全面开放芯片能力,让更多开发者加入到全场景、智慧化的新应用的开发队列中来,共同促进应用产业的繁荣发展。
  
  多媒体融合计算能力开放
  
  助力多媒体应用开发者创意落地
  
  近年来视频、短视频、直播等多媒体应用全面爆发。如何进一步抓住短视频爆发的红利期,为用户带来更极致酷炫的体验,是广大开发者当前正在思考的问题。麒麟平台从相机、AI、AR到多媒体编解码多维度构建多媒体融合能力开放架构,为多媒体应用开发者提供能给用户在极限复杂环境下使用的开发技术平台和能力KIT。
  
  基于先进的RGB+TOF+QuadSensor技术、领先的自研ISP和AI能力的加入,华为手机拍照实现了从看见到看清再到看懂的进化。我们将广角拍摄、手持超级夜景、HDR、大光圈、超级慢动作等能力开放给第三方APP,让用户能够拍出更好的视频进行分享。譬如,在前置HDR技术的助力下,用户的逆光自拍时光线更自然。
  
  在AR方面,麒麟平台从人脸、跟踪到环境理解具备比苹果更明显的优势,能够识别更丰富的人脸表情,跟踪方面支持更多属性,从语义层面对环境的理解越来越高级,识别的更快更稳定。
  
  此外,随着视频类应用对媒体视频流的解码编码能力要求不断提高,我们把相应的接口提供给开发者,可以帮助其实现高清、低码、低时延的效果。譬如,我们利用麒麟平台在编解码上更先进的算法优势,让视频拍摄更清晰,对于眼睛感兴趣的部分,编码流更大一些,而视频周边不是注意力集中区域,编码可以更少一些。这意味着,开发者可以在同样的数据基础上,实现更高清的视频效果。
  
  融合感知融合计算能力开放
  
  让APP更聪明、更懂用户
  
  如今,手机已经成为人体器官的延伸,可通过一系列传感器感知外部环境。麒麟平台融合感知能力,可应用于运动健康、定位导航、环境监测、人机交互等场景,让服务在恰当的时间和地点,以更适合的方式呈现给用户。
  
  AI计算能力开放
  
  让普惠AI开发成为可能
  
  当前,端侧AI已经是公认的发展趋势。但是在端侧AI技术与AI应用的紧密结合过程中,也存在很多问题和挑战。例如,端侧AI的计算需求更加密集、复杂,对AI计算的实时性要求非常高;手机的功耗、尺寸、内存、存储空间各方面都会让端侧AI的运行环境受限;端侧应用种类繁多,应用场景的多样性和丰富性对AI平台提出了挑战。这些问题,需要端侧AI产业共同解决。
  
  全新达芬奇架构NPU发布
  
  提供强劲算力
  
  基于华为推出的全新达芬奇架构NPU,通过HiAIFoundation芯片能力开放,我们能够为开发者提供更强大的端侧算力。不同于以往的标量、矢量运算模式,达芬奇架构以高性能3DCube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。
  
  以两个N*N的矩阵A*B乘法为例:如果是N个1D的MAC,需要N^2(即N的2次方)的cycle数;如果是1个N^2的2DMAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。作为首款采用达芬奇架构NPU的手机SoC芯片,麒麟810实现强劲AI算力,在单位面积上实现最佳能效,FP16精度和INT8量化精度业界领先。与竞品相比,麒麟810拥有更好的性能和能效表现,AI跑分也大幅领先。
  
  除了强劲的运算能力,开发者设计神经网络算法的过程中,需要非常丰富的算子支持,这个过程就像搭积木,积木种类数越多、颗粒度越小,搭出来的模型越复杂逼真。目前达芬奇架构NPU支持算子数量多达240+,业界领先。
  
  构筑移动开发生态
  
  助力开发者体验升级
  
  在应用开发过程中,开发者可能面临各种各样的困惑,麒麟始终倾听开发者的声音,打造更高效更强大的解决方案。
  
  “集成复杂,太耗时”
  
  开发者希望集成越简单越好,我们预置了30+的算法,快速API调用,轻松将多种AI能力和APP结合,让APP更加智能强大,我们提供了完备的IDE工具,AndroidStudio插件,支持代码自动生成。
  
  “自研高性能模型尺寸太大”
  
  HiAI平台率先支持FeaturemapInt8和Filter权重Int2混合量化技术以及针对达芬奇架构的稀疏化技术,使模型缩小86%,带宽占用降低61%。
  
  “我们的算法都是基于内部的私有框架,不在HiAI支持的框架列表里,怎么办?”
  
  通过IRAPI,让开发者的私有框架和HiAI平台直接对接,算法开发者保持原有的开发习惯,在HiAI平台便可自动获得加速能力。
  
  HiAI平台对开发者保持透明,根据平台能力自动完成最优子图分割与合并,支持全系列芯片平台,实现了完备的兼容性,有效降低运营成本。
  
  “我有私有的算子实现,能支持二次开发吗?”
  
  基于HuaweiTBEStack,支持开发者自定义算子开发,支持在AICore和CPU上的代码生成。
  
  “端侧推理还能更快吗?”
  
  为了帮助开发者实现更快的端侧推理速度,HiAI平台做了很多尝试。利用在线调优工具包,开发者可以进行计算、数据时间占用分析,能清晰看到推理时间的瓶颈,进行针对性调整;基于网络结构搜索工具包,算法开发者可以针对硬件特点调整网络结构,在目标硬件上获得更好的性能。
  
  麒麟平台面向未来
  
  与开发者一起探索新应用,开启新场景
  
  3G时代,消费者接触应用是单一、低频的;4G时代,APP形成矩阵式,极大地丰富了消费者的手机使用体验和日常娱乐生活;到了5G和AI时代,万物互联成为可能,手机不再是唯一的入口,手表、耳机、AR/VR等穿戴设备,家里的各种智能硬件都能实现直联在线,未来,我们将迎来一个由智慧城市、智慧健康、自动驾驶、智慧家庭等构筑的全场景智能化世界,届时,全场景、多设备、多层次、结构化、原子化的应用服务将对消费者形成无缝包围,广大开发者将迎来更广阔的应用开发空间。
  
  面向未来,5G已来。麒麟平台将持续坚持技术创新,助力广大开发者和合作伙伴在更强大的技术支持下,以更加便捷高效的方式进行应用开发,开启更美好的智能世界。
 
来源:华为麒麟        
 
  • 上一篇: 彭博社:中国5G已领先美国
  • 下一篇: 就5G相关业务,华为与三家韩国公司签署谅解备忘录
  •   打印此文  收藏此页  关闭窗口  返回顶部      
     
    热点文章>>


       
    相关文章>>