作者|靖宇
打开摄像头界面,演示人员拍摄了一张眼前风景的图片。在相册中,找到这张图片,选择「扩充」功能,结果本来照片没有拍到的外围部分,被神奇地「扩充」到了外围。
另一边,一台手机仿佛是用来给参观者自拍的,进入到它的前置摄像头区域,你会发现,画面中人物影像的背景被实时替换了,即便自拍者不断动作,虚拟背景也没有穿帮,几乎感受不到延迟。

实时修改自拍背景演示|极客公园
而如果稍微仔细一些,你会发现这些用来演示的手机全部开启了飞行模式——也就是说,上述这些复杂功能,全部跑在手机本地芯片上。
这是2023高通骁龙峰会的Demo体验馆,而上述手机演示的AI功能,全部仰仗于机器内部、刚刚在会上曝光的骁龙8Gen3(第三代骁龙8)处理器芯片的算力。
在AI大模型火爆的当下,高通在今年的发布会上发布的两款新品,骁龙XElite和骁龙8Gen3芯片,分别在PC和智能手机代表的移动设备上,实现了百亿参数大模型的本地运行,让生成式AI的神奇能力,成为移动设备的「内置功能」。
在「云端AI」之外,借助芯片的高速发展,「终端AI」已经实现,而二者协同的「混合AI」的时代,可能已经到来。
01AI,从数据中心到手机和PC「我们刚刚见证了下一个转型的开始,而它的深远意义。」
高通公司总裁兼CEO,克里斯蒂亚诺·安蒙CristianoAmon在描述了手机从功能机到智能机,再到未来时,对终端和云端结合的「混合式AI」,做出了这样的预言。

安蒙在高通骁龙峰会上阐述「终端AI」时代已经到来|极客公园
在云端的AI,例如现在诸多的生成式AI对话应用可能已经不陌生,但是终端AI的实现,对于硬件的要求很高,这也是为什么当天高通发布会上的两款全新芯片——骁龙XElite和骁龙8Gen3格外引人注意。
也许当天最刺激的,是骁龙XElite所搭载的OryonCPU在单线程上的性能不仅秒杀苹果公司自傲的M2MAX芯片,和英特尔的i9-13980HX,而且在同等性能上的能耗比后者降低了70%。
更重要的是,强劲的OryonCPU、HexagonNPU,以及AdrenoGPU,在XElite异构的AI引擎加持下,三块处理器单元能够实现整体75TOPs的算力。
超强的算力,让之前只能在云端获得的生成式AI对话体验,可以成功在搭载了骁龙XElite芯片的电脑本地环境中——最高可以在PC端运行高达130亿参数的大语言模型,Token生成速度达到每秒30个,快到超过用户的阅读速度;同时,使用StableDiffusion生成图片速度达到惊人的少于1秒。

新推出的OryonCPU速度和能耗吊打友商|极客公园
作为智能手机芯片旗舰产品,骁龙8Gen3的实力与XElite相比也不遑多让,在AI方面,不仅本地能跑起百亿参数大模型,同时生成图片速度同样达到了短短0.6秒。
仅仅在今年第一季度,高通的演示仅能在本地跑的动10亿参数大模型,生成图片速度控制在15秒。高通使用了什么「魔法」,能让「终端AI」取得大跨越发展?
以骁龙8Gen3为例,首先高通将Llama2这样的大模型量化,使用AI软件栈进行压缩,将量化模型加载到超高速DDR内存之中,后者可以用超快吞吐量将模型输入到HexagonNPU进行工作。

高通的AI引擎专门针对AI进行了优化|极客公园
高通对微架构进行了重大改进。除升级微切片推理硬件外,团队还为张量加速器增加了独立的电源传输轨道,以实现最佳性能和能效。同时,高通还提高了标量和矢量加速器的时钟速度,并将大型共享内存的带宽增加了一倍。HexagonNPU的这些改进,使其成为大模型推理的领先加速器。
在语音式生成对话中,高通还使用了一种「推测性解码」技术,后者也是首次在终端上使用。该技术使用几乎只有原模型一半大小的「草稿模型」算法,首先在CPU上进行大量推理后,快速生成3个推测性Token。
主模型一次性处理所有3个标记,并决定接受哪一个。一个好的草稿模型能以较高的接受率预测下一个Token,从而使Token生成速度翻倍,同时保持准确性。最后,AI助手生成的语音要经过CPU上运行的文本到语音AI模型而生成。
这是高通AI引擎,也就是NPU,再加上CPU、GPU、高通传感器中枢和超快内存共同协作完成了一次终端侧AI使用案例的过程。
但是,在复杂但高效的生成式AI应用案例背后,是高通在终端侧AI方向上漫长的积累和探索。
02终端AI进化史如果说以数据中心为场景的云端AI硬件进化,标志是英伟达的图形显卡;那么终端侧AI的发展,具有标志意义的则是高通AI引擎,当然其中硬件层面最关键的部分就是不断进化的骁龙HexagonNPU处理器。
早在2007年,高通便在骁龙平台上推出了首个Hexagon处理器。
2015年,高通已经将AI技术集成到其处理器之中,用AI来增强图像、音频和传感器的运算。
2017年,高通在骁龙845芯片中引入了Hexagon685DSP,它使智能手机更快速地执行复杂的AI任务,如图像识别和语音处理。
接下来的2018年,骁龙855升级了第四代AI引擎,为Hexagon处理器增加了张量加速器,在AI处理方面有了3倍的性能提升。
骁龙865中,引入了Hexagon698DSP,提供了更多的AI性能和效率。这一版本强调了AI加速,并优化了AI模型的执行,从而在智能手机中更快速地运行AI应用。2020年年底的骁龙888中的Hexagon780DSP,提供了高达26TOPS的AI性能。

经过十多年进化,骁龙计算平台的AI能力已经增长100倍|极客公园
直到现在骁龙XElite和8Gen3芯片,已经能提供75TOPs的算力——如果将这七年来高通芯片在AI处理能力做成一张曲线图,可以看到那条「AI曲线」呈现一个陡峭上扬的趋势,并且仍然没有停下来的趋势。
在硬件之外,高通在AI软件层面上的努力,对于提升终端AI的能力同样不可或缺。高通AI软件栈将其所有的AI软件产品集成在统一的解决方案中。OEM厂商和开发者可基于高通产品创建、优化和部署AI应用,充分利用高通AI引擎性能,让AI开发者创建一次AI模型,即可跨不同产品部署。
在骁龙峰会上,高通还发布了AI软件栈模型——一套能够满足开发人员需求的模型,这些模型经过高通公司的全面优化、测试和验证,可支持第三代骁龙8和骁龙XElite平台。
高通神经网络处理SDK和高通AI引擎Direct是高通AI软件栈的核心,连接芯片与所有主流AI框架。利用托管模型TFLite和ONNXRT,用户还可以直接使用Tensorflow和ONNX,让开发人员自由选择自己喜欢的工作环境。

高通正在和众多巨头、大模型公司建立终端AI生态|高通
高通已经和多家巨头和大模型初创公司合作,在高通AI软件栈模型发布时,已经有30多个大模型支持,数量还在不断增加,而软件栈模型也会在大热的模型托管平台HuggingFace现身。
由多个软硬件组件构成的高通AI引擎如今已经发展到第八代,能在骁龙和高通平台上实现终端侧AI加速。
可以看出,以芯片底层硬件为基础,高通正在联合为数众多的合作伙伴,建立起一个「终端AI」生态。
「终端AI」为什么这么重要,高通,及其合作伙伴,要不遗余力地进行投入?
03「混合式AI」的未来在浏览器中,在手机端的App里,很多人都在使用生成式AI应用,看起来这种「云端AI」似乎已经能满足人们的需求。相对于云端AI,终端侧AI有什么优势?
首先就是即刻响应。之前曾经有开发者尝试将StableDiffusion模型压缩,在Mac笔记本上生成图片,结果生成速度以小时计。而如果在终端进行本地运算,高通展示的Demo中,FastStableDiffusion生成图片的速度已经降到了1秒以下。
尤其是像虚拟人、实时虚拟背景这样对于延迟要求较高的场景,终端AI本地运算的即时性就凸显出来。
另外,在网络不良的情况下,本地设备的AI能力就成了用户的唯一选择。

第三代骁龙8芯片可以在手机本地实现照片扩展能力|高通
同时,当数据跑在终端的本地时,安全性也要比在云端更加安全。例如,骁龙XElite支持最新端到端安全,从芯片到云保护企业的全部终端。专用的高通安全处理单元支持微软Pluton安全架构,旨在存储敏感数据。
最后,就是终端AI能力的提升,能真正有机会让人工智能助手,摆脱「人工智障」的骂名,真正成为合格的高度个性化的私人智能助手。就像现场演示的那样,借助记录和存储在终端侧的个人信息、使用习惯等数据,智能助手在接收到语音指令后,即可直接预订酒店和机票,而不用在手机各个App中跳来跳去。这些都是云端AI所无法比拟的。
大概十年前,a16z创始人马克·安德森曾经做出「软件吞噬世界」的预言,可惜现实证伪;在大模型引发的AI浪潮下,「AI吞噬App」却正在逐步变成现实。

终端AI+云端AI,会改变智能手机以App为中心的范式|极客公园
「AI的预测能力,加上终端是专门为你打造的,这就让终端和操作系统,以及应用和云端变得智能。」
安蒙如此描绘终端AI+云端AI组成的「混合式AI」,将会如何改变人们使用终端的习惯。
截至目前,使用骁龙平台的终端已经达到30亿之巨。
就像OryonCPU会在接下来进入到高通各个产品线,终端AI的能力,将很快从PC、手机转移到XR和智能车机端——一个「混合式AI」无处不在的未来。

AI将会进入各式各样的终端之中|高通
骁龙峰会开场,毛伊岛本地民族的特殊仪式,来自海外的陌生人,通过独特的海螺乐器和叫声,表明自己无恶意;岛上的本地族人,则以独有的「咒语」回话对方,确认对方无恶意,值得信任。
这令人动容的仪式,很像「终端AI」和「云端AI」的融合,携手为世人带来「混合式AI」的未来。