联发科天玑9400在24年10月9日正式发布。这是天玑旗舰SoC,首次提前到10月上旬发布。发哥这一代CPU和GPU的攻略重点都是能效,这是天玑9400使用X925超大核+X4超大核+A720大核的核心原因。这一代的NPU新增大量端侧AI能力,甚至首发了端侧训练(LoRA训练)和图生视频能力。天玑9400(MT6991)简要规格:台积电N3E工艺,291亿晶体管1颗3.62GHz的X925超大核 + 3颗3.3GHz的X4 超大核+ 4颗2.4GHz的A720GPU是Immortalis-G925 MC12,AI处理器是NPU 890首发支持10.7Gbps的LPDDR5x 10.7Gbps内存将由10月14日发布的vivo X200系列首发,随后是OPPO Find X系列旗舰SoC的简要规格表↑架构与变动最新的发哥之⭐:台积电第三代4nm → 第二代3nm工艺(即和苹果A18/A18 Pro相同的N3E);227亿晶体管 → 291亿晶体管(再次刷新纪录。虽然天玑9400是包含基带、ISP等部件的,但晶体管数目比苹果M4的280亿还多,就属实过分了);【CPU】是第二代全大核架构。宣称单核性能相较上一代提升35%,多核性能提升28%,相较上一代同性能功耗节省40%:首发X925架构的超大核,架构代号黑鹰,它就是之前以为会叫X5的超大核。3.62GHz,2MB L2缓存,IPC提升15%(在相同频率下,IPC越高,性能越强);3颗X4超大核,3.3GHz,每颗都有1MB L2缓存;4颗A720(也能叫做能效核),2.4GHz,每颗512KB L2缓存;12MB的L3缓存+10MB的SLC系统缓存;对比天玑9300,天玑9400各个核心的L2缓存都翻倍,L3缓存也涨了50%(天玑9300是8MB L3+10MB SLC)。大缓存,对于能效是利好,但就是费晶体管、费钱↓ 天玑9400最高支持10.7Gbps的LPDDR5X内存(GPU和AI,都对内存带宽敏感)三星在今年7月,用天玑9400完成10.7Gbps LPDDR5X内存的验证。对比8533Mbps的版本,新内存性能提升25%,同性能下的功耗降低25%;而天玑9300顶配的LPDDR5T内存是9.6Gbps,后者由上一年的X100/X100 Pro的皇帝版首发。可能因为成本和量产的原因,后面的机型都是LPDDR5X内存。【GPU】是首发的Immortalis-G925 MC12 1.612GHz,频率提升23%。Arm之前表示G925是它们性能最高、效率最高的GPU,其着色器核心从G720的10到16个,提升到10到24个。其频率更是一路飙升——天玑9200是Immortalis-G715MC11 981MHz → 天玑9300是Immortalis-G720 MC12 1.3GHz → 天玑9400的Immortalis-G925 MC12更是提到1.612GHz,比A18 Pro GPU的1.45GHz还高一截。PS:10核心或以上叫Immortalis-G925,最高可选24核心(给笔记本设计的)。往下的型号叫Mali,分别是可选6-9核核心的Mali-G725、5核心及以下的Mali-G625。天玑9400的官方提升数据官方的天玑9400提升幅度:【CPU】CPU单核性能相较上一代提升35%,多核性能提升28%,同性能下功耗比前代降低40%;安兔兔常温280万分,实验室环境超过300万分。【GPU】GPU峰值性能提升可达41%,GPU功耗降幅可达44%,光线追踪性能提升可达40%;第三代光追(30fps→60fps→90fps),《暗区突围》的光追帧率提升50%的同时,功耗降低10%(注意看,是同时);王者荣耀功耗降低35%,“米哈游三件套”60fps原神功耗降低23%,60fps星铁功耗降低29%,60fps绝区零功耗降低35%。【基带与连接】新的5G基带支持R17,5G功耗下降18%;WiFi/蓝牙芯片从6nm升级到4nm工艺,日常WiFi功耗降低15%-50%;宣称WiFi抗干扰能力提升80%,传输距离最高提升30米(等效于两层楼);支持最高7.3Gbps的WiFi 7(当中包括2x2的2.4G频段 + 双5G频段。当中一个2x320M,一个160M)。三频WiFi支持2.4G+5G、2.4G+6G、5G+5G、5G+6G的MLO(国内用不了6G频段),硬件支持双5G MLO和双6G MLO(发哥表示会根据生态进展来放出对应软件);支持双蓝牙连接,以及最新的“公里级”BLR蓝牙协议(Long Range远距离),支持最高12Mbps,384kHz,24bit的蓝牙音频。X925超大核CPU部分,最值得说的,当然是新的X925超大核架构。X925是新的Arm之⭐,它是现在手机端,设计特性最新、最先进的CPU架构。Arm官方PPT中↓,X925是IPC提升幅度最大的一代。天玑9400的X925超大核是Arm V9.2指令集、10宽度的解码单元、6x128bit的SMID/FP执行单元、有SVE2/SME支持(256宽度)苹果A18/A18 Pro的性能核是Arm V9指令集、10宽度的解码单元、6x128bit的SMID/FP执行单元、有SVE/SME支持(512宽度)骁龙8 Gen 4的自研性能核是Arm V8.7指令集、8宽度的解码单元、4x128bit的SMID/FP执行单元、用的是更加“古老”的NEON(害,和骁龙X Elite同源,吃了“设计早”的亏)今年的天玑9400和苹果A18/A18 Pro、上年的天玑9300和骁龙8 Gen 3(后两个都是X4超大核)都属Arm V9,而骁龙8 Gen 4和骁龙X Elite是Arm V8.7。Arm V9的性能、能效、安全性都会更好。联发科在和虹软、快手等应用厂商验证中,新的V9指令集可以带来10%到20%的速度提升。PS:和完全去掉32位支持的Arm V9不同,理论上用Arm V8.7的骁龙8 Gen 4,有可能会是唯一原生支持32位App的旗舰芯片(要等实测才能确认)。X925的前端解码单元,和X4、苹果A18/A18 Pro一样是10宽度。作为对比,A17 Pro是9宽度,AMD Zen 5是双4宽度的解码器,M1/M2/A15/A14都是8宽度,Arm的X3超大核可选6到8宽度(一年前的X4,核心变化就是加大解码宽度+缩短管线长度)。Arm关于NEON与SVE 2的性能对比↑而NEON、SVE、SVE 2是递进的三代(单指令多个数据执行)指令集,SVE/SVE 2的好处是支持灵活矢量长度,而SVE 2则新增对机器学习、DSP数字信号处理(5G和多媒体处理)的支持,可以提升解密、视频解码、机器视觉、摄像头视频流、游戏、基带等部分的性能和能效。但能不能利用上Arm V9和SVE 2的先进特性,还要看应用生态的跟进,它们现在还是一个战未来的状态(几年后,机器步入中老年期,它们的性能和功耗差距可能就会被拉开)。今年苹果的加入,应该会加速新指令集的推进和普及。性能实测:CPU单核涨23%/多核涨15%,GPU提升又又又超30%开波前,还是老话:性能测试/跑分就像考试,跑分高未必体验好,但跑分差的,体验肯定不好。联发科的工程机已经是老朋友了,从天玑9000开始就是这套模具。它有直接裸露的卡槽和极为先进的3.5mm耳机接口。今年的配置是天玑9400,搭配16GB的LPDDR5X 10667Mbps皇帝版内存+1TB UFS 4.0闪存。它和量产机的散热条件,有亿点不同。它只有基础的均热板,电池容量还很小,但为了“方便”更换内存和闪存,据说SoC和内存没有像量产机那样叠放。跑分测试时室温21度到23度之间,机身温度固定到21到22度开跑,打开性能模式,过程中不使用风扇、散热背夹等工具。*网上的散热背夹/冰箱跑分,多核分数会再高几百分。测试现场不能跑SPEC 2017,这次的测试项目是GeekBench 6、GFXBench和3DMark,以及原神、星铁、绝区零这“米哈游三件套”。 天玑9400的GeekBench 6跑分↑ 与其他SoC的对比↑GeekBench 6(左侧两列)和GeekBench 5(右侧两列)是两套测试体系。【GeekBench 6】是多核单负载,会比GeekBench 5更接近日常应用,对核心数更少的苹果更加有利。其以Clang6为主,不会像GeekBench 5那样主要调用本地库,所以无法像以前那样反映系统优化的影响,但正好用来测SoC的理论性能。而以前的【GeekBench 5】测试,它可以调用本地库,且多核负载更高,所以安卓阵营的表现会更好。而GeekBench 6.3引入了前面提到的SVE/SME支持,所以天玑9400这些支持SVE/SVE2的芯片会有巨大提升。但因为现在应用生态的支持SVE/SVE2的App还不多,所以其实是GeekBench 5的成绩,可能更贴近现在的日常使用感受。(第二列为“GeekBench 6分数与超大核频率”的比值↑,对比不同芯片在相同频率下的性能)这是CPU单核性能集体暴涨的一代,天玑9400的单核性能毫无悬念地大幅抛离前代,比骁龙8 Gen 3强23%,比天玑9300强23.2%。天玑9400的CPU多核性能,比骁龙8 Gen 3强22.2%,比天玑9300强15.4%。天玑9400应该是同代旗舰芯片中,同频性能提升幅度最大的一颗。这或许是发哥能做到“同性能下,功耗比前代降低40%”的核心原因:按3.62GHz计算,天玑9400在GeekBench 6中的同频性能,比天玑9300强16.6%,比骁龙8 Gen 3强18%,也比骁龙8 Gen 4的泄露跑分强9%;如果按GeekBench后台记录的3.78GHz计算(频率比3.62GHz高4.4%),天玑9400的GeekBench 6同频性能,比天玑9300强11%,比骁龙8 Gen 3强12%,骁龙8 Gen 4的泄露跑分强4%。 GFXBench测试↑3DMark Steel Nomad Light测试↑GPU部分,GFXBench测试使用的渲染管线和API更贴近传统手游,适合测试传统的GPU性能。而3DMark新推出的Steel Nomad Light测试,有了更新的特性,更贴近现代3A游戏的渲染管线,适合用来看新的旗舰GPU。但它对移动设备的要求很高,而且要求8GB内存,导致A16都没法跑该测试。 GPU这边,天玑9400在GFXBench的高压力测试中提升了35%左右。在3DMark Steel Nomad Light直接屠榜,2524的成绩,提升近30%,把2200左右的A18 Pro、不到2000的天玑9300+、不到1800的骁龙8 Gen 3,全部甩在了身后。根据现有的爆料,今年骁龙8 Gen 4的GPU也未必能赢天玑9400,玑哥大概率会继续卫冕GPU冠军。最后再看看娱乐兔,安兔兔的总分不靠谱,但它单项的CPU和GPU测试还有一定的参考价值。安兔兔这边,天玑9400的CPU提升22.9%,GPU提升37.3%,内存提升35.7%:天玑9400工程机,总分284万分,CPU 62.3万,GPU 127.4万,内存53万, UX 41万(安兔兔V10.2.6)天玑9300工程机,总分213万,CPU 50.7万, GPU 92.8万,内存38.9万,UX 31.2万(安兔兔V10.0.6-OB6)骁龙8 Gen 3,冰箱小米14 Pro(-10.3度,肥威老师),总分218万,CPU 49.3万, GPU 90.4万,内存45.5万,UX 33万骁龙8 Gen 3,小米14,总分200万,CPU 43万,GPU 83.4万,内存42万,UX 31.8万(WHYLAB)骁龙8 Gen 3,一加12,官方总分211万,CPU 49.6万,GPU 91.4万,内存36.2万,UX 33.8万骁龙8 Gen 2,小米13,总分157万,CPU 39.7万,GPU 60万,内存29.6万,UX 27.7万(WHYLAB)A17 Pro,iPhone 15 Pro Max总分149.7万,CPU 36.8万,GPU 52.6万,内存26.4万,UX 33.9万(WHYLAB)骁龙8 Gen 2的总分160万左右,CPU部分38万,GPU 60万天玑9200+的总分165万左右,3GHz骁龙8+在130万左右比起安兔兔的跑分,本彦祖更在意的是跑分过程中的能效和温升:同样是22度左右的室温测试,今年的温升是8度(掉电10%),上一年的温升是10度(掉电8%)。但毕竟是工程机,且机器的电池容量不明,数据仅供参考。根据能量守恒,相近时间内,电能转化为热能,温升和掉电应该呈正相关。但实际趋势相反,可能是两代工程机芯片/散热配置不同,也有可能是工程机的电池不一样了……游戏实测与能效分析:米哈游三件套大家最关心的能效部分,因为还没有量产机,暂时只能通过游戏来侧面测试。室温21到23度,屏幕亮度200尼特,全程没降亮度,压力从低到高排列:原神15分钟,60fps最高画质+关动态模糊,须弥城跑图,平均帧率60.1帧,平均功耗4.36W,机身最高温37.1度。星铁30分钟,60fps最高画质,星槎海中枢,前15分钟宣夜大道+后15分钟园林折返跑,平均帧率59.8帧,平均功耗4.72W,机身最高温39.5度。绝区零30分钟,60fps最高画质,全高光映广场警局分署边的小路绕圈,平均帧率59.9帧,平均功耗4.84W,机身最高39.7度(实际跑了35分钟,取了中间30分钟)。有趣的是CPU调度↑,在大型游戏这种高负载场景,天玑9400把X925超大核作为主要计算核心。可能是因为X925的性能足够强,且有能效优势。另外,偏重单颗核心的设定,可减少调度损耗,显著提升很多场景的使用体验。【能效方面】天玑9400用上了和A18 Pro同级的台积电N3E工艺,联发科表示X4和A720都针对3nm制程做了二次优化,而且X4和A720的L2缓存全部翻倍。理论上,大缓存会增加静息功耗,但会降低中高频的功耗,从而提升综合能效表现。结果天玑9400重点调用的,是新的X925超大核。说明这时候用X925才是更省电或更高效的方案,这让本彦祖不禁对X925的中低频能效产生极高的期待。联发科在沟通会中多次提到能效。在被问及“为何没采用新发布的A725”时,联发科表示天玑9400这套是“对于能效的最优解”——他们的设计目标是达到30%以上的轻重载功耗优化,测试过后,最后选择继续用X4和A720来搭配X925。测试下来,天玑9400的CPU单核强了23%,多核强了15.4%,GPU的提升又又又超过了30%。天玑连续3代30%到40%级别的GPU性能暴涨,加上这两代CPU提升(X4、X925,以及提升大核比例的全大核设计),上一年的旗舰芯片,在绝对性能上已经通杀所有的移动游戏(实际制约它们的是功耗)。到天玑9400这一代,已经是发哥所说的“后满帧时代”了,要有更高维度的追求。发哥认为后满帧时代的方向有3个:降功耗:天玑9400就是在用X925超大核和规模更大的GPU去跑低频,以此降低功耗。跨端移植PC大作:这部分,现在的主要进展是提升绝对性能和光追性能。天玑9400的光追性能又提升50%,引入了类似《黑神话:悟空》这些PC 3A大作的光追技术(其搭载的OMM追光引擎,宣称加入预处理部分,会过滤不需要计算的部分,把算力就留给物体边缘)AI生成渲染+AI互动(教练互动和NPC):发哥现在官宣的,是《王者荣耀》首发的端侧AI语言教练和《废土》的AI NPC。测试现场的超分对比,上方为高分辨率的视频,下方是超分上来的视频↑(它们的分别越小越好)而一同发布的“星速引擎MAGT 3.0(降触控/网络等延迟)、倍帧2.0(电视上的插帧同源)、首发的星速引擎超分技术”中,MAGT 3.0是每年都在更新的功耗和延迟控制技术;而后两个是超帧和超分,它们就是现在各家独显芯片的工作内容。发哥现场也有样机展示,效果当然还可以,特别是GPU内的超帧,对比“独显芯片”会有天然的优势,就看到时量产机要怎么使用了。今年还有一个特殊点,发哥第一次重点说到后台调度 ——天玑调度引擎,并公布了自己的APP启动和触控响应数据。Google原生的调度,圈不准一个应用的全部后台线程,所以不敢大胆地做算力倾斜。而联发科表示他们的“VIP引擎”有更准的框法,且无需人工白名单,可以自动判断+实时感知。给主线程和小线程的算力倾斜更大,且可以同时通知CPU/SLC、WiFi蓝牙等部件。官方的测试,是在跑原神的时候运行一个可以吃爆CPU的后台APP。测试中,天玑9400依然可以保持59fps,而天玑9300是29fsp,骁龙8 Gen 3是20fps。这芯片厂商的软件调度,原理听着有点像vivo OriginOS的“不公平调度”↑,四舍五入,也算是向“墓碑机制”的努力了。联发科表示从天玑9300那一代,开始系统性研究APP轻载时的启动和响应速度(除了启动快,还要每次启动的速度都稳定可控,降低偶发卡顿对“高级感”的影响),重点确认执行管道不被打断:APP启动方面,宣称天玑9400的反应时长小于100ms(iPhone 15 Pro Max是135ms,iPhone 11之后的iPhone差不多都是这个级别),反应误差<12ms(iPhone 15 Pro Max是13ms)。滑动响应<110ms(iPhone 15 Pro Max是<127ms,主流是150到170ms),滑动点停时长<40ms(iPhone 15 Pro Max是50ms内)。不知道为什么,看到这里就有种强烈的预感,相关的内容大概率会出现在之后的终端发布会。先天AI圣体现在几乎所有头部芯片和手机厂商都在搞AI,但高通和苹果对AI的重视程度,明显没有联发科高。天玑9400的NPU890,宣称Diffusion性能提升100%,LLM性能提升80%,能效提升45%。联发科公布的天玑9400苏黎世测试(ETHZ AIBenchmark )成绩超过6700分,相比前代提升巨大:天玑9300测试机的成绩是3145分,X100 Pro是3410分,骁龙8 Gen 3的Find X7 Ultra是3348分,而骁龙8 Gen 2 for Galaxy的S23 Ultra是2500分上下,骁龙8+是1800分出头,天玑9200是1600分左右,天玑9000在1000分出头。除了AI性能,发哥的AI特性也是加得最积极的。AI的发展趋势是从相机→大语言模型→文生图→图生视频,天玑9400这一代就直接支持端侧图生视频了:天玑9300是移动端首个搭载硬件生成式AI引擎、首个支持生成式AI端侧技能扩充、支持的模型最多、有硬件内存压缩、可以跑330亿参数的大模型的SoC;而天玑9400是首个支持图生动画(Stable Diffusion)、Temporal Tensor有时域张量硬件指令加速、首发端侧DiT(Diffusion Transformer)、首发端侧LoRA训练、首发端侧混合专家MoE模型(而且是全部跑在NPU上)、支持端侧运行Meta刚发布的LLama 3.2的1B和3B模型(11B还是要云端)的移动SoC;联发科表示天玑9400支持多模态50Token/s(Google Tensor G4是45Token/s、A18 Pro是30Token/s),速度已经接近GPT 4o(端侧就能理解图片,像是直接看懂英文菜单并给出建议);大语言模型的Token从之前的2K,暴涨到32K,提升15倍;今年是硬件低位宽KV缓存压缩,内存占用降低50%,传统7B模型需要的7.68GB内存直接减半到3.65GB;联发科表示其与小红书合作的端侧SDXL大图生成,有2倍的速度提升,比云端方案还快。而和虹软合作的AI学习,可以本地用其他图片修复拍糊的人像照。除了图生视频,AI的另外一个趋势是端侧运行。毕竟端侧训练可以保留记录,且没有隐私问题。联发科表示AI训练是在用户睡觉过程+接电条件下,用NPU进行的。(笼统理解:AI就是极度擅长找规律的高级复读机,它们用资料学习的过程叫“训练”,它们用训练生成的模型输出内容就叫“推理”)。最后,在联发科“AI先锋计划”的PPT里,除了老朋友vivo、OPPO、小米和传音,还出现了荣耀。不知道后面会不会看到天玑9400的荣耀旗舰?总结现在确实是联发科说的“后满帧时代”,无论是CPU还是GPU,中低频能效才是关键,能实际用到的性能才是你的。在手机能撑得住的6W功耗以下,能输出的性能才有实际价值。无论极限的冰箱跑分有多高,如果常温都降频就没意义了。发哥今年依然是不建议用风冷或散热背夹跑分,依然是把最强跑分的名头留给ODM厂商:天玑9400工程机284万的安兔兔分数,依然明显低于量产机297万分的常温跑分,以及303万分的冰箱跑分。天玑9400、骁龙8 Gen 4这一代的性能提升幅度都非常可观,但它们的中低频功耗,现在还是个未解之谜。总之,今年不是超神,就是超鬼,搞得想上车和想下车的等等党都进退两难。半导体有个“不可能三角”——芯片无法同时满足“面积(成本)-性能-能效”3个要求。而发哥今年的答案,是用钞能力保性能和能效:堆上291亿晶体管,让大规模更大的X925超大核和GPU跑在更甜点的频率。上一年的天玑9300,凭借全大核的CPU设计,换来比骁龙8 Gen 3更高的能效。而换上X925的天玑9400,宣称GPU 峰值性能比前代提升41%,功耗降低44%,而实际游戏中让X925做绝对主力的操作,也让我们对其能效充满了期待。就等10月14日发布的vivo X200系列来给大家揭开谜底了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“号”用户上传并发布,本平台仅提供信息存储服务。