亚马逊技术大会强势来袭:自研芯片性能暴增4.4倍

2025-12-02 | 来源: 腾讯科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

AWS表示，Trainium 3有望将AI模型全生命周期（训练+推理）成本整体降低50%，在当前算力市场极具竞争力。在英伟达GPU长期占据绝对主导、价格居高不下的背景下，Trainium 3为企业提供了真正可落地的性价比替代方案。

架构层面，Trainium 3单芯片提供2.52 PFLOPs（FP8）算力，支持FP32、BF16、MXFP8及新增MXFP4等多种精度格式。为解决大语言模型最突出的内存瓶颈，该芯片将HBM3e内存容量提升至144GB、带宽提升至4.9TB/s，同时强化结构化稀疏性和微缩放硬件支持，进一步优化大语言模型训练与推理效率。

得益于全新一代Neuron Fabric互联技术，单台Trn3 UltraServer可集成144张芯片，总算力达362 FP8 PFLOPs；通过EC2 UltraClusters 3.0架构，可扩展至最高100万张芯片的超级集群，规模较上一代提升10倍，已为Anthropic的“Project Rainier”项目提供核心算力支撑（目前已部署50万张Trainium 2，计划年底前扩容至100万张）。Karakuri、Metagenomi、NetoAI等客户反馈，使用 Trainium 3后训练与推理成本最高降低 50%，充分验证了其在真实生产环境中的成本优势。

AWS提前披露Trainium 4关键特性

更具深远影响的是，AWS提前披露了Trainium 4的关键特性：将原生支持英伟达NVLink Fusion高速互联技术，彻底打破云厂商自研芯片长期以来的“封闭生态”惯例，展现出“共存并竞争”的务实策略。目前全球约80%的AI应用基于英伟达CUDA生态开发，迁移成本极高。兼容NVLink Fusion后，企业可在同一集群内灵活混搭Trainium与英伟达GPU，按需分配任务（如训练用GPU、推理用Trainium），大幅降低迁移门槛。

亚马逊高层建议:做这两件事可在AI浪潮中胜出

亚马逊力拼生鲜杂货电商在美试推"半小时"配送

瑞典政府点名亚马逊:不下架这些货品就修法封杀

Trainium 4预计FP8算力提升3倍、FP4算力提升6倍，内存带宽与容量分别提升4倍和2倍，并将与Graviton CPU、EFA网络及英伟达MGX机架深度融合。这一“以开放换市场”的举措，被业界视为 Trainium系列真正实现规模化普及的转折点。

02.基础设施延伸：AI工厂落地主权云，混合部署一举破解全球合规难题

随着AI深入政府、金融、医疗等高敏感行业，数据主权与合规性已成为全球性瓶颈。欧盟GDPR、美国国防与医疗安全审查等政策使得纯公有云难以满足要求。AWS此次推出AI工厂服务，将全栈AI能力从公有云完整延伸至客户本地或指定区域，快速构建功能等同于私有AWS区域的专属环境。

通过AI工厂，客户可实现数据本地化处理与存储，100%满足数据主权与行业合规要求，AWS负责基础设施全生命周期的部署、运维与升级，彻底解决传统私有云“部署难、维护贵”的问题。结合Trainium芯片、英伟达加速卡、高性能网络以及Bedrock、SageMaker等全套服务，AI工厂将私有云部署周期从数年缩短至数月。AWS同时宣布未来几年投资500亿美元建设美国政府专用高性能计算与AI数据中心，投入规模远超同行。