谷歌: 谷歌拿出压箱底技术,中国开源模型即将迎战?

2026-04-03 | 来源: 凤凰网科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

Gemma 4拿出了谷歌压箱底的技术。

4月2日凌晨，谷歌DeepMind CEO Demis Hassabis在社交平台X上发了四颗钻石的emoji，几个小时后，谜底揭晓，谷歌正式发布了旗下最新开源大模型家族Gemma 4，这是谷歌入局开源AI赛道两年多来，拿出的最有诚意、也最具杀伤力的作品。

Gemma 4不是单一模型，而是一套覆盖手机到工作站全场景的完整产品矩阵，四个版本各有明确的定位，彻底打破了“性能强就必须体积大、门槛高”的行业惯性。

最小的E2B和E4B两款端侧模型，名字里的“E”代表“有效参数”，通过谷歌自研的每层嵌入（PLE）技术，把模型“干活的核心算力”和“辅助的记忆存储”模块做了拆分，让它在运行时只调用最少的资源。

其中E2B总参数51亿，运行时有效参数仅23亿，极端情况下内存占用能压到1.5GB以下，普通安卓手机就能完全离线运行，不用联网、不用上传数据，还原生支持图片、语音输入，相当于把一个具备基础推理能力的AI助手，完整塞进了用户的口袋里。

E4B则在性能和功耗之间做了平衡，45亿有效参数就能跑出接近上一代Gemma 3 27B旗舰模型的效果，是端侧设备的主力版本。

币圈"量子末日"恐加速到来?谷歌预警逃生时间表

谷歌再发"技术澄清",砸崩全球存储股的论文陷争议

砸崩全球存储股后谷歌再发"技术澄清"

中间的 26B MoE 版本则精准踩中了开发者最痛的 “速度与性能平衡” 需求，它采用混合专家架构，通俗来说就是模型内置了 128 个不同方向的 “专业部门”，每次处理问题时，仅激活最对口的 8 个部门加 1 个共享协调部门。252 亿总参数里，单次推理仅激活 38 亿参数，最终实现了单 token 生成速度对标 4B 级模型，效果却接近 31B 旗舰模型的表现。

而作为旗舰的31B Dense版本，更是直接刷新了开源模型的参数效率上限，310亿全激活参数，未量化的原版权重一张80GB H100就能装下，量化后普通消费级显卡也能流畅运行，却在业界公认的Arena AI开源模型排行榜上冲到了全球第三，用不到十分之一的参数量，就能和参数量400亿级别的巨无霸模型掰手腕。

和上一代产品相比，它的提升是代际级别的：AIME 2026数学竞赛测试准确率从20.8%暴涨到89.2%，翻了四倍多；LiveCodeBench代码测试得分从29.1%涨到80%，同时还补上了之前的短板，长上下文窗口拉到256K，能一次性处理几十万字的完整文档，原生支持140多种语言，多模态理解能力也实现了翻倍提升。

而最让全球开发者惊喜的，从来都不只是性能，而是谷歌终于放下了姿态，把Gemma 4的开源协议换成了行业最宽松、最受认可的Apache 2.0。在此之前，Gemma前三代产品用的都是谷歌自定义的开源协议，不仅有诸多商用限制，谷歌还能单方面修改规则，甚至有条款被解读为“用Gemma生成的数据训练新模型，新模型也要受该协议约束”，让很多开发者和企业不敢放心商用，怕埋下法律风险。