加州: 硅谷正流行"氛围办公":不敲键盘对着电脑叽叽咕咕

2026-05-24 | 来源: DeepTech深科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

这个春天开始，硅谷的办公室里，敲打键盘的哒哒声正在被嘀嘀咕咕的人声取代。

有风险投资人调侃，现在去硅谷的 AI 创业公司拜访，感觉像走进了一个高端呼叫中心，只不过所有人都在跟 AI 聊天：员工们戴着电竞耳机坐在工位上，对着麦克风发号施令。

这股风潮还有个名字，叫“voicepilled”——语音觉醒。

LinkedIn 联合创始人 Reid Hoffman 在 2025 年秋天的一篇帖子里首次宣称自己被“voicepill”了。他写道：“被voicepill 的那一刻，就是你意识到一旦认真用语音与技术交互，就能解锁一种全新的能力放大方式。”这个词借用了《黑客帝国》里红蓝药丸的隐喻，吞下这颗“语音药丸”，你就会看到一个不同的生产力世界。

语音输入本身倒不是什么新鲜事，苹果的 Siri 听写、Windows 语音识别、甚至更早的 Dragon NaturallySpeaking 已经存在了很多年。但过去这些工具的体验非常折磨人：识别率低，标点混乱，一句话说了三遍都不准，最后还不如自己打字。

真正的转折点是大规模 AI 语音模型的成熟。2022 年 OpenAI 发布了 Whisper，一个基于 Transformer 架构的开源语音识别模型，用 68 万小时的多语言音频数据训练而成。Whisper 的出现把语音转文字的准确率拉到了实用门槛之上。

而在此基础上，新一代听写工具例如 Wispr、Aqua Voice 等迈出了更关键的一步：它们不只是把你说的话逐字记录下来，还会用 LLM 对输出进行“润色”，自动删除“嗯”“啊”之类的填充词，修正语法，调整句式，甚至根据你正在使用的应用场景来适配语气和格式。

整个过程延迟通常在一到两秒之内。部分工具还支持“命令模式”，用户可以用语音指令来编辑已有文本，比如“把上一段改成更正式的语气”或者“删掉最后一句”。

这种工作方式之所以让人兴奋，有一个很直观的原因：人说话的速度大约是打字速度的三倍。

切蛋糕收费110美元? 洛杉矶高档餐厅账单引争议

美国多州掀起反加州潮有人靠卖贴纸赚翻了

加州橙县有毒化学品储罐泄漏 44000人已被疏散

对于英文使用者来说，普通人的打字速度在每分钟 40 到 80 个英文单词之间，而正常语速大约是每分钟 130 到 150 个单词（中文使用者的打字速度大概在每分钟 80~100 字左右，而语速大约是 200~250 字之间）。

对于那些工作内容主要是“把想法变成文字”的人，比如写邮件、写文档、写代码提示词，这意味着理论上可以把产出速度提升两到三倍。一些重度用户声称自己的文字产出确实翻了几番。

更有意思的是，语音听写正在和另一个热门趋势合流：vibe coding（氛围编程）。这个由 Andrej Karpathy 在 2025 年初提出的概念，指的是开发者不再逐行写代码，而是用自然语言描述需求，让 AI 编程工具（如 Claude Code、Codex）来生成代码。而当 vibe coding 遇上语音听写，开发者甚至不需要坐在电脑前打字。他们可以一边踱步一边口述需求，听写工具把语音转成文字 prompt，再由编程 AI 把 prompt 转成代码。Wispr 的创始人 Tanay Kothari 说，他们的员工现在就是在办公室里走来走去，对着电脑说话，不用再把思考的过程绑定在桌前。

据媒体报道，一些最狂热的用户甚至购买了可编程脚踏板，一种原本属于游戏外设的东西，踩一下就能激活语音交互功能；还有人在桌上架起鹅颈麦克风，就是体育解说员和牧师用的那种可弯曲话筒，离嘴更近说话更省力；Wispr 公司内部则流行把无线领夹麦别在衬衫上，员工们像是随时在录播客。这家公司甚至计划之后向客户销售品牌麦克风。

资本市场显然对这种新的“vibe working”方式十分欢迎。成立于 2021 年的 Wispr，最初的方向是做脑机接口可穿戴设备，后来转型做语音听写工具。据媒体报道，2025 年 11 月 Wispr 的估值约 7 亿美元。而到了 2026 年 5 月，Wispr 的目标估值已经飙升至 20 亿美元。一个听写应用估值 20 亿，足以说明了市场对“语音取代键盘”这件事的看好程度。

于是，竞争也开始变得激烈。同类公司 Aqua Voice 和 Willon 都拿到了 Y Combinator 的投资，初创公司 TalkTastic、Typeless、Superwhisper 各有拥趸。科技巨头也没闲着：在 2026 年 5 月的 Android Show 上，谷歌发布了 Rambler，一个内置于 Gboard 输入法、由 Gemini 驱动的听写功能，能把用户杂乱的口述自动整理成通顺文本。当平台级玩家入场，独立应用的生存空间会被如何挤压，仍有待观察。

此外，这股新的技术趋势面前，还存在一些现实的门槛。

首先是硬件层面的局限。目前主流的 AI 听写工具大多是 Mac 优先甚至 Mac 独占的。Wispr Flow 和 Superwhisper 支持 Mac，Aqua Voice 长期以来仅限 Mac 平台（近期才开始支持 Windows），TalkTastic 则是 iOS 和 Mac。而在企业环境中，Windows 仍然是绝对主流操作系统。医疗、法律、政府、金融行业尤其如此。