當AI開始造AI,Anthropic呼吁緊急刹車

2026-06-05 | 來源: MIT科技評論 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

今天凌晨，Anthropic 在官方博客發布了一篇長文，標題名為《When AI Builds Itself》（當 AI 開始建造自己）。目前瀏覽量已接近 700 萬。

文章由公司聯合創始人 Jack Clark 與內部研究機構 The Anthropic Institute 負責人 Marina Favaro 共同署名。核心觀點可以用一句話概括：AI 正加速參與到自身的開發進程當中。如果這個趨勢走到極端，AI 將能夠在沒有人類介入的情況下，自主設計、測試並訓練出更強大的下一代 AI。基於這一判斷，Anthropic 呼吁全球主要 AI 實驗室考慮暫停 AI 開發，或者至少建立一套可以互相核查的減速機制。

這番表態之所以格外引人關注，不僅因為內容，也因為說這番話的是 Anthropic。

就在文章發布前幾天，Anthropic 剛剛完成最新一輪融資，估值達到 9,650 億美元，正式超過 OpenAI。同一周，公司向美國證券交易委員會秘密遞交了 S-1 注冊聲明草案，啟動 IPO 籌備流程。Anthropic 的年化營收正快速攀升，從 2025 年底的約 90 億美元增長到當前的接近 470 億美元，預計本月底將突破 500 億美元。在公司即將沖擊公開市場、商業勢能最強的時候，卻發出“請考慮減速”的信號，很難讓人不疑惑其動機。

不過在討論動機之前，不能否認的是，這篇文章確實拿出了實打實的內部數據。而這些數據之所以重要，是因為它們指向了一個越來越明確的趨勢：AI 研發自動化。

AI 研發自動化正在成為行業共識

Anthropic 的文章主要圍繞一個概念展開——“遞歸自我改進”（Recursive Self-Improvement，簡稱 RSI），指的是 AI 系統自主完成設計、測試、訓練下一代 AI 的完整流程，人類不再扮演關鍵角色。這個概念並不新鮮，但過去一年裡，它正從理論走向現實。幾乎所有頭部 AI 公司都在往這個方向投入資源。

以 OpenAI 為例，這家公司已經將“AI 參與 AI 研發”列入重點關注事項。其安全團隊專門設立了“Recursive Self-Improvement Preparedness（遞歸自我改進准備）”相關崗位，用於研究當 AI 能夠顯著加速自身研發時可能帶來的能力躍遷與風險。OpenAI 此前公開透露，其內部目標是在 2026 年前後打造達到“研究實習生”水平的 AI 系統，並在 2028 年實現能夠獨立承擔研究任務的自動化 AI 研究員。

Google DeepMind 走的是一條更偏算法發現的路線。它的 AlphaEvolve 項目讓 AI 自主提出算法方案、運行實驗、篩選結果，再將優秀方案反饋回系統繼續迭代。這套系統已經被用於數據中心調度優化和 AI 訓練效率提升等實際場景，據報道還找到了 56 年來首個對 Strassen 矩陣乘法算法的改進。從某種意義上說，這也是 DeepMind 對“奇點”判斷的重要依據之一：當 AI 開始參與甚至推動新的科學發現和算法創新時，技術進步將進入加速循環。

頭部公司之外，越來越多創業公司也開始圍繞“自動化 AI 研發”布局。例如近期獲得大額融資的 Recursive Superintelligence，以及將“構建擅長 AI 研發的系統”寫入公司使命的 Mirendil，都是這一趨勢的代表。雖然技術路徑各不相同，但它們瞄准的是同一個目標：讓 AI 從研發工具變成研發過程的參與者，並最終承擔越來越多的研發工作。

正是在這個背景下，Anthropic 發布了這篇長文。它的立場是：RSI 還沒有發生，也不一定會發生，但它到來的速度“可能比大多數機構准備好的時間更快”。

AI 已經在多大程度上接管了 AI 研發？

在文章中，它用三組此前未公開的內部數據支撐了這個判斷。

第一組數據是關於 AI 的代碼能力。截至 2026 年 5 月，Anthropic 合並到生產代碼庫中的代碼有超過 80% 由 Claude 編寫。2025 年 2 月 Claude Code 上線之前，這個比例還是個位數。與之對應，2026 年第二季度工程師人均每天合並的代碼量達到 2024 年的 8 倍。文章專門補充說明：代碼行數衡量的是數量而非質量，8 倍很可能高估了真實的生產力提升。但趨勢是明晰的：工程師的角色正在從“寫代碼”轉向“指引方向和審查結果”。

而且 Claude 寫的代碼質量還在快速提升。Anthropic 內部跟蹤了工程師在 Claude Code 工作過程中需要糾正或中途接管的頻率，這個頻率在過去一年持續下降。到 2026 年 5 月，Claude 處理最高難度開放式任務的成功率達到 76%，六個月內上升了 50 個百分點。

（來源：Anthropic）

第二組數據涉及了 AI 的科研能力。Anthropic 有一個內部基准測試：給 Claude 一段訓練小型 AI 模型的 CPU 代碼，要求它在不改變正確性的前提下盡可能提速。2025 年 5 月，Claude Opus4 的平均加速比約為 3 倍；到 2026 年 4 月，Claude Mythos Preview 達到了約 52 倍。

作為參照，一名熟練的人類研究員通常需要四到八小時才能達到約 4 倍加速。Anthropic 提醒，絕對倍數受起始代碼優化空間的影響，不應直接解讀為真實世界的訓練加速，但在同一測試條件下，一年內從 3 倍到 52 倍的變化，這個結果值得重視。

第三組數據來自工程實踐。2026 年 4 月，Claude 自主修復了超過 800 個 API 錯誤，將該類錯誤的發生率降低了約 1,000 倍。負責的工程師估計，同樣的工作讓人來做大概需要四年。因為修復別人寫的 Bug 實在是一個漫長而痛苦的過程，人類也很難同時記下那麼多不熟悉的代碼上下文，可這類任務恰恰是 AI 的優勢所在。

登頂全球最值錢AI!Anthropic估值升至9650億美元

不藏了!Anthropic三張底牌,一口氣全曝光

Anthropic估值$9650億超越OpenAI成硅谷最貴AI公司

文章還公布了一個頗有意思的實驗。2026 年 4 月，研究人員將多個 Claude 智能體交給一個 AI 安全領域的開放問題：弱模型能否可靠地監督強模型？智能體自行提出假設、設計實驗、運行測試，在並行智能體之間共享發現並迭代。兩位人類研究員花了一周時間，彌補了該任務性能上下限之間約 23% 的差距；Claude 智能體累計運行 800 小時後，彌補了 97% 的差距。

更值得注意的是，AI 提升的不只是執行能力，連“下一步該做什麼”的判斷能力也在同步增強。Anthropic 內部的一項回溯評測顯示，當研究人員在項目推進過程中走入錯誤方向時，Claude 越來越能夠提出更優的替代方案。最新模型 Claude Mythos Preview 給出的研究路徑，有 64% 的概率被評審認為優於人類研究者當時的實際選擇。這意味著 AI 開始不僅能幫助研究者完成工作，也正在越來越多地參與研究方向本身的選擇。

（來源：Anthropic）

這些數據拼在一起，指向的是同一個大的趨勢：AI 正在接管越來越多原本由研究人員親自完成的工作。寫代碼、調試系統、運行實驗、分析結果，這些過去占據大量時間的研發環節，正越來越多地由 AI 完成。人類的角色則逐漸從執行者轉向監督者和決策者。

正因為如此，此前 Jack Clark 對遞歸自我改進的時間表判斷相當激進。他在 2026 年 5 月的 newsletter 中估計，到 2028 年底出現完全自動化 AI 研發的概率約為 60%，到 2027 年底約為 30%。

如果 Clark 的判斷成立，那麼問題很快就會從“RSI 是否可能出現”變成“當它真的出現時怎麼辦”。因此，Anthropic 這篇文章真正想討論的，其實不只是技術，還有技術發展過快之後的治理問題。

在文章中，Anthropic 提出了三種可能的未來：第一種是 AI 能力增長逐漸放緩，但現有能力已經足以廣泛擴散；第二種是 AI 繼續帶來復合型效率提升，人類仍負責設定研究方向，但越來越多執行環節被自動化；第三種，也是最激進的一種，是 AI 系統真正具備完整的遞歸自我改進能力，開始自主構建下一代模型。Anthropic 最擔心的是後兩種情形，因為它們留給社會、政府和安全研究的准備時間都非常有限。

在文章最後，Anthropic 將問題的答案落到“減速”與“核查”上。它認為，如果能有效放慢前沿 AI 開發，讓社會制度和對齊研究跟上技術進展，這很可能是一件好事。但單方面暫停意義有限，因為它只會改變誰是領先者，並不會讓整個行業獲得真正的討論時間。真正有用的暫停，必須是多國、多家前沿實驗室在相同條件下共同減速，並且能夠彼此驗證對方確實停了下來。

呼吁暫停的人，未必能停下

但回到開頭的問題，作為一家勢頭正猛且即將上市的公司，Anthropic 呼吁停止 AI 開發的動機真的如此純粹嗎？

公開討論前沿 AI 的潛在風險，確實是 Anthropic 的一貫作風。從成立至今，這家公司確實已經多次發布關於模型能力、安全治理和監管框架的研究與政策文件。只不過這一次，它討論的對象從 AGI 進一步推進到了 RSI。

聯創 Clark 在接受 Axios 采訪時解釋說：“我們一直發現，最好的做法是讓大家理解這個概念，讓人們了解即將發生什麼。”他說文章背後的核心判斷是，“與一些流行觀點相反，AI 進步在未來幾年將會加速，保持不變或放緩的可能性不大。”他還表示，Anthropic 希望立法者在真正頻繁聽到“遞歸自我改進”之前，就提前了解這個話題。

但這個解釋顯然無法消除所有質疑。

風險投資人 David Sacks，他同時也是川普的重要科技顧問。近期就在播客中公開批評 Anthropic。他認為，所謂全球核查機制聽上去是在防范風險，但實際效果很可能是抬高行業門檻。按照他的邏輯，能夠滿足審查、合規和安全要求的，往往是 Anthropic、OpenAI、Google 等擁有雄厚資金和算力的大公司；而開源模型天然分散在全球各地運行，很難被統一監管。最終的結果，可能不是讓 AI 更安全，而是讓少數頭部公司獲得更大的優勢。

此前，類似的質疑也出現在產品層面。例如在推出網絡安全模型 Mythos 時，Anthropic 對模型訪問權限進行了嚴格限制，理由是其能力過於強大，可能被用於攻擊關鍵基礎設施。支持者認為這是負責任的安全措施，但批評者則質疑，公司是否在有意強化“危險但先進”的形象，以突出自身技術領先地位。

沃頓商學院教授 Ethan Mollick 對這些矛盾的態度給出了自己的解釋。他認為，Anthropic 內部實際上同時存在多種力量。一部分人像其他科技公司一樣負責商業化、市場和法律事務；一部分研究人員專注於打造更強大的下一代模型；還有一部分人則真正關心 AI 長期可能帶來的社會影響與風險。在 Mollick 看來，這些群體並不總是立場一致。Anthropic 之所以經常呈現出一邊加速推進模型能力、一邊公開討論潛在風險的矛盾形象，很大程度上正是這種內部張力的結果。

但還有一個更現實的問題：即便所有人都相信風險存在，真的有人能停下來嗎？當所有參與者都處於激烈競爭的環境裡，“誰在別人暫停時繼續跑，誰就可能繼承領先地位”。

文章最後提出的方案是，Anthropic 將在未來數月組織政策制定者、研究人員以及其他 AI 公司參與討論，探索構建一套可核查的暫停機制。按照設想，多個國家的多個前沿實驗室需要在相同條件下同時停止開發，並且每一方都能驗證其他參與者確實停了下來。如果這樣的機制存在，Anthropic 表示自己“預計會減速或暫停”。

“如果”二字，看似輕松，卻承載了巨大的重量。歷史上，無論是核軍控還是其他國際技術治理體系，都花費了數十年時間才建立起核查機制、執行能力和跨國信任。而 AI 的擴散速度遠快於這些先例，“如果”真正要讓整個行業一起踩下刹車，可能比實現 RSI 還要困難。