谷歌: 谷歌更具"心智"GPT-4准確率大增

2023-10-16 | 來源: 量子位 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

谷歌聯合多所高校的一項最新研究，讓大模型開始擁有了人類的“心智”。

在新的提示策略下，大模型不僅能推測出人類所面臨的問題，還學會了用推測的結論調整自己的行為。

有了這一成果，GPT-4的“心智”水平已經提高到了人類的71%。

具體來說，研究人員發現，現在的大模型，已經具備了在對話中推測人類“在想啥”的能力。但如果你要它根據這種推理給出行動建議，那可就難倒大模型了。

舉個例子，小明放學回家後把書包扔到沙發上就跑出去玩了，媽媽看到之後幫小明把包放到了臥室。

如果大模型能夠像人類一樣，在小明回來之後告訴他包在臥室，就說明大模型具備了“心智理論”。

研究人員把這種做法稱為Thinking for Doing(T4D)，並設計了相應的任務。

為了提高模型在T4D任務上的表現，團隊進一步提出了Foresee and Reflect(FaR)提示策略，結果讓大模型在“心智”上取得了重大突破。

論文的標題也包含了“How far……” ，一語雙關，既體現了FaR框架對大模型的幫助，又暗含了大模型離具有人類“心智”的距離。

那麼，有了FaR的大模型，究竟擁有什麼樣的“心智”呢？

大模型離具有“心智”更進一步

MIT學霸掏空AI初創谷歌24億收購黑幕曝光

OpenAI搶輸了 Google狠砸24 億

賠償超20億,谷歌被判使用安卓蜂窩數據收集信息

我們還是從例子說起，如下圖所示，一共有綠色和藍色兩個櫥櫃，Tom在綠色櫥櫃中放了一塊巧克力。

Tom離開後，Ella把這塊巧克力挪到了藍色的櫃子裡。

那麼等Tom再回來，會從哪個櫃子中找巧克力呢？（當然是綠色的）

這就是一個“推理”任務，是心理學上著名的“薩利-安妮”（用於測試“心智”）實驗的變體。

而T4D任務是這樣的：

如果你就在旁邊（並且知道發生了什麼），會怎麼做？

人類會選擇告訴Tom巧克力被挪走了，但（未經調教的）大模型就不一定會這樣做了。

為了更宏觀地測試大模型在調整前後的表現，研究團隊選擇了ToMi數據集並改編成了T4D-Tom數據集。

其中的ToMi是一個由大量“薩利-安妮”類情景組成的測試數據集，用於測試大模型的“心智推理”能力。