| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

MIT天才剛畢業就被前OpenAI CTO搶走 年薪$50萬…


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



一篇博士論文,破解LLM三大難題

比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。




不得不承認,如今大模型已經無所不能,但它們依然太貴了。

顯存爆炸、推理太慢、長上下文直接OOM(內存溢出),這是幾乎所有LLM工程團隊每天都在面對的現實。

Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個罕見的、從工程到理論、從算法到架構的完整答案。

論文中, 他們提出了SmoothQuant,解決了一個長期困擾工業界的問題——激活值異常(activation outliers)。

SmoothQuant通過一個巧妙的數學等價變換,把量化難點從「激活」轉移到「權重」。

結果,它實現了首個在十億級模型上W8A8無損量化,無需重新訓練,顯存更小、推理更快。

針對超長序列的處理,作者在StreamingLLM中發現了「注意力匯點」(attention sink)現象——

即使沒有任何語義,初始token會被後續token持續關注。這些token的作用不是「理解」,而是數值穩定。


結果,實現了常數內存的流式推理,模型上下文長度從數千token擴展到百萬級。

更進一步,他們又把這一思想推廣到多模態,StreamingVLM可以在保持時間一致性的同時處理長達數小時的視頻內容。

對於超長上下文場景,團隊又提出一個互補方案,分別針對不同的性能瓶頸。

KVCache太大,采用DuoAttention


注意力頭本身就有分工:少數負責「全局檢索」,多數只看「最近上下文」。

DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。

預填充(Prefill)太慢,采用XAttention

利用反對角線評分機制,僅識別、計算必要的注意力塊,從而實現顯著的加速效果。

論文的最後,並沒有止步於「優化現有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:

理論上,block越小越好。

但現實是,GPU不答應,於是有了FlashMoBA,一種定制化的CUDA內核,使小塊架構在實踐中可行,並實現了最高可達9倍的速度提升。

這篇論文的價值在於,構建了一整套高效大模型的完整框架,既回應了當下的現實挑戰,也為下一代計算高效、普惠可及的AGI奠定了基礎。
點個贊吧!您的鼓勵讓我們進步     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0195 秒 and 5 DB Queries in 0.0018 秒