| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

MIT天才剛畢業就被前OpenAI CTO搶走 年薪$50萬…


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
本文轉載自:新智元


MIT天才博士一畢業,火速加盟OpenAI前CTO初創!

最近,肖光烜(Guangxuan Xiao)在社交媒體官宣,剛剛完成了MIT博士學位。


下一步,他將加入Thinking Machines,專注於大模型預訓練的工作。



評論區下方,英偉達科學家、xAI研究員、UCSD等一眾大佬,為他本人送上了祝賀。





清華雙學位學霸,MIT博士開掛人生

打開他的個人主頁,多元而充實的經歷便映入眼簾。

肖光烜本科畢業於清華大學,拿到了雙學位,主修的是計算機科學,金融學是第二學位。



在此期間,他獲得了清華大學綜合優秀獎學金(2019)、全國大學生數學建模競賽(CUMCM)一等獎(2020)、國家獎學金(2020)、清華大學「未來學者」獎學金(2021)等多項獎項。



他曾於2020–2021年作為訪問生(Visiting Student),前往斯坦福大學計算機系開展科研工作。

2022年,肖光烜加入MIT攻讀博士學位,導師為韓松(Song Han)教授。

個人研究方向聚焦於:深度學習的高效算法與系統,尤其是大規模基礎模型(Foundation Model)。



他於2022年9月至2026年1月,在MIT EECS擔任全職研究助理(Research Assistant)。

讀博期間,肖光烜曾多次進入全球頂級科技大廠從事前沿研究實習,具備了豐富的一線工業研發的經驗。



論文地址:https://arxiv.org/pdf/2309.17453

2024年2-5月期間,他作為英偉達實習生,研究方向是為長上下文大語言模型推理加速。

他和團隊提出了DuoAttention,結合檢索與流式注意力頭,實現高效推理。



論文地址:https://research.nvidia.com/labs/eai/publication/duoattention/

隨後,他又參與了多項核心研究項目,其中包括:

XAttention:基於反對角評分的塊稀疏注意力機制

StreamingVLM:面向無限視頻流的實時理解模型

FlashMoBA:混合塊注意力(Mixture of Block Attention)的高效優化

值得一提的是,肖光烜在研究之外,還有豐富的興趣愛好,比如足球、乒乓球、圍棋、鋼琴

他曾擔任所在院系足球隊的隊長兼先鋒,貝多芬的作品是個人最愛。







一篇博士論文,破解LLM三大難題

比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。




不得不承認,如今大模型已經無所不能,但它們依然太貴了。

顯存爆炸、推理太慢、長上下文直接OOM(內存溢出),這是幾乎所有LLM工程團隊每天都在面對的現實。

Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個罕見的、從工程到理論、從算法到架構的完整答案。

論文中, 他們提出了SmoothQuant,解決了一個長期困擾工業界的問題——激活值異常(activation outliers)。

SmoothQuant通過一個巧妙的數學等價變換,把量化難點從「激活」轉移到「權重」。

結果,它實現了首個在十億級模型上W8A8無損量化,無需重新訓練,顯存更小、推理更快。

針對超長序列的處理,作者在StreamingLLM中發現了「注意力匯點」(attention sink)現象——

即使沒有任何語義,初始token會被後續token持續關注。這些token的作用不是「理解」,而是數值穩定。

結果,實現了常數內存的流式推理,模型上下文長度從數千token擴展到百萬級。

更進一步,他們又把這一思想推廣到多模態,StreamingVLM可以在保持時間一致性的同時處理長達數小時的視頻內容。

對於超長上下文場景,團隊又提出一個互補方案,分別針對不同的性能瓶頸。

KVCache太大,采用DuoAttention


注意力頭本身就有分工:少數負責「全局檢索」,多數只看「最近上下文」。

DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。

預填充(Prefill)太慢,采用XAttention

利用反對角線評分機制,僅識別、計算必要的注意力塊,從而實現顯著的加速效果。

論文的最後,並沒有止步於「優化現有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:

理論上,block越小越好。

但現實是,GPU不答應,於是有了FlashMoBA,一種定制化的CUDA內核,使小塊架構在實踐中可行,並實現了最高可達9倍的速度提升。

這篇論文的價值在於,構建了一整套高效大模型的完整框架,既回應了當下的現實挑戰,也為下一代計算高效、普惠可及的AGI奠定了基礎。





平均350萬年薪,碾壓OpenAI

最後來到一個大家比較感興趣的話題——薪資。

去年,硅谷人才爭奪戰激烈,BI一篇獨家挖到了Thinking Machines(TML)給員工們開出的薪資——

基礎年薪高達50萬美元(約350萬元)。



據BI獲取的招聘數據,TML向兩名技術員工支付了45萬美元的基礎年薪,另一名員工的年薪則高達50萬美元。

第四名員工被列為「聯合創始人/機器學習專家」,其年薪同樣為45萬美元。

這些薪酬數據,來自2025年第一季度,早於Murati以100億美元的估值,成功完成20億美元的種子輪融資。

總體來看,TML為這四名技術員工提供的平均年薪達到462,500美元。

相較之下,TML明顯高於業內更為成熟LLM公司——

OpenAI在相關申報文件中列出的29名技術員工,平均年薪為292,115美元。

其中最高薪資為53萬美元,最低為20萬美元。

Anthropic向14名技術員工支付的平均年薪為387,500美元,薪資區間在30萬至69萬美元之間。

雖然比起Meta瘋狂的超1億美元薪酬還差得遠,但這一水平也在硅谷數一數二。

果然,21世紀最貴的還是人才。
點個贊吧!您的鼓勵讓我們進步     好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0200 秒 and 5 DB Queries in 0.0012 秒