
當(dāng)大模子試圖處理一段包含 100 萬(wàn) token 的超長(zhǎng)文檔時(shí),會(huì)發(fā)生什么?謎底是:內(nèi)存爆炸,瞎想崩潰。
不管是分析通盤代碼庫(kù)、處理萬(wàn)字研報(bào),也曾進(jìn)行超長(zhǎng)多輪對(duì)話,LLM 的"長(zhǎng)文本能力"王人是其走向更高階智能的環(huán)節(jié)。有關(guān)詞,Transformer 架構(gòu)的固有瓶頸──與高下文長(zhǎng)度成平日相關(guān)的瞎想復(fù)雜度和線性增長(zhǎng)的 KV Cache,使其在靠近超長(zhǎng)序列時(shí)力不從心,造成了一個(gè)既"算不動(dòng)"也"存不下"的"吞金巨獸"。
為了"續(xù)命",現(xiàn)存決議要么遴薦高下文壓縮,但這本色上是有損的,信息丟失不成幸免;要么襲取輪回機(jī)制,但這類模子又時(shí)時(shí)"忘記",難以保留歸并全文的環(huán)節(jié)信息,也記不清剛剛發(fā)生的細(xì)節(jié)。

來(lái)自阿里巴巴往日生涯本質(zhì)室的商酌團(tuán)隊(duì)瞻念察出問(wèn)題的中樞在于:模子難題一套能同期兼顧"遠(yuǎn)距離中樞馳念"和"近距離高清細(xì)節(jié)"的協(xié)同系統(tǒng)。基于此,他們推出了一種全新的即插即用架構(gòu)──協(xié)同馳念 Transformer(CoMeT),讓 LLM 領(lǐng)有了高效處理無(wú)盡長(zhǎng)高下文的能力。
CoMeT令東談主偶然的施展是:一個(gè)僅在 32k 高下文上微調(diào)的模子,竟能在 100 萬(wàn) token 的文本中,精確無(wú)誤地找到任何位置的"密碼",的確收尾了"大海撈針"!況且,通盤經(jīng)過(guò)的推理時(shí)辰和內(nèi)存占用王人得到了權(quán)臣的優(yōu)化。

△? CoMeT 在 32k 高下文磨練后,可在 1M token 中精確大海撈針,且推理速率和內(nèi)存占用遠(yuǎn)優(yōu)于全耀觀點(diǎn)模子魚與熊掌兼得:"協(xié)同馳念"架構(gòu)
{jz:field.toptypename/}CoMeT 的奧秘之處在于,它莫得試圖用單一機(jī)制處分悉數(shù)問(wèn)題,而是瞎想了一套雙軌并行的協(xié)同馳念系統(tǒng),讓模子既能"謹(jǐn)記牢",又能"看得清"。
1. 全局馳念(Global Memory):一個(gè)帶"門禁"的馳念保障箱
為了處分恒久漸忘問(wèn)題,CoMeT 引入了一個(gè)固定大小的全局馳念。它的中樞是一個(gè)小巧的門控更新機(jī)制(Gated Update)。當(dāng)模子處理新的文本塊時(shí),這個(gè)"門禁"會(huì)智能判斷新信息的重要性:要是信息至關(guān)重要,門控大開(kāi),將其寫入恒久馳念;要是信息不那么重要,門控保抓關(guān)閉,保護(hù)已有的環(huán)節(jié)馳念不被沖刷。這套機(jī)制就像一個(gè)馳念的"保障箱",金沙電玩城app確保那些歸并全文的中樞痕跡梗概被恒久、結(jié)識(shí)地保存下來(lái)。
2. 臨時(shí)馳念(Temporary Memory):一條高保的確"事件流"
為了保留近期細(xì)節(jié),CoMeT 引入了由先進(jìn)先出(FIFO)部隊(duì)約束的臨時(shí)馳念。它像一條流動(dòng)的傳送帶,抓續(xù)將最近處理過(guò)的文本塊信息進(jìn)行高保真壓縮并暫存。這保證了模子在作念決策時(shí),能隨時(shí)拜謁到最周邊、最詳備的高下文信息,幸免因信息丟失而導(dǎo)致的"斷片"。這種瞎想優(yōu)雅地均衡了恒久馳念的結(jié)識(shí)性與近期馳念的鮮嫩性。

△? CoMeT 架構(gòu)概覽:全局馳念與臨時(shí)馳念協(xié)同職責(zé)
通過(guò)全局和臨時(shí)馳念的協(xié)同,CoMeT 在處理每個(gè)文本塊時(shí),王人能同期"轉(zhuǎn)頭"恒久中樞信息和"疑望"近期詳備內(nèi)容,最終收尾了恒定的內(nèi)存占用和線性的時(shí)辰復(fù)雜度,從根底上防止了 Transformer 的性能瓶頸。
推論出真知:SOTA 性能與驚東談主效果
CoMeT 的堅(jiān)決不單是停留在表面上,本質(zhì)抵制更是令東談主印象深遠(yuǎn)。
1. ? 泰斗基準(zhǔn)全面突出,登頂 SOTA
在公認(rèn)的長(zhǎng)文本評(píng)測(cè)基準(zhǔn) SCROLLS 上,CoMeT 在同等內(nèi)存預(yù)算下,平均性能突出了悉數(shù)主流的高效長(zhǎng)文本智力(如高下文壓縮、其他輪回機(jī)制模子),并在需要全局流暢的綱目任務(wù)上,達(dá)到了與全耀觀點(diǎn)基線(Full Attention)相忘形的性能。

△? CoMeT 在 SCROLLS 基準(zhǔn)上突出其他高效智力 2. ? 效果翻新:21 倍加快,10 倍顯存簡(jiǎn)約
相較于圭臬的 Full Attention 模子,CoMeT 在處理 1M 長(zhǎng)度的文本時(shí),收尾了21 倍的推理加快和10 倍的峰值顯存簡(jiǎn)約。這意味著,本來(lái)需要頂級(jí)算力才能湊合啟動(dòng)的任務(wù),當(dāng)今在鄙俚硬件上也能高效完成,為長(zhǎng)文本哄騙的落地掃清了頑固。

△? CoMeT 在推理時(shí)辰和內(nèi)存占用上展現(xiàn)出廣博上風(fēng) 3. ? 環(huán)節(jié)瞻念察:1+1>2,不同馳念各司其職
商酌團(tuán)隊(duì)的消融本質(zhì)揭示了一個(gè)深遠(yuǎn)的瞻念察:全局馳念和臨時(shí)馳念并非神圣重疊,而是各司其職,統(tǒng)籌兼顧。全局馳念是模子"看得遠(yuǎn)"的環(huán)節(jié):只消依賴帶門控的全局馳念,模子才能在遠(yuǎn)超磨練長(zhǎng)度的文本中保抓馳念,收尾堅(jiān)決的長(zhǎng)度外推能力。臨時(shí)馳念是模子"看得清"的保障:高保的確近期信息流是模子在處理復(fù)雜任務(wù)時(shí),取得優(yōu)異性能的基礎(chǔ)。恰是這種精妙的協(xié)同瞎想,才栽培了 CoMeT 的不凡性能。

△? CoMeT 的臨時(shí)馳念有助于普及磨練長(zhǎng)度內(nèi)的性能。

△? CoMeT 的全局馳念有助于長(zhǎng)度外推總結(jié)
CoMeT 的職責(zé)為大模子長(zhǎng)文本處理范圍帶來(lái)了里程碑式的突破。
它通過(guò)創(chuàng)新的"協(xié)同馳念"架構(gòu),優(yōu)雅地處分了困擾業(yè)界已久的"馳念窘境",在恒定內(nèi)存和線性時(shí)辰的約束下,收尾了 SOTA 級(jí)別的性能和驚東談主的長(zhǎng)度外推能力。這項(xiàng)商酌講明,為 LLM 瞎想更相宜分解科學(xué)的馳念機(jī)制,是通往更堅(jiān)決、更實(shí)用通用東談主工智能的環(huán)節(jié)一步。
論文標(biāo)題:
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
論文鄰接:
https://arxiv.org/abs/2602.01766
名堂代碼:
https://anonymous.4open.science/r/comet-B00B/
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「謹(jǐn)防心」
寬容在評(píng)述區(qū)留住你的思法!
— ?完? —
咱們正在招聘又名眼疾手快、關(guān)切 AI 的學(xué)術(shù)裁剪實(shí)習(xí)生? ? ?
感敬愛(ài)的小伙伴寬容關(guān)切 ? ? ?了解確定

? ? 點(diǎn)亮星標(biāo) ? ?
科技前沿進(jìn)展逐日見(jiàn)

備案號(hào):