
当大模子试图处理一段包含 100 万 token 的超长文档时,会发生什么?谜底是:内存爆炸,计议崩溃。
不论是分析通盘代码库、处理万字研报,也曾进行超长多轮对话,LLM 的"长文本才智"皆是其走向更高阶智能的要津。但是,Transformer 架构的固有瓶颈──与凹凸文长度成时时干系的计议复杂度和线性增长的 KV Cache,使其在濒临超长序列时力不从心,酿成了一个既"算不动"也"存不下"的"吞金巨兽"。
为了"续命",现存决策要么聘任凹凸文压缩,但这骨子上是有损的,信息丢失弗成幸免;要么选择轮回机制,但这类模子又时常"忘记",难以保留退换全文的要津信息,也记不清刚刚发生的细节。

来自阿里巴巴改日生存本质室的参谋团队细察出问题的中枢在于:模子穷乏一套能同期兼顾"远距离中枢记挂"和"近距离高清细节"的协同系统。基于此,他们推出了一种全新的即插即用架构──协同记挂 Transformer(CoMeT),让 LLM 领有了高效处理无尽长凹凸文的才智。
CoMeT令东谈主偶而的说明是:一个仅在 32k 凹凸文上微调的模子,竟能在 100 万 token 的文本中,精确无误地找到任何位置的"密码",真确完了了"大海捞针"!何况,通盘历程的推理技艺和内存占用皆得到了权贵的优化。

△ CoMeT 在 32k 凹凸文进修后,可在 1M token 中精确大海捞针,且推理速率和内存占用远优于全看重力模子鱼与熊掌兼得:"协同记挂"架构
CoMeT 的神秘之处在于,它莫得试图用单一机制惩处统共问题,而是蓄意了一套双轨并行的协同记挂系统,让模子既能"难忘牢",又能"看得清"。
1. 全局记挂(Global Memory):一个带"门禁"的记挂保障箱
为了惩处永恒淡忘问题,CoMeT 引入了一个固定大小的全局记挂。它的中枢是一个小巧的门控更新机制(Gated Update)。当模子处理新的文本块时,这个"门禁"会智能判断新信息的挫折性:若是信息至关挫折,门控大开,将其写入永恒记挂;若是信息不那么挫折,门控保捏关闭,保护已有的要津记挂不被冲刷。这套机制就像一个记挂的"保障箱",确保那些退换全文的中枢痕迹大致被永恒、踏实地保存下来。
2. 临时记挂(Temporary Memory):一条高保果真"事件流"
为了保留近期细节,CoMeT 引入了由先进先出(FIFO)队伍料理的临时记挂。它像一条流动的传送带,捏续将最近处理过的文本块信息进行高保真压缩并暂存。这保证了模子在作念决策时,能随时走访到最邻近、最防御的凹凸文信息,幸免因信息丢失而导致的"断片"。这种蓄意优雅地均衡了永恒记挂的踏实性与近期记挂的水灵性。

△ CoMeT 架构概览:全局记挂与临时记挂协同责任
通过全局和临时记挂的协同,CoMeT 在处理每个文本块时,皆能同期"总结"永恒中枢信息和"凝视"近期防御内容,最终完了了恒定的内存占用和线性的技艺复杂度,从根柢上突破了 Transformer 的性能瓶颈。
引申出真知:SOTA 性能与惊东谈主效果
CoMeT 的强项不单是停留在表面上,本质适度更是令东谈主印象深入。
1. 巨擘基准全面超过,登顶 SOTA
在公认的长文本评测基准 SCROLLS 上,CoMeT 在同等内存预算下,平均性能超过了统共主流的高效长文本口头(如凹凸文压缩、其他轮回机制模子),并在需要全局通顺的选录任务上,达到了与全看重力基线(Full Attention)相比好意思的性能。

△ CoMeT 在 SCROLLS 基准上超过其他高效口头 2. 效果翻新:21 倍加快,10 倍显存省俭
相较于圭臬的 Full Attention 模子,CoMeT 在处理 1M 长度的文本时,完了了21 倍的推理加快和10 倍的峰值显存省俭。这意味着,本来需要顶级算力才能免强启动的任务,目下在等闲硬件上也能高效完成,为长文本利用的落地扫清了窒碍。

△ CoMeT 在推理技艺和内存占用上展现出强大上风 3. 要津细察:1+1>2,不同记挂各司其职
参谋团队的消融本质揭示了一个深入的细察:全局记挂和临时记挂并非简短类似,而是各司其职,统筹兼顾。全局记挂是模子"看得远"的要津:独一依赖带门控的全局记挂,模子才能在远超进修长度的文本中保捏记挂,完了强项的长度外推才智。临时记挂是模子"看得清"的保障:高保果真近期信息流是模子在处理复杂任务时,赢得优异性能的基础。恰是这种精妙的协同蓄意,才莳植了 CoMeT 的超卓性能。

△ CoMeT 的临时记挂有助于进步进修长度内的性能。

△ CoMeT 的全局记挂有助于长度外推总结
CoMeT 的责任为大模子长文本处理领域带来了里程碑式的突破。
它通过创新的"协同记挂"架构,优雅地惩处了困扰业界已久的"记挂逆境",在恒定内存和线性技艺的敛迹下,完了了 SOTA 级别的性能和惊东谈主的长度外推才智。这项参谋证明,为 LLM 蓄意更适宜说明科学的记挂机制,是通往更强项、更实用通用东谈主工智能的要津一步。
论文标题:
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
论文联贯:
https://arxiv.org/abs/2602.01766
技俩代码:
https://anonymous.4open.science/r/comet-B00B/
一键三连「点赞」「转发」「留心心」
接待在指摘区留住你的念念法!
— 完 —
咱们正在招聘别称眼疾手快、情愫 AI 的学术裁剪实习生 � �
感酷好酷好的小伙伴接待情愫 � � 了解笃定

� � 点亮星标 � �
科技前沿进展逐日见实盘配资门户网_股票配资平台开户门槛与规则说明
实盘配资门户网_股票配资平台开户门槛与规则说明提示:本文来自互联网,不代表本网站观点。