你的位置:色情网站 > ai换脸 视频 >

性爱图片 10倍蒙胧提高无损性能:多模态适用的KV cache量化战略来了,即插即用无需改原模子

发布日期:2025-04-04 14:24    点击次数:105

性爱图片 10倍蒙胧提高无损性能:多模态适用的KV cache量化战略来了,即插即用无需改原模子

在 InternVL-2.5 上达成 10 倍蒙胧量提高性爱图片,模子性能险些无耗损。

最新 1-bit 多模态大模子 KV cache 量化决策CalibQuant来了。

通过联结后缩放和校准依次,可权臣缩短显存与狡计资本,无需改换原模子即可径直使用。

即插即用、无缝集成

多模态诳言语模子在各式应用中展现出了非凡的性能。关联词,它们在部署经由中的狡计支拨仍然是一个关键瓶颈。

天然 KV cache 通过用显存换狡计在一定进度上提高了推理后果,但跟着 KV cache 的增大,显存占用束缚增多,蒙胧量受到了极大限制。

为了科罚这一挑战,作家建议了 CalibQuant,一种简便却高效的视觉 KV cache 量化战略,大概大幅缩短显存和狡计支拨。具体来说,CalibQuant 引入了一种极点的 1 比特量化决策,采纳了针对视觉 KV cache 内在模式瞎想的后缩放和校准技巧,在保证高效性的同期,不毁灭模子性能。

作家通过应用 Triton 进行 runtime 优化,在 InternVL-2.5 模子上达成了 10 倍的蒙胧量提高。这一依次具有即插即用的特点,大概无缝集成到各式现存的多模态诳言语模子中。

性爱画面

动机

现时的多模态诳言语模子在践诺应用中时常需要处理大尺寸、高分辨率的图像或视频数据,KV cache 机制天然能提高后果,但其显存占用与输入长度(如视觉帧数、图像尺寸等)成正比。

当输入数据的领域增大(举例更多的视觉帧、更高的图像分辨率)时,KV 缓存的显存使用量赶紧增多,成为限制蒙胧量的瓶颈。尽管现时有些针对 LLM KV cache 量化的依次不错将其压缩至 2 比特,但这些依次莫得针对多模态问题中迥殊的视觉冗余作念分析优化,导致其无法在极限情况 1 比特下被使用。

本文通过分析多模态诳言语模子中的视觉 KV cache 的冗余,瞎想了稳健多模态模子迥殊的 KV cache 量化决策。

依次

本文在通谈维度量化的基础上建议了针对反量化狡计规则的后缩放优化决策和针对耀倡导权重优化的校准战略。

1、通谈维度 KV cache 量化:

一种庸俗使用的依次是均匀整数目化。给定一个比特宽度 b>0 和一个输入值 x,它位于某个范围 [ α , β ] 内,则将其映射到一个浩大整数

,狡计经由为:

这里的⌊⋅⌉示意取整运算符。最朴素的依次是使用全局统计量来狡计这些极值,关联词模子性能会受较大影响,作家遴选在通谈维度上细化统计范围。具体来说,令

示意一个 K cache,其中 n 和 d 区分示意 token 的数目和 head 的维度。界说两个向量

如下:

然后,通过上述经由对 K 中的每一瞥向量进行量化,其中乘法操作是逐元素进行的。作家相同将这种按通谈的量化依次应用于 V cache。

2、后缩放 KV cache 督察战略:

量化后的 K cache 不错用浩大化的整数值、一个缩放因子(scale factor)和一个偏置项(bias term)来示意。在解码阶段,这些值被用于对 K cache 进行反量化,并随后与 Q 相乘。关联词,通谈维度的量化需要为每个通谈区分指定不同的缩放因子和偏置向量,这将导致产生多数不同的数值性爱图片,增多了反量化经由中的狡计支拨。此外,这种阵势也使得 CUDA 内核中的狡计后果缩短。作家不雅察到量化后的 K 仅具有有限数目的浩大取值(举例,关于 2 比特量化,其取值仅为 0、1、2、3),于是建议应用简便的狡计规则重排来减少存储需求,并提高狡计后果。具体经由如下:

是 K cache 矩阵

中的自便一瞥向量,

为其进行 b 比特整数目化后的终局,并作陪有逐通谈的缩放因子 α , β。给定一个查询向量

,在生成 token 经由中耀倡导狡计如下:

其中,标记⋅和⊙区分示意向量之间的内积和逐元素乘积。通谈维度上的反量化操作

被蔓延实行,并高效地集成到后续的向量乘法运算中。因此,这种依次仅存储经过 b 比特整数目化后的数值,况且幸免了全精度反量化狡计经由。这种依次确保了低比特反量化实行的高效性。这种后缩放依次也不错天然地应用到 V cache 的反量化经由中。

3、量化后的校准:

1 比特量化的一个限制是经过反量化之后的数值频频会包含多数的极点值。这是因为 1 比特量化的码本老是包含了最小值和最大值,导致那些接近鸿沟的输入值在反量化后径直映射到了极点值。

因此,重建后的 KV cache 频繁包含过多的大十足值,最终导致耀倡导分数产生显然的失真。为了科罚这个问题,作家建议了一种量化后校准依次,用于调整 softmax 之前耀倡导分数的峰值。具体来说,假定

中的总计元素王人位于区间

内。给定

,界说一个线性变换 g 将区间

映射到

,其抒发式如下:

随后对耀倡导分数进行如下调整:

如下图所示,校准依次(Quant-C,红色)有用松开了极点值的影响,使调整后的精明分数分散相较于未经校准的量化依次(Quant,蓝色)更接近全精度(Exact)分散。

实验终局

作家将建议的量化依次区分应用在 LLaVA 和 InternVL model 上,测试了其在 captioning,VQA,Video QA 三个不同的任务上的性能。以 captioning 任务为例,下图展示了本文所建议的依次在 cococaption benchmark 下和其他依次如 KIVI,VLCache 的对比。

在不同比特数(8,4,2,1)下,本文建议的依次在大部分测试宗旨上王人优于其他两种依次。举例关于 llava-1.5-7b,本文的依次在 8 比特下达到最高的 CIDEr 分数 1.105,与全精度执平,并在 1 比特下提高至 1.109,跨越了 VLCache(1.053)。相同地,关于 InternVL-2.5-26B,本文的依次在 4 比特和 2 比特下区分获取了最高的 CIDEr 分数 1.32 和 1.313,均优于 VLCache 和 KIVI。

Runtime 分析

为了展示本文建议的量化依次对解码后果的影响,作家使用 InternVL-2.5 系列模子,将所建议的 1 比特量化依次与 16 比特基线进行了蒙胧量评估(即每秒生成的 token 数)。作家有计划了两种视觉 token 长度的情况:n=3328 和 8192。作家将 GPU 最大内存从 5GB 变化到 30GB,并在每种内存限制下,寻找大概容纳的最大 batch size,测量解码阶段的蒙胧量。

如下图展示,1 比特量化依次在总计显存预算下长久优于基线依次。举例,当 n=3329 且使用 80 亿参数模子时,本文的依次在 5GB 显存下达成了 126.582tokens/s 的蒙胧量(基线为 11.628tokens/s),在 30GB 下提高至 459.016tokens/s(基线为 40.816tokens/s)。这意味着比拟基线,本文依次的蒙胧量提高约为 9.88 × 到 11.24 ×,充分展示了该依次在受限显存条款下权臣提高解码速度。

归来

本文探讨了多模态诳言语模子中视觉 KV cache 的压缩依次。简便地将量化应用到极低比特数时常会激勉分散偏移,导致模子性能着落。为了科罚这一问题,本文建议了一种新颖的校准战略,作用于 softmax 之前的耀倡导分数,有用缓解了量化带来的失真。此外,本文还引入了一种高效的通谈维度后缩放技巧以提高狡计和存储后果。

作家在 InternVL 和 LLaVA 模子系列上,针对 COCO Caption、MMBench-Video 和 DocVQA 等基准任务进行了实验,终局考据了所建议依次的有用性。作家应用 Triton 达成了本文所建议的依次,runtime 分析标明本文建议的依次相较于全精度模子有大致 10 倍的蒙胧量提高。

论文标题:CalibQuant:1-Bit KV Cache Quantization for Multimodal LLMs

论文地址:https://arxiv.org/abs/2502.14882

代码地址:https://github.com/insuhan/calibquant

一键三连「点赞」「转发」「约束心」

接待在辩论区留住你的念念法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 样貌主页聚会,以及相关阵势哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿弘扬逐日见性爱图片