vllm的pageattention到底是怎么回事？

张

张建站

2026/5/13 22:21:34

10分钟阅读

pageattention 经常听到的就是有两大优点一个是减少内存块浪费另一个方面就是减少内存碎片。这两点主要就是克服了传统分配方式的痛点特别是传统方法都是连续存储而这个方法建立了一个block table 能够查表找到存储位置即逻辑上是连续的物理存储上是随机的。传统的方法一个是对某个请求静态分配一个很大的token_length这种对于很简单的请求的时候就会造成大量的空间浪费因为还有很多没用到嘛。还有一种方法就是动态分配token长度一种方法就是有多长就分配多长。但是有个弊端就是对于模型来说有可能同时有多个请求进行并发的操作就像开多个窗口进行提问。这就会使得原本分配空间是 [AAA][BBBB]此时[A...],[B...]相当于两个不同的请求框内内容同时请求后就会在decoder的时候会生成新的token这样的话A请求继续扩展就不行了因为下一个位置存的B请求的token所以一般的操作就是预先对各个请求多分配一些空间即 [AAA_ _ _][BBBB_ _ _ _ _]这的弊端就也一样导致资源可能浪费很多还有另一种方法就是将空间不够的请求A重新一起复制到新的位置空间进行扩展。但这也有一个很明显的弊端就是搬移大量数据时候的成本和时延磨损等。而pageattention是怎么解决这个问题的呢有两个关键的点一个是将一个请求分配n个block每个block 的token数量相对比较小这样一个请求可能就存成了多个block而不是静态分配一样存在一大张存储空间中而这个block 并不是连续的哪里有对应block大小的空间都可以被分配这就减少了存储空间碎片了。它能把不连续的block利用起来的原因就是它是把存储池挨着挨着编码为block 123...这样分配给A的需要多少就在A的block表中写对应的block标号就行例如block table[3, 17, 8, 25, 41]逻辑顺序 0~4对应这 5 个物理块。综上就可以看出pageattention 就算浪费也只是浪费最后一个block-1大小的存储空间从而节省空间另外其存储并不要求连续且把存储空间切割成多个可以独立出来的小块这样也避免了存储碎片。

从收音机到5G：OFDM技术的前世今生，以及它为何成为Wi-Fi和5GNR的基石

从收音机到5G：OFDM技术的前世今生，以及它为何成为Wi-Fi和5GNR的基石想象一下，你正用手机流畅播放4K视频，同时下载大文件——这背后是一套诞生于上世纪60年代的技术在支撑。OFDM（正交频分复用）的传奇之处在…...

2026/5/13 22:20:35 阅读更多 →

Spring Boot项目实战：用MinIO临时凭证安全上传文件（附完整代码）

Spring Boot项目实战：用MinIO临时凭证安全上传文件（附完整代码） 在当今的Web应用开发中，文件上传功能几乎是每个系统的标配需求。但直接将永久密钥暴露给前端，无异于将保险柜钥匙挂在门口。想象一下这样的场景&#xf…...

2026/5/13 22:17:16 阅读更多 →

NoFences终极指南：免费开源桌面分区工具彻底解决Windows桌面混乱问题

NoFences终极指南：免费开源桌面分区工具彻底解决Windows桌面混乱问题【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences 还在为杂乱的Windows桌面而烦恼吗&#xff1…...

2026/5/13 22:16:20 阅读更多 →

【阳师范学院主办，多高校承协办 | IET出版，往届连续4届EI稳定检索，平均刊后2个月EI检索，EI检索稳定 | 择优至EI期刊】第五届电力工程与电气技术学术会议（ICPEET 2026）

ICPEET 2026 已申请IET (CA) EAI (JA) 出版会议论文（CA）： 会议已申请IET Conference Proceedings (ISSN: 2732-4494) 出版，收录于IET数字图书馆，并提交EI Compendex、Scopus、IEEE Xplore等数据库进行检索。期刊论文…...

2026/5/12 3:35:40 阅读更多 →