工业界和学术界最主流的LLM提示词压缩技术
目录
- 工业界和学术界最主流的LLM提示词压缩技术
- 一、技术全景:五大类提示压缩技术
- 各类技术详解与最新进展
- (一)基于剪枝的硬压缩技术(工业界首选)
- 1. LLMLingua系列(微软研究院,2023-2024)
- 2. SelectiveContext(2023)
- 3. CPC(Contrastive Prompt Compression,2024)
- (二)基于蒸馏/学习的软压缩技术(极致压缩首选)
- 1. GIST Tokens(2024年1月)
- 2. 500xCompressor(剑桥大学,2025年ACL)
- 3. Nano-Capsulator(2024)
- (三)基于检索增强的压缩技术(RAG大数据量首选)
- 1. CORE(2024年ICML)
- 2. ACC-RAG(2025年EMNLP Findings)
- 3. LongLLMLingua(RAG优化版)
- (四)基于结构化信息的压缩技术(工业数据首选)
- 1. HTAS(我们之前讨论的技术)
- 2. Structured Prompt Compression(2024)
- (五)模型原生压缩技术(最简单易用)
- 1. GPT-4o上下文压缩(2025年3月)
- 2. Claude 3自动上下文管理(2024年)
- 针对大数据量问题的最佳实践
- 场景1:通用RAG系统(处理百万级文档)
- 场景2:工业结构化数据处理(工单、日志)
- 场景3:高频重复提示(客服、营销)
- 场景4:极端长文本处理(书籍、法律文档)
- 四、技术选型决策树
- 五、开源工具与库
一、技术全景:五大类提示压缩技术
目前所有提示压缩技术可分为五大技术路线,各自解决不同场景的大数据量问题:
各类技术详解与最新进展
(一)基于剪枝的硬压缩技术(工业界首选)
这是目前最成熟、应用最广泛的技术路线,无需训练、开箱即用、兼容所有闭源API模型,特别适合快速落地。
1. LLMLingua系列(微软研究院,2023-2024)
- LLMLingua v1:用7B小模型计算token困惑度,由粗到细剪枝,支持5-20×压缩,保留98.5%任务准确率
- LLMLingua-2(2024年3月):革命性改进,将压缩转化为token分类任务,用GPT-4蒸馏训练560M的XLM-RoBERTa编码器,速度提升3-6倍,跨域泛化能力更强
- LongLLMLingua(2024年6月):专门针对超长上下文和RAG场景优化,引入问题感知压缩和文档重排,在LooGLE基准上实现94%成本降低,同时性能提升