news 2026/5/23 1:36:10

大模型提示词压缩技术全景:五大类方法解析与应用指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型提示词压缩技术全景:五大类方法解析与应用指南

工业界和学术界最主流的LLM提示词压缩技术

目录

  • 工业界和学术界最主流的LLM提示词压缩技术
    • 一、技术全景:五大类提示压缩技术
    • 各类技术详解与最新进展
      • (一)基于剪枝的硬压缩技术(工业界首选)
        • 1. LLMLingua系列(微软研究院,2023-2024)
        • 2. SelectiveContext(2023)
        • 3. CPC(Contrastive Prompt Compression,2024)
      • (二)基于蒸馏/学习的软压缩技术(极致压缩首选)
        • 1. GIST Tokens(2024年1月)
        • 2. 500xCompressor(剑桥大学,2025年ACL)
        • 3. Nano-Capsulator(2024)
      • (三)基于检索增强的压缩技术(RAG大数据量首选)
        • 1. CORE(2024年ICML)
        • 2. ACC-RAG(2025年EMNLP Findings)
        • 3. LongLLMLingua(RAG优化版)
      • (四)基于结构化信息的压缩技术(工业数据首选)
        • 1. HTAS(我们之前讨论的技术)
        • 2. Structured Prompt Compression(2024)
      • (五)模型原生压缩技术(最简单易用)
        • 1. GPT-4o上下文压缩(2025年3月)
        • 2. Claude 3自动上下文管理(2024年)
  • 针对大数据量问题的最佳实践
      • 场景1:通用RAG系统(处理百万级文档)
      • 场景2:工业结构化数据处理(工单、日志)
      • 场景3:高频重复提示(客服、营销)
      • 场景4:极端长文本处理(书籍、法律文档)
    • 四、技术选型决策树
    • 五、开源工具与库

一、技术全景:五大类提示压缩技术

目前所有提示压缩技术可分为五大技术路线,各自解决不同场景的大数据量问题:

各类技术详解与最新进展

(一)基于剪枝的硬压缩技术(工业界首选)

这是目前最成熟、应用最广泛的技术路线,无需训练、开箱即用、兼容所有闭源API模型,特别适合快速落地。

1. LLMLingua系列(微软研究院,2023-2024)
  • LLMLingua v1:用7B小模型计算token困惑度,由粗到细剪枝,支持5-20×压缩,保留98.5%任务准确率
  • LLMLingua-2(2024年3月):革命性改进,将压缩转化为token分类任务,用GPT-4蒸馏训练560M的XLM-RoBERTa编码器,速度提升3-6倍,跨域泛化能力更强
  • LongLLMLingua(2024年6月):专门针对超长上下文和RAG场景优化,引入问题感知压缩和文档重排,在LooGLE基准上实现94%成本降低,同时性能提升
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 1:33:18

ScaleBITS:硬件对齐的混合精度LLM量化技术解析

1. ScaleBITS框架解析:硬件对齐的混合精度LLM量化技术在大型语言模型(LLM)部署实践中,内存占用和计算成本已成为关键瓶颈。以70B参数的模型为例,FP16精度下仅权重就需要140GB内存,远超多数消费级显卡容量。传统4-bit量化虽能缓解这…

作者头像 李华
网站建设 2026/5/23 1:29:08

指针(一)

深入理解指针const修饰指针 const:表示被修饰的变量具有常量属性;const就是常量的意思1)当我们创建一个变量,例如变量a,创建后我们可以通过二次赋值,改变它的值。如图所示:但我们使用const修饰它的一个变量的时候&…

作者头像 李华
网站建设 2026/5/23 1:26:01

gd32f303烧录提示Flash Timeout. Reset the Target and try it again.;

出现这个原因,是因为我在代码中使用了: ob_security_protection_config(FMC_USPC); // 开启保护 保护装置,导致烧录的时候出现 Flash Timeout. Reset the Target and try it again.; Error: Flash Download failed - "Cort…

作者头像 李华
网站建设 2026/5/23 1:17:15

第16届华城船游节5月22日起航

华城市文化观光财团宣布,韩国著名的海洋文化庆典第16届华城船游节将于5月22日至25日在前谷港一带举行,为期四天。 华城船游节是韩国的官方文化观光庆典之一,今年的庆典升级为融合海上休闲体验与顶级文化表演的沉浸式庆典,看点更…

作者头像 李华
网站建设 2026/5/23 1:16:40

ATC 做了什么:从 ONNX 到 .om

前言 训练好的模型,怎么跑到昇腾 NPU 上? 答案是 ATC(Ascend Tensor Compiler)。它做的事情很直接:把一个框架导出的模型文件(通常是 ONNX 格式),编译成昇腾 NPU 可以直接执行的 .om…

作者头像 李华
网站建设 2026/5/23 1:14:24

工业云脑:01 IIoT是谁?从4G到5G+边缘计算

01 IIoT是谁?从4G到5G+边缘计算 上回序章说数据飞云端、工厂有了新大脑,今天就直奔主题——IIoT是谁?从4G到5G+边缘计算。别以为IIoT是啥外星科技,它就是咱们车间里“老熟人”物联网的工业版:把传感器、PLC、机器臂、摄像头全连上网,让数据不再在厂里打转转,而是嗖嗖飞…

作者头像 李华