一篇文章讲明白tf-idf,BM25-编程实验室

第一章基础概念

TF-IDF 是文本向量化工具，核心目标是「把文本转化为可量化的关键词权重向量」，而非直接计算相似度：

BM25 是检索场景专用的相似度评分算法，核心目标是「直接计算查询与文档的相关性分数」，专为 RAG 等检索场景设计：

核心逻辑：对查询中的每个关键词，计算其在文档中的 “贡献分”（融合 TF、IDF，新增「词频饱和度」「文档长度归一化」）→ 所有关键词贡献分求和 = 最终相似度评分；
关键优化（对比 TF-IDF）：
1. 词频饱和：高频词的权重增长会放缓（比如 “RAG” 出现 10 次≠权重涨 10 倍），避免刷屏；
2. 长度归一化：显式修正文档长度影响（长 / 短文档公平对比）；
关键特点：无需向量转换，直接输出相似度分数；是 RAG 中文本召回的首选，效果远优于 TF-IDF。

TF-IDF 的计算流程核心是「先分词预处理，再逐词算 TF/IDF，最后合成向量」，全程围绕 “把文本转化为关键词权重向量” 展开

总流程（5 步）：预处理 → 算 TF → 算 IDF → 算 TF-IDF 权重 → 生成文本向量

通过上述计算公式,可以得到每个词的在每个文档中的相似度,把query中每个词的相似度加起来就是query和每个文档的相似度

– 摘要： 随着高校普遍引入 AIGC 检测机制，学术写作辅助工具的需求显著上升。本文对三款具有代表性的 AI 降重工具（快降重、SpeedAI、DeepRewriter）进行实测对比，从术语保护、语义连贯性、AIGC 降低效果、免费额度等维…

李华

行泊一体十年演进（2015–2025） 一句话总论： 2015年行泊一体还是“高速ACC简单APA分离”的高端配置，2025年已进化成“全场景无图NOA零干预AVP记忆/遥控泊车端到端VLA大模型统一”的普惠标配，中国从跟随者跃升全球领跑者…

李华

影子模式十年演进（2015–2025） 一句话总论： 2015年影子模式（Shadow Mode）还是“离线日志回放人工对比”的小规模验证工具，2025年已进化成“实时并行双实例端到端VLA大模型自诊断车云协同零接管验证量子级容…

李华

自动驾驶架构十年演进（2015–2025） 一句话总论： 2015年自动驾驶架构还是“分散式ECU模块化感知-规划-控制”的传统堆叠式，2025年已进化成“中央计算单/双盒子端到端VLA大模型统一三层冗余车云协同自进化”的高度集中式全车大脑&a…

李华

Jupyter Notebook如何连接远程GPU？Miniconda容器配置详解在深度学习项目日益复杂的今天，一个常见的场景是：研究者手握高性能笔记本，却只能眼睁睁看着本地显卡内存不足、训练动辄数小时。而与此同时，数据中心里的A100集…

李华

MarkdownJupyter：用Miniconda-Python3.10输出高质量技术文档在数据科学和AI研发日益工程化的今天，一份“能跑通”的技术文档远比静态PDF更有说服力。你有没有遇到过这样的场景：同事发来一份实验报告，结论看起来很惊艳&#xff0…

李华