news 2026/5/1 8:26:58

如何利用LLM处理非结构化数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何利用LLM处理非结构化数据

大型语言模型(LLMs)解决了非结构化数据(如文本、图片和音频文件)带来的重大挑战,使得从大量数据中提取有价值的见解或信息成为可能。

非结构化数据的挑战

非结构化数据与结构化数据相反,结构化数据具有预定义的格式或模式。文本文档、社交媒体帖子、电子邮件,甚至音频和视频录音,都是非结构化数据的例子。处理这类数据可能耗时且劳动密集,通常需要人工干预以提取有意义的信息。

大型语言模型如何提供帮助

LLM已经在大量文本数据上进行了训练,能够识别数据中的模式、关系和上下文。通过将这些能力应用于非结构化文本数据,LLM可以执行以下任务:

  1. 提取关键词和短语:从大量文本中识别相关术语和概念。
  2. 分类和分类:根据内容、情感或意图将无结构文本组织成预设的类别或类别。
  3. 总结与摘要:将冗长文本浓缩为简明摘要,保留最重要的信息。
  4. 计算主观指标:计算诸如“专业素养”或呼叫中心客服对特定话术执行的程度等指标。这些都是主观指标,没有理解文本模式和关系的模型,很难量化。

将非结构化数据转化为结构化数据

利用大型语言模型的一个极其强大的方法是将非结构化数据转化为结构化数据,使其更容易分析和用于其他应用、机器学习模型、仪表盘等。以下是一些常见的使用场景:

情绪分析:分析客户从社交媒体帖子或评论中获得的反馈,以评估情绪并识别趋势。

主题建模:在大量文本(如新闻文章或研究论文)中识别主要主题和子主题。

实体提取:从非结构化文本数据中提取特定实体,如名称、位置和组织。

音频转录:将口述音频录音转换为文字转录,便于分析。

例子:呼叫中心分析

MLRun呼叫中心演示是使用LLM处理非结构化数据的一个绝佳例子。它基于银行客户的真实用例,将呼叫中心坐席与客户之间的音频录音分析为结构化数据,这些数据可以在仪表盘中可视化,并用于其他下游应用。

呼叫分析工作流程

调用分析工作流程包含多个步骤,所有主要功能都从MLRun函数中心导入。您可以通过点击以下列表中的函数名称查看每个集线器函数的docstring、代码和示例:

调用数据插入数据库 —将调用元数据插入到 MySQL 数据库。

进行语音记录——中心功能:分析每个人在通话时的发言时间,以便后续改进转录和分析。日语化为LLM提供了上下文,并产生更好的结果。该函数采用silero-VAD模型。语音解析基于呼叫中心录音中每个音频声道属于不同扬声器的假设,按每个通道进行。

转录——枢纽功能:使用 Hugging Face 的 ASR 流水线与 OpenAI 的 Whisper 模型。该函数将通话转录并翻译成文本,并保存为文本文件。它是OpenAI的Whisper软件包的优化版本——支持批处理、CPU向多处理工作者卸载,并可通过MLRun和OpenMPI在多个GPU上分发。

识别个人身份信息——枢纽功能:采用三种技术识别个人身份信息:RegEx、Flair以及Microsoft的Presidio分析器和匿名化器。该功能清除已识别的个人数据,并生成多个工件以审查和理解识别过程。

分析——枢纽功能:使用大型语言模型分析给定文本。它期望一个提示模板和问题发送给LLM,然后从回答中构建一个数据帧数据集。本演示使用了GPTQ量化版的Mistral-7B来分析通话内容。提取以下特征有助于:

topic: str——从给定主题列表中选出通话的一般主题。

summary: str——简短几句总结了整个通话内容。

concern_addressed: bool——客户的关切是否在通话结束时得到回应。可能是{是,不是}。

customer_tone: str——通话中的一般客户语气。可以是{正、中性、负}之一。

agent_tone:&

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:35:17

SiFive HiFive1板载RISC-V指令执行性能分析深度剖析

深入HiFive1:从指令执行到存储瓶颈的RISC-V实战性能剖析你有没有遇到过这样的情况?代码写得没问题,逻辑也清晰,可运行起来就是“卡一顿”——尤其在中断响应时延迟忽高忽低,或者一个简单的滤波算法居然耗时几十微秒。如…

作者头像 李华
网站建设 2026/4/20 17:41:11

Multisim仿真电路图课程作业常见问题通俗解释

电路仿真不翻车:Multisim作业避坑指南你有没有过这样的经历?辛辛苦苦画完一个放大电路,信心满满点下“运行仿真”——结果示波器一片空白。或者好不容易出波形了,却发现输出严重失真、像被削了头的正弦波……更离谱的是&#xff0…

作者头像 李华
网站建设 2026/5/1 7:24:57

超详细版2025机顶盒刷机包下载与镜像签名绕过方案

手把手教你刷透2025主流机顶盒:从固件获取到签名绕过全实战你是不是也受够了电视盒子开机广告、强制更新、应用锁死?想装个Kodi看本地电影还得翻墙找插件?别急,真正的自由从来不是点几下“一键刷机”就能拿到的——尤其是到了2025…

作者头像 李华
网站建设 2026/4/27 8:26:02

PyTorch安装报错 ImportError: cannot import name ‘XXX‘ 解决方法

PyTorch 安装报错 ImportError: cannot import name XXX?一文讲透根源与终极解决方案 在深度学习项目刚启动的那一刻,最让人崩溃的不是模型不收敛,也不是梯度爆炸——而是连最基本的 import torch 都失败了。更糟的是,你看到这样的…

作者头像 李华
网站建设 2026/4/20 18:59:17

将Jupyter Notebook转为Markdown发布至CSDN/GitHub

将 Jupyter Notebook 高效转为 Markdown 并发布至 CSDN/GitHub 在深度学习项目开发中,我们常常使用 Jupyter Notebook 进行实验记录、模型调试和可视化分析。它以交互式单元格的形式将代码、说明文本与输出结果(如图表、表格)紧密结合&#x…

作者头像 李华
网站建设 2026/4/30 23:50:54

低噪声电路设计中circuit simulator的应用实例

低噪声电路设计实战:如何用仿真器揪出“潜伏”的噪声元凶?你有没有过这样的经历?辛辛苦苦画好PCB,焊上高精度运放和低温漂电阻,结果一测——输出信号满是“雪花”,信噪比远低于预期。示波器上看不出明显振荡…

作者头像 李华