AI知识库投喂：从“喂数据”到“养大脑”-编程实验室

你可曾晓得那般感受呀? 那便是当你与人工智能进行交谈之际, 它陡然冒出一个极度荒诞不经的回应——就好似询问“今日天气状况如何”时, 它却向你诵读了一回莎士比亚的十四行诗一样。

我笑了，但笑完之后，其实挺心酸的。

于此背后, 暴露出一个问题那便是, AI的知识库投喂, 出现了差错。

到底什么是AI知识库投喂？

说白了，就跟养孩子一个道理。

孩子吃的是什么, 其长成的模样便是什么样, AI同样如此, 喂给它的数据呈何种样态, 它所拥有的“知识结构”便是何种样子。

往知识库进行投喂, 其实就是将诸多海量的, 分属于文本、图片以及音频等类型的数据, 依据某些特定的规则还有格式, 投放进AI模型当中, 使得它能够去学习, 能够去记忆, 并且能够去理解。

但这活儿，远没表面那么简单。

你们所认为的那个“喂”, 实际上更类似于一种“调教”的进程。并且, 数据并非是数量越多就越好, 而是越精准恰好才越好。

99%的人都不知道的误区

很多人以为：只要数据量大，AI就聪明。

错。

这是关于我的一个案例, 有实例: 某个团队, 递给了人工智能, 多达50TB的医疗文献, 然而, 人工智能对于“感冒要不要吃药”这个问题的回答, 却是颠三倒四的。

为何会这样呢? 原因在于, 在那具有五十TB容量的内容当中 , 存在着四十TB的内容 , 这些内容是重复的 , 是过时的 , 甚至是相互矛盾的。

数据质量，比数量重要一万倍。

进的是垃圾, 出来的也是垃圾, 这句话在AI圈几乎都要成为被公认的真理了。

为什么投喂数据这么难？

第一步：数据清洗，比你想的还枯燥

试去想象, 你存有一百万条用户所给出的评论, 当中含有着表情包, 有错别字出现, 有广告链接, 甚至还存在骂人的话语。

你要把这些“杂质”全部筛掉。

有那么一些人去做过相关的统计, 在原始数据当中, 真正能够被使用的部分, 一般情况下是不会超过40%的占比, 而剩余下来的那60%都是属于噪音范畴的东西。

清洗过程，就是一场跟“脏数据”的拉锯战。

第二步：标注，是技术也是艺术

数据清洗完了，得让人来“教”AI。

举例来说, 有一张关于猫的图片, 你需要进行标注, 标注的内容是“这是猫”, 还要标注“猫有两只耳朵”, 以及“猫的尾巴是长的”。

这个环节，目前还是靠人工。

跟据并非完全统计的情况来看, 全球存在着超过500万人从事AI数据标注这项工作。这些人分布于印度、菲律宾、非洲等地区。他们每日都盯着屏幕, 要点击几万次鼠标, 而标注一张图所赚到的钱可能仅仅只有几分钱。

技术的背后，其实都是人力在堆。

数据投喂的“黄金比例”

你可能好奇：到底什么样的数据，AI学得最好？

我查了一些公开的研究资料，总结出几个关键点：

来源的多样性体现: 获取数据的源头不应是单一的那种情形。举例来说, 就像学习语言这个行为, 不可以仅仅局限于观看新闻这一途径, 还需要涉猎小说这种形式, 以及对话这种表达, 甚至包括网上所出现的吐槽这种内容。

数据的时效性方面, 要求要全新。对于处于2023年这个阶段的AI而言, 要是仅仅投喂2010年的相关数据, 那么它根本理解不了“直播带货”究竟是什么东西。最终会导致它对“直播带货”这一概念一无所知。

平衡性方面, 不同主题的数据需要保持平衡, 要是给AI投喂了占比90%的科技文章, 仅仅投喂占比10%的人文内容, 那么它在聊起历史话题之时就会如同一个“科技直男”。

有一组数据饶具趣味, 依据某篇论文的统计情况来讲, 对于一个堪称优秀的通用AI模型, 在其训练数据里, 语料类、知识类、对话类的占比, 大致维系于4:3:3上下, 然而这只不过是供作参考的数值罢了, 不同的领域之间存在着极大的差异。

那些“翻车”的AI案例，背后都是数据问题

还记得去年的“AI写小说翻车事件”吗？

有一位AI写手, 创作出了一个悬疑故事, 故事里的主角在第一章的时候就已经死了, 然而后面的情节居然还能够接着编写下去。

为何会这样, 是由于在训练数据当中, 存在着数量众多的“主角假死”的情节片段, 如此一来, AI经过长时间的学习, 却没办法分辨清楚“假死”以及“真死”彼此之间的差异, 这是为什么。

更为夸张的是, 有某个AI, 被投入了大批量网络论坛方面的数据, 最终学会了一种“阴阳怪气”的腔调, 当用户向它询问“今天天气好吗”时, 它给出的回应是“你自己不会看窗外? ”。

这么些翻车情况, 究其根源全在于数据投喂方面——投喂了本不应该投喂的内容，又或者是未能足量投喂本该投喂的部分。

普通人怎么理解这件事？

其实，你每天都在做“知识库投喂”的事——

你刷短视频，就是在给自己“投喂”娱乐内容

你读一本书，就是在给自己“投喂”知识

你跟人聊天，就是在进行“对话数据训练”

只不过，AI的“消化系统”更庞大、更机械，但也更脆弱。

它没有直觉，没有常识，只有你喂给它的那些数据。

未来的趋势：从“喂数据”到“养大脑”

现如今, 最为前沿的研究, 已然并非仅仅单纯地去追求“投喂多少数据”这一情况了, 而是向着“如何促使AI学会依靠自身进行学习”的方向转变了。

就像教孩子钓鱼，而不是每次都把鱼嚼碎了喂给他。

举例来说, “少样本学习”这项技术, 仅仅只需给予AI几十个示例, 它便能够学会一个全新的概念。而“自监督学习”呢, 是使得AI依靠自身从没有标签的数据当中探寻出规律来。

这些技术的核心，都是提升数据利用效率。

按照某行业报告所做的预测来看, 直至2028年的时候, AI训练数据在需求量方面将会增长至四倍, 然而数据投喂所采用的方法, 将会愈发“聪明”。

写到最后

实际上, 当撰写这篇文章之际, 我始终在思索, AI的将来, 并非取决于算法究竟有多繁杂, 芯片究竟有多迅速, 而是取决于我们给予它何种内容。

数据是AI的粮食，也是它的牢笼。

你要是将AI当作工具, 那它仅仅只是工具而已；你要是把AI当作伙伴了, 那么你就必须得给它投喂最好的“精神食粮”。

这跟养孩子、教学生、甚至交朋友，何其相似。

所以, 下次在你与AI进行聊天之际, 发觉它忽然讲出了一句颇为愚蠢的话语时——先别着急, 要先去琢磨一下, 是不是咱们那般“喂”的姿态存在问题呢?

AI知识库投喂：从“喂数据”到“养大脑”

到底什么是AI知识库投喂？

99%的人都不知道的误区

为什么投喂数据这么难？

第一步：数据清洗，比你想的还枯燥

第二步：标注，是技术也是艺术

数据投喂的“黄金比例”

那些“翻车”的AI案例，背后都是数据问题

普通人怎么理解这件事？

未来的趋势：从“喂数据”到“养大脑”

写到最后

VMFL023——Fluent圆柱绕流计算：从网格类型到结果验证的深度解析

[4G5G实战-101] 单站验证：从“点亮”到“达标”的现场工程师指南

别急着扔！手把手教你用SP Flash Tool救活金立金刚GN5001黑砖（MTK驱动安装避坑）

点餐系统全套静态页面：堂食下单、外卖选择、菜品详情与购物车交互界面

DataWorks ODPS实战避坑指南：高频报错场景与排查思路

5步搞定OneNote笔记无损迁移：告别数据孤岛的最佳实践