你可曾晓得那般感受呀? 那便是当你与人工智能进行交谈之际, 它陡然冒出一个极度荒诞不经的回应——就好似询问“今日天气状况如何”时, 它却向你诵读了一回莎士比亚的十四行诗一样。
我笑了,但笑完之后,其实挺心酸的。
于此背后, 暴露出一个问题那便是, AI的知识库投喂, 出现了差错。
到底什么是AI知识库投喂?
说白了,就跟养孩子一个道理。
孩子吃的是什么, 其长成的模样便是什么样, AI同样如此, 喂给它的数据呈何种样态, 它所拥有的“知识结构”便是何种样子。
往知识库进行投喂, 其实就是将诸多海量的, 分属于文本、图片以及音频等类型的数据, 依据某些特定的规则还有格式, 投放进AI模型当中, 使得它能够去学习, 能够去记忆, 并且能够去理解。
但这活儿,远没表面那么简单。
你们所认为的那个“喂”, 实际上更类似于一种“调教”的进程。并且, 数据并非是数量越多就越好, 而是越精准恰好才越好。
99%的人都不知道的误区
很多人以为:只要数据量大,AI就聪明。
错。
这是关于我的一个案例, 有实例: 某个团队, 递给了人工智能, 多达50TB的医疗文献, 然而, 人工智能对于“感冒要不要吃药”这个问题的回答, 却是颠三倒四的。
为何会这样呢? 原因在于, 在那具有五十TB容量的内容当中 , 存在着四十TB的内容 , 这些内容是重复的 , 是过时的 , 甚至是相互矛盾的。
数据质量,比数量重要一万倍。
进的是垃圾, 出来的也是垃圾, 这句话在AI圈几乎都要成为被公认的真理了。
为什么投喂数据这么难?
第一步:数据清洗,比你想的还枯燥
试去想象, 你存有一百万条用户所给出的评论, 当中含有着表情包, 有错别字出现, 有广告链接, 甚至还存在骂人的话语。
你要把这些“杂质”全部筛掉。
有那么一些人去做过相关的统计, 在原始数据当中, 真正能够被使用的部分, 一般情况下是不会超过40%的占比, 而剩余下来的那60%都是属于噪音范畴的东西。
清洗过程,就是一场跟“脏数据”的拉锯战。
第二步:标注,是技术也是艺术
数据清洗完了,得让人来“教”AI。
举例来说, 有一张关于猫的图片, 你需要进行标注, 标注的内容是“这是猫”, 还要标注“猫有两只耳朵”, 以及“猫的尾巴是长的”。
这个环节,目前还是靠人工。
跟据并非完全统计的情况来看, 全球存在着超过500万人从事AI数据标注这项工作。这些人分布于印度、菲律宾、非洲等地区。他们每日都盯着屏幕, 要点击几万次鼠标, 而标注一张图所赚到的钱可能仅仅只有几分钱。
技术的背后,其实都是人力在堆。
数据投喂的“黄金比例”
你可能好奇:到底什么样的数据,AI学得最好?
我查了一些公开的研究资料,总结出几个关键点:
来源的多样性体现: 获取数据的源头不应是单一的那种情形。举例来说, 就像学习语言这个行为, 不可以仅仅局限于观看新闻这一途径, 还需要涉猎小说这种形式, 以及对话这种表达, 甚至包括网上所出现的吐槽这种内容。
数据的时效性方面, 要求要全新。对于处于2023年这个阶段的AI而言, 要是仅仅投喂2010年的相关数据, 那么它根本理解不了“直播带货”究竟是什么东西。最终会导致它对“直播带货”这一概念一无所知。
平衡性方面, 不同主题的数据需要保持平衡, 要是给AI投喂了占比90%的科技文章, 仅仅投喂占比10%的人文内容, 那么它在聊起历史话题之时就会如同一个“科技直男”。
有一组数据饶具趣味, 依据某篇论文的统计情况来讲, 对于一个堪称优秀的通用AI模型, 在其训练数据里, 语料类、知识类、对话类的占比, 大致维系于4:3:3上下, 然而这只不过是供作参考的数值罢了, 不同的领域之间存在着极大的差异。
那些“翻车”的AI案例,背后都是数据问题
还记得去年的“AI写小说翻车事件”吗?
有一位AI写手, 创作出了一个悬疑故事, 故事里的主角在第一章的时候就已经死了, 然而后面的情节居然还能够接着编写下去。
为何会这样, 是由于在训练数据当中, 存在着数量众多的“主角假死”的情节片段, 如此一来, AI经过长时间的学习, 却没办法分辨清楚“假死”以及“真死”彼此之间的差异, 这是为什么。
更为夸张的是, 有某个AI, 被投入了大批量网络论坛方面的数据, 最终学会了一种“阴阳怪气”的腔调, 当用户向它询问“今天天气好吗”时, 它给出的回应是“你自己不会看窗外? ”。
这么些翻车情况, 究其根源全在于数据投喂方面——投喂了本不应该投喂的内容,又或者是未能足量投喂本该投喂的部分。
普通人怎么理解这件事?
其实,你每天都在做“知识库投喂”的事——
你刷短视频,就是在给自己“投喂”娱乐内容
你读一本书,就是在给自己“投喂”知识
你跟人聊天,就是在进行“对话数据训练”
只不过,AI的“消化系统”更庞大、更机械,但也更脆弱。
它没有直觉,没有常识,只有你喂给它的那些数据。
未来的趋势:从“喂数据”到“养大脑”
现如今, 最为前沿的研究, 已然并非仅仅单纯地去追求“投喂多少数据”这一情况了, 而是向着“如何促使AI学会依靠自身进行学习”的方向转变了。
就像教孩子钓鱼,而不是每次都把鱼嚼碎了喂给他。
举例来说, “少样本学习”这项技术, 仅仅只需给予AI几十个示例, 它便能够学会一个全新的概念。而“自监督学习”呢, 是使得AI依靠自身从没有标签的数据当中探寻出规律来。
这些技术的核心,都是提升数据利用效率。
按照某行业报告所做的预测来看, 直至2028年的时候, AI训练数据在需求量方面将会增长至四倍, 然而数据投喂所采用的方法, 将会愈发“聪明”。
写到最后
实际上, 当撰写这篇文章之际, 我始终在思索, AI的将来, 并非取决于算法究竟有多繁杂, 芯片究竟有多迅速, 而是取决于我们给予它何种内容。
数据是AI的粮食,也是它的牢笼。
你要是将AI当作工具, 那它仅仅只是工具而已;你要是把AI当作伙伴了, 那么你就必须得给它投喂最好的“精神食粮”。
这跟养孩子、教学生、甚至交朋友,何其相似。
所以, 下次在你与AI进行聊天之际, 发觉它忽然讲出了一句颇为愚蠢的话语时——先别着急, 要先去琢磨一下, 是不是咱们那般“喂”的姿态存在问题呢?