大白话解读:为啥说数据是AI的“粮食”?(2/2)
除了“量”,数据还有一个更关键的要求——“相关性”,也就是数据得“对味”,得跟ai要做的任务有关系。要是给的 data跟任务没关系,就算数据量再大,ai也白学,根本做不好事情。
咱们还是拿“认猫”举例子:要是你想让ai学会识别猫咪,结果给它的全是狗狗、兔子、仓鼠的图片,就算给它1000万张,ai也不知道“猫”长啥样。因为这些数据跟“认猫”没关系,ai学的全是“狗有四条腿、会汪汪叫”“兔子有长耳朵、会蹦跳”,根本学不到猫的特征,最后肯定认不出猫。
这就像厨师想做红烧肉,结果手里只有青菜、面粉、西红柿,没有猪肉、酱油、糖这些关键食材,就算厨艺再高,也做不出红烧肉,顶多只能做个青菜面、西红柿炒蛋。食材不对,再努力也白费;数据不对,ai再先进也没用。
咱们再讲个真实的行业案例,更能说明问题。之前有个外卖平台,想让ai预测用户的“点餐偏好”,比如用户平时喜欢吃辣还是吃甜,喜欢吃米饭还是面条,这样就能给用户推荐他们可能爱吃的外卖,提高下单率。
一开始,平台犯了个错:他们没收集用户的“点餐相关数据”,反而收集了用户的“购物数据”,比如用户在电商平台买了啥衣服、啥化妆品、啥日用品。他们觉得“购物偏好能反映点餐偏好”,结果预测准确率特别低——比如用户买了很多裙子,ai就推荐清淡的沙拉,可用户其实爱吃重口味的火锅;用户买了男士剃须刀,ai就推荐啤酒、烧烤,可用户其实是个素食主义者。
后来平台改了,开始收集用户的“历史点餐记录”(比如过去一个月点了5次川菜、3次麻辣烫)、“浏览记录”(比如在平台上看了很多家汉堡店,虽然没下单)、“收藏记录”(比如收藏了好几家甜品店),这些都是跟“点餐”直接相关的数据。结果一改,ai的预测准确率立刻提升了40%——用户之前常点麻辣烫,ai就推荐同类型的冒菜、麻辣香锅;用户收藏了甜品店,ai就推荐那家店的新品蛋糕,用户下单率也跟着涨了。
这事儿就充分说明:数据的“相关性”比“量”更重要。就算数据量不大,但只要跟任务相关,ai也能学准;要是数据不相关,就算量再大,也是白费功夫。就像咱们学生考试,要是复习的时候只看跟考试无关的书,比如考数学,却看了一堆语文小说,就算看再多,数学也考不好;只有看数学课本、习题册,才能考出好成绩,ai也是这个道理。
五、现在的大模型:靠万亿级数据,才成了“通才”
咱们现在常听人说“ai大模型”,比如gpt-4、文心一言,这些大模型跟之前的ai不一样,它们像“通才”一样,能做很多事情——能写文章、能做ppt、能翻译外语、能帮人改代码,甚至还能跟人讨论哲学问题。为啥它们这么厉害?核心原因还是“数据”——它们背后有万亿级别的数据支撑。
之前的ai,比如咱们说的语音助手、早期的图像识别ai,大多是“专才”,只能做一件事:语音助手只能听说话、执行简单指令,没法写文章;图像识别ai只能认图片,没法翻译。因为它们背后的数据量不够大,而且类型单一——语音助手只有语音数据,图像识别ai只有图片数据,所以只能学一样技能。
但大模型不一样,它们的“知识库”特别全。开发者会给它们喂各种各样的数据:有全世界的书籍、论文,比如《红楼梦》《哈利·波特》,还有物理、化学、生物的学术论文;有网上的新闻、博客、论坛帖子,比如人民日报的新闻、知乎上的问答、微博上的话题讨论;还有图像、音频、视频数据,比如成千上万张风景照、音乐片段、电影片段。这些数据加起来,量级达到了“万亿级”——你可以理解成,相当于给大模型读了几千亿本书,看了几万亿张图,听了几万亿段声音。
有了这么多、这么全的数据,大模型才能像“通才”一样,啥都会一点。比如你让它写一篇关于“环保”的文章,它能从之前学过的环保论文、新闻里提取信息,组织成通顺的文字;你让它翻译一段英语,它能从学过的双语资料里找到对应的中文表达;你让它帮你改代码,它能从学过的编程教程、代码案例里找到错误,给出修改建议。
要是没有这么多数据,大模型也成不了“通才”。比如给它的数据只有中文书籍,没有英语资料,那它就没法翻译英语;给它的数据只有小说,没有编程资料,那它就没法改代码。就像一个人,要是只读过语文书,没读过数学、英语、物理书,那他只能会语文,其他科目都不会;只有读了各种各样的书,才能成为“全才”,大模型也是这个逻辑。
六、总结:数据是ai的“血液”,没它ai就“活”不了
咱们聊到这儿,相信大家都明白数据对ai有多重要了。最后咱们再总结一下:
数据就像ai的“粮食”,没有粮食,ai就没法“吃饭”,更没法“干活”;数据也像ai的“血液”,贯穿了ai从研发到应用的全过程——研发ai的时候,需要用数据让ai“学习”;ai投入使用后,还需要不断用新数据让ai“更新知识”,比如语音助手得不断收集新的语音数据,才能听懂更多人的话;大模型得不断收集新的书籍、新闻数据,才能知道最新的信息,比如“今年的世界杯冠军是谁”“最新的科技发明是什么”。
要是没有数据,ai就只是一个没有灵魂的程序,就算算法再先进,也啥都做不了。就像一辆没有油的汽车,就算车再贵、配置再好,也开不动;ai没有数据,就算技术再厉害,也没法发挥作用。
现在ai技术越来越普及,咱们生活里到处都是ai——刷视频的时候,ai会推荐你喜欢的内容;买东西的时候,ai会推荐你可能想买的商品;看病的时候,ai能帮忙识别ct片里的异常。这些ai能正常工作,背后都是海量数据在支撑。
所以下次再用ai的时候,别只觉得它“厉害”,也可以想想:它背后得有多少数据,才能帮我做这些事情?正是因为有了这些“数据粮食”,ai才能不断进步,给咱们的生活带来更多方便。