数据挖掘:从海量数据里“淘金子”的技术(1/2)
咱们先从一个生活场景切入:你打开购物app,首页立马弹出“猜你喜欢”的商品;刷短视频时,系统总能推你爱看的内容;银行办信用卡时,几分钟就告诉你“审核通过”——这些背后,都藏着“数据挖掘”的影子。
有人说数据挖掘是“用电脑给数据算命”,也有人说它是“在数据垃圾堆里找宝藏”。其实都对,却又不全对。简单讲,数据挖掘就是用自动化的技术,从海量数据里挖出那些隐藏的、有用的规律和知识,就像考古学家从一堆泥土里筛出珍贵文物,只不过它挖的是“数据文物”。
接下来咱们就彻底掰扯明白:数据挖掘到底是啥、它和咱们常说的数据分析有啥不一样、挖数据要走哪些流程、有哪些核心“挖宝工具”、在生活里怎么发挥作用,全程不用专业术语,全是家常话。
一、先搞懂:数据挖掘到底是“啥玩意儿”?
要理解数据挖掘,得先拆清楚它的核心要素。就像学做饭得先懂“食材、工具、步骤”,搞懂数据挖掘也得从“挖什么、怎么挖、挖来干啥”这三个基本问题入手。
1. 挖的“原料”:不只是数字,还有各种“数据形态”
数据挖掘的原料就是“数据”,但这数据可不是简单的“1、2、3”,它就像一个大杂烩,啥样的都有。按“有没有固定格式”能分成两大类,咱们用“厨房食材”打比方就好懂了:
- 结构化数据:像切好的标准化食材
这类数据有明确的“格式规矩”,就像超市里按重量分装的净菜,拿过来就能直接用。比如excel表格里的“姓名、年龄、消费金额”,银行app里的“转账时间、金额、收款方”,这些数据都存在整齐的表格里,每一列的含义都清清楚楚。这是数据挖掘最常用的原料,处理起来最方便。
- 非结构化数据:像没处理的散装食材
这类数据没有固定格式,就像刚从菜市场买回来的带泥蔬菜,得先处理才能用。比如你发的朋友圈文字、刷的短视频、语音消息、医院的ct影像、电商评论区的吐槽,这些都是非结构化数据。它们占了现在数据总量的80%以上,挖起来更费劲,但藏的宝贝也更多。
不管是哪种数据,都得先“处理干净”才能挖。就像做饭前要洗菜、切菜,数据挖掘前也得把残缺的、错误的数据修好,把非结构化数据转成能分析的格式——这一步叫“数据预处理”,是挖宝的基础。
2. 挖的“目标”:找四种“宝贝”,解决实际问题
数据挖掘不是瞎挖,而是带着明确目标找“有用的规律”。这些规律主要分四种,覆盖了从“总结过去”到“预测未来”的全需求:
- 关联知识:发现“藏在一块的秘密”
就是找数据之间的“捆绑关系”,比如“买a的人大概率会买b”。最经典的例子是沃尔玛的“啤酒与尿布”——超市分析销售数据时发现,周末买尿布的男性顾客,有很多会顺便买啤酒。原来爸爸们买尿布时会给自己囤点酒,超市于是把两者放一起,销量立马涨了不少。咱们购物app的“买了又买”推荐,就是靠这招挖出来的。
- 分类知识:给数据“贴标签、分好坏”
先给已有数据贴好标签,再让电脑学会“给新数据贴标签”。比如垃圾邮件过滤:先告诉电脑“含‘中奖’‘汇款’的邮件是垃圾邮件”,电脑学完后,收到新邮件就能自动分类。银行审核信用卡也是如此,把“有逾期记录、收入不稳定”的客户标为“高风险”,新申请时就靠模型自动判断该不该通过。
- 聚类知识:给“同类数据”找组织
没有标签时,让电脑自动把“长得像”的数据归为一类。比如电商平台给客户分群:电脑分析“购买频率、消费金额、浏览偏好”后,会自动把客户分成“高频高消的vip”“偶尔买打折品的性价比用户”“只逛不买的潜力客户”,商家再针对不同群体搞促销,比瞎撒网管用多了。
- 时序知识:从“时间线”里找趋势
分析按时间排列的数据,预测未来的变化。比如奶茶店分析过去一年的销售数据,发现“夏天芒果味卖得最好,冬天热可可销量暴涨”,还能预测明年夏天大概要备多少芒果原料;股票分析软件里的“涨跌预测”,本质也是用这种方法挖时间数据里的规律。
3. 挖的“本质”:不是“分析数据”,是“发现新知”
很多人会把数据挖掘和数据分析搞混,其实两者差得老远。咱们用“侦探破案”来对比,一下子就能分清:
数据分析的核心目标是解释“过去发生了啥”,靠人主导,用统计、图表找答案,结果是明确的结论,比如“上月销量涨了20%”,典型场景是老板问“为啥上月销量下滑了”。
而数据挖掘的核心目标是发现“隐藏的规律”、预测“未来会发生啥”,靠算法自动挖,电脑自己找规律,结果是模型或规则,比如“买a的人70%买b”,典型场景是老板问“怎么让下月销量涨起来”。
举个具体例子:奶茶店老板看销售表,发现“上月珍珠奶茶卖了1000杯,原味奶茶卖了500杯”——这是数据分析,只说明了“事实”;但通过数据挖掘发现“买珍珠奶茶的顾客,80%会加冰,且多在下午3点下单”——这是挖出了“规律”,能直接用来调整备料和促销策略。
简单说,数据分析是“总结报告”,数据挖掘是“寻宝指南”。两者常常配合着用:先靠数据分析摸清基本情况,再用数据挖掘挖深层规律。
二、拆流程:数据挖掘的“六步挖宝法”,一步都不能少
数据挖掘不是“拿到数据就直接挖”,而是一套环环相扣的流程,就像做饭要“备菜→炒菜→装盘→试味”,少一步都可能出问题。标准的流程有6步,是个“发现问题→解决问题→优化问题”的闭环。
1. 第一步:明确目标——知道“要挖啥宝贝”
挖宝前得先想清楚“要找啥”,不然对着海量数据只会无从下手。这一步得结合“业务需求”,不能瞎定目标。
比如电商平台要搞促销,目标不能是“挖点客户数据”,得具体到“找出哪些客户最可能买新品,以及他们喜欢啥促销方式”;医院搞数据挖掘,目标得是“通过病历数据找出糖尿病的高危因素”,而不是笼统的“分析病人数据”。
目标越具体,后面的步骤越有方向。要是这一步含糊,后面挖得再卖力,也可能挖出一堆没用的东西。
2. 第二步:数据获取——把“原料”凑齐
明确目标后,就该收集需要的数据了。就像做红烧肉要备五花肉、酱油、糖,挖不同的规律需要不同的数据。
数据来源主要有两种:内部数据和外部数据。内部数据是自己家有的,比如电商的“用户浏览记录、订单数据”,医院的“病历、检查报告”;外部数据是从外面找的,比如天气数据、行业报告、第三方平台的用户画像数据。
比如奶茶店想预测销量,需要的内部数据是“过去半年的销售记录、促销活动记录”,外部数据可能是“当地的天气数据、周边学校的放假时间”——这些数据凑在一起,才能挖准规律。
3. 第三步:数据预处理——给“原料”做清洁
这是最耗时也最关键的一步,就像洗菜时要摘掉烂叶子、洗掉泥沙,不然炒出来的菜会难吃。原始数据里全是“坑”,比如:
- 数据缺失:表格里有的“年龄”栏是空的,“消费金额”没填;
- 数据错误:明明是“2024年”,却填成了“1924年”;
- 数据重复:同一个用户的信息重复录了3遍;
- 格式混乱:有的“手机号”带括号,有的纯数字。
预处理就是解决这些问题:空的信息要么补上(比如用平均年龄填),要么删掉;错误的数据修正过来;重复的删掉;格式统一成一样的。对非结构化数据,比如客户评论,还要把文字转成电脑能懂的“关键词”(比如“太甜了”转成“甜度差评”)。
很多人觉得这步麻烦,但业内有个说法:“数据预处理占了数据挖掘工作量的70%”。要是数据没处理干净,后面挖出来的规律全是错的——就像用坏菜做饭,再厉害的厨子也做不出好菜。
4. 第四步:特征工程——给“原料”做切配
预处理后的 data 还是“大杂烩”,得把里面“有用的部分”挑出来、加工好,这就是“特征工程”。“特征”就是数据里的关键信息,比如分析客户是否买东西,“年龄、消费频率、浏览时长”都是特征,而“客户的名字”基本没用。
这一步主要做两件事:
- 特征选择:删掉没用的特征,比如选“消费频率”而不是“名字”;
- 特征构造:把现有特征组合成新的有用特征,比如把“消费金额÷购买次数”变成“单次平均消费”,这比单独看两个数更有用。
就像做鱼香肉丝,得把肉切成丝、菜切成丁,而不是整块丢进锅。好的特征能让后面的挖掘事半功倍,差的特征会让电脑“看走眼”。
5. 第五步:算法选择与模型训练——正式“挖宝”
这是数据挖掘的核心步骤,相当于“下锅炒菜”。根据要挖的目标选不同的“算法工具”,然后让电脑用数据“学”规律,这个“学”的过程就是“模型训练”。
比如要找“关联关系”,就用“apriori算法”;要“分类贴标签”,就用“决策树算法”;要“自动分群”,就用“k-means算法”。选好算法后,把预处理好的数据分成两部分:“训练集”(给电脑学的教材)和“测试集”(给电脑考的试卷)。
举个例子:用决策树算法做垃圾邮件分类。先把1000封标好“垃圾\/正常”的邮件当训练集,电脑学完后,再用500封没标的邮件当测试集,看它能分对多少。如果分对率高,说明模型“学好了”;如果分错多,就得调参数重新学。
6. 第六步:结果评估与应用——“尝味道”和“端上桌”
挖完不能直接用,得先“验验成色”,这就是结果评估。常用的评估标准有“准确性”(对的比例)、“召回率”(该找出来的都找出来了吗)等。比如垃圾邮件模型,准确性95%意味着100封里分对95封;召回率90%意味着100封垃圾邮件里找出了90封。
评估通过后,就能把结果用在实际业务里了:比如把“客户分群”的结果给销售,让他们针对性促销;把“欺诈检测”的模型装到银行系统里,实时监控异常交易。
而且这不是一劳永逸的,得定期回头看:比如过了半年,客户偏好变了,就得重新挖;模型准确率下降了,就得用新数据重新训练。所以数据挖掘是个“挖→用→再挖”的循环过程。
三、讲工具:数据挖掘的“五大挖宝神器”,用例子说清楚
数据挖掘的算法有几十种,但最常用的就五种,像挖宝的五件工具:有的擅长找关联,有的擅长分群,各有各的本事。咱们用生活例子讲,不用公式也能懂。
1. 关联规则挖掘:找“搭子”的神器,代表算法“apriori”
这是最接地气的算法,专门找“经常一起出现的东西”,核心是算两个数:支持度(两样东西一起出现的频率)和置信度(买了a之后买b的概率)。
举个例子:超市分析1000笔订单,发现“买面包的有200笔,买牛奶的有150笔,面包和牛奶一起买的有100笔”。
- 支持度=100\/1000=10%(说明两者一起买的频率不低);
- 置信度=100\/200=50%(说明买面包的人里有一半会买牛奶)。
如果这两个数都超过设定的标准(比如支持度≥5%,置信度≥40%),就形成一条关联规则:“买面包→买牛奶”。超市就可以把牛奶放在面包区旁边,促进销量。
实际用处:除了超市货架摆放,电商的“商品推荐”(买手机壳推手机膜)、外卖的“套餐搭配”(点汉堡推可乐),都是靠这个算法挖出来的。
优点:简单易懂,能直接落地;缺点:数据量大时算得慢,容易挖出“没用的关联”(比如“买牙刷的人多买牙膏”,这是常识,不用挖)。
2. 分类算法:贴“标签”的神器,代表算法“决策树”
分类算法就像“教电脑做选择题”,先给它看“带答案的题目”,学完后自己给“新题目写答案”。决策树是最直观的分类算法,长得像一棵倒过来的树,每一个分叉都是一个判断条件。
举个例子:用决策树给“贷款申请人”分类(通过\/拒绝)。
- 先看“年收入是否≥10万”:是→再看“有无逾期记录”;否→直接拒绝;
- 有逾期记录→再看“逾期次数是否≤1次”:是→通过;否→拒绝;
- 无逾期记录→直接通过。
电脑学完这棵“树”后,遇到新申请人,顺着分叉一路判断,就能自动给出“通过”或“拒绝”的结论。
实际用处:垃圾邮件过滤、信用卡审核、疾病诊断(根据症状判断是否患病),都常用决策树。
优点:过程看得见,能解释“为啥这么判断”;缺点:遇到复杂数据容易“学偏”(比如只记住个别案例)。
3. 聚类算法:找“同类”的神器,代表算法“k-means”
聚类算法是“无师自通”的高手,不用给标签,能自动把“相似的数据”聚成一堆。k-means是最常用的,“k”就是想分的组数。
举个例子:电商用k-means给1000个客户分群,设k=3(分3类)。
1. 先随机选3个“种子客户”当临时的“群中心”;
2. 算每个客户到3个中心的“距离”(距离越近越相似,距离用“消费金额、购买频率”等算);
3. 把客户分到最近的群里,然后重新算每个群的“新中心”(比如群里所有人的平均消费金额);
4. 重复2、3步,直到中心不再变,最后分出3个群:
- 群1:高消费、高频次(vip客户);
- 群2:中消费、中频次(稳定客户);
- 群3:低消费、低频次(潜力客户)。
实际用处:客户分群、新闻分类(把“体育新闻”自动归到一类)、异常检测(把和大多数数据不一样的“ outliers ”挑出来,比如信用卡盗刷)。
优点:速度快,适合大数据;缺点:得先确定k值(分几组),选不好结果就差,而且对“异常数据”很敏感。
4. 回归算法:算“趋势”的神器,代表算法“线性回归”
回归算法专门处理“数值预测”问题,比如“预测下个月销量多少”“预测房价多少”。线性回归最简单,核心是找“数据里的直线趋势”。
举个例子:奶茶店想预测“气温和销量的关系”。
- 收集数据:气温20c时销量500杯,25c时600杯,30c时700杯;
- 画成图会发现,气温每涨5c,销量涨100杯,能画出一条直线;
- 这条直线就是“回归模型”,用它能预测:35c时销量大概800杯。
实际用处:销量预测、房价预测、股价走势分析、用电量预测,都离不开回归算法。
优点:计算简单,结果直观;缺点:只能处理“线性关系”,遇到复杂情况(比如销量随气温先涨后跌)就没用了。
5. 神经网络算法:解“复杂题”的神器,代表“深度学习模型”
这是现在最火的算法,模仿人脑的神经结构,由无数个“节点”组成网络,能处理超复杂用大白话讲透
(接上文)
的数据,比如图像、语音、文本。
举个例子:用神经网络识别“ct片里的肿瘤”。
本章未完,点击下一页继续阅读。