数据建模必知的六⼤步骤
前⾔
数据建模必知六⼤步骤
数据建模,通俗地说,就是通过建⽴数据科学模型的⼿段解决现实问题的过程。数据建模也可以称为数据科学项⽬的过程,并且这个过程是周期性循环的。
数据建模的具体过程可分为六⼤步骤,如下图所⽰:
⼀、制订⽬标
制订⽬标的前提是理解业务,明确要解决的商业现实问题是什么?
如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是⼀个要解决的现实问题。
⼆、数据理解与准备
基于要解决的现实问题,理解和准备数据,⼀般需要解决以下问题:
需要哪些数据指标(即特征提取)?(如:哪些指标能区别真粉和假粉?)
数据指标的含义是什么?
数据的质量如何?(如:是否存在缺失值?)
数据能否满⾜需求?
数据还需要如何加⼯?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)探索数据中的规律和模式,进⽽形成假设。
需要注意的是,数据准备⼯作可能需要尝试多次。因为在复杂的⼤型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推翻,这时⼀定要静⼼钻研,不断试错。
数据建模后需要评估模型的效果,因此⼀般需要将数据分为训练集和测试集。
三、建⽴模型
在准备好的数据基础上,建⽴数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等⾼深的算法。选择什么样的模型,是根据要解决的问题(⽬标)确定的。
kol是什么意思啊当然可以选择两个或以上的模型对⽐,并适当调整参数,使模型效果不断优化。
四、模型评估
模型效果的评估有两个⽅⾯:
⼀是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);
⼆是模型的精确性(误差率或者残差是否符合正态分布等)。
如:在识别KOL假粉的问题中,需要评估的是:
模型能否识别出假粉?识别的误差率是多少?粉丝识别误差率=(假粉误认为真粉的数量+真粉误认为假粉的数量)/总粉丝数
五、结果呈现
结果呈现主要关注以下三个⽅⾯:
模型解决了哪些问题?解决效果如何?如何解决问题?具体操作步骤是什么?
六、模型部署
通过⼤量数据解决了⼀个或多个重要的现实问题,需要将⽅案落实下去,⼀般情况下需要通过线上技术环境部署落实,从⽽为后⾯不断优化模型、更好地解决问题打下基础。
交由⼯程⼈员部署技术环境,需要数据建模团队撰写需求⽂档,并确保⼯程⼈员理解需求⽂档的内容,才能达到较好的模型部署效果。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论