⼤数据分析与挖掘
第⼀章绪论
1.1 ⼤数据分析与挖掘简介
1. ⼤数据的四个显著特点:容量(Volume)、多样性(Variety)、速度(Velocity)、价值(Value)
2. 数据挖掘提取出的知识⼀般可表⽰为:概念、规则、规律、模式等形式
1.3 ⼤数据分析与挖掘的主要技术
1. ⼤数据分析与挖掘的主要步骤:(1)任务⽬标的确定(2)⽬标数据集的提取(3)数据预处理 (4)建⽴适当的数据分析与挖掘模
污污的段子让女生起反应的话型(5)知识的应⽤
2. 数据挖掘主要包括如下功能:(1)对数据的统计分析与特征描述(2)关联规则挖掘和相关性分析(3)分类和回归(4)聚类分
析(5)异常检测或者离点分析
第⼆章数据特征分析与预处理
2.1 数据类型
1. 数据集类型:结构化数据、半结构化数据
2. 数据属性的类型:标称属性、序数属性、数值属性
2.2 数据描述性特征
2.2.1 描述数据集中趋势的度量
1. 算术平均数
2. 中位数个人住房贷款条件
3. 众数
4. k百分位数
5. 四分位数
2.2.2 描述数据离中趋势的度量
1. 极差
2. 四分位数极差
2.2.3 数据分布形态的度量
峰度⽤于衡量数据的平坦度
k≈0,称为常峰态
k<0,称为低峰态
k>0,称为尖峰态
2.2.4 数据分布特征的可视化
箱型图
2.3 数据的相关分析
2.3.1 相关分析
散点图
相关系数 0<r≤1,表明X和Y之间存在正线性相关关系;-1≤r<0,表明X和Y之间存在负相关关系;r=0,表明X和Y之间吧不存在线性相关关系,但并不排除⼆者之间存在⾮线性相关性
2.4 数据预处理
零均值化,零均值化的过程就是在空间中沿着各个属性的坐标,对数据进⾏平移使均值为零的过程
z分数变换适⽤于数据的各个属性值差异较⼤,或者数据挖掘算法假设数据服从正态分布的情况下
z分数的缺点在于假设原始数据并没有呈⾼斯分布,标准化的数据分布效果并不好
独热编码
缺点:当数据类别的数量很多时,特征空间会变得⾮常⼤
2.4.4 数据清洗
护肤完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的⽆偏性,如家庭地址缺失;举例:⼀位⽼师抱着批改完的卷⼦⾛在路上,不⼩⼼摔倒丢失了⼏张卷⼦,因此有⼏位同学没有成绩。这种成绩缺失不是因为成绩这个变量本⾝⾼或低⽽丢失的,⽽是随机丢失的;也与性别等⽆关,不会出现男⽣卷⼦丢失概率⾼,⼥⽣卷⼦丢失概率低的问题。
随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失情况与企业的⼤⼩有关;举例:我们的⽬标是要统计⼀个班学⽣的基本信息,包括名字、性别、⾝⾼、体重等。⽽此时如果某⼀学⽣的体重这⼀变量缺失,这⼀事件最可能发⽣在哪些⼈⾝上呢?⼀般来说,是⼥⽣。因此体重缺失与已知变量性别相关,这就叫做条件随机缺失。
⾮随机缺失(missing not at random,MNAR):指的是数据的缺失与不完全变量⾃⾝的取值有关,如⾼收⼊⼈不原意提供家庭收⼊; 举例:通常在收集数据时收⼊⼀栏很容易缺失,发⽣这种情况的原因可能是填写⼈收⼊过⾼或过低。因此收⼊缺失与填写⼈本⾝收⼊有关,这就叫做⾮随机缺失。
均值填充法:如果缺失值是数值型,就⽤该属性在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是⾮数值型,则使⽤众数补齐该缺失的变量值。
毕业个人鉴定等宽分箱法:
第三章关联规则挖掘
开机按f13.1 基本概念
摊煎饼在⼀个事务集合T中,项集X在T中出现的次数就是项集X⽀持度计数
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论