大数据--学习笔记
第一章 引论
1、什么是数据挖掘?
数据挖掘更正确的命名为“从数据中挖掘知识”,是数据中的知识发现(KDD)的同义词。数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据。
2、大数据要学什么知识发现的过程是什么?
知识发现的过程为:
(1)数据清理(消除噪声和删除不一致的数据)
(2)数据集成(多种数据源可以组合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
(5)数据挖掘(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
3、什么类型的数据可以挖掘?
数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、数据仓库数据、事务数据。也可以用于数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。
(1)数据库数据
由一组内部相关的数据和一组管理和存储数据的软件程序组成。关系数据库是表的汇集,每个表被赋予一个唯一的名字,含有一组属性(列或字段),并且通常存放大量元组(记录或行)。每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系(ER)数据模型。
(2)数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库用称作数据立方体的多维数据结构建模。每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值
(3)事务数据
每个记录代表一个事务
4、什么类型的模式可以挖掘?
数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便进行预测。
(1)类/概念描述:特征化与区分
数据可以与类或概念相关联。数据特征化是目标类数据的一般特性或特征的汇总。将数据汇总和特征化的方法:基于统计度量和图的简单数据汇总、基于数据立方体的OLAP上卷操作、面向属性的归纳技术。数据特征的输出可以用多种形式提供:饼图、条图、曲线、多位数据立方体、多维表;数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
(2)挖掘频繁模式、关联和相关性
频繁模式包括频繁项集(基础)、频繁子序列和频繁子结构。
(3)用于预测分析的分类与回归
    分类预测类别标号,而回归建立连续值函数模型。回归分析是最常用的数值预测统计学方法,相关分析可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。
(4)聚类分析
聚类分析数据对象,而不考虑类标号。
(5)离点分析
大部分数据挖掘都将离点作为噪声或异常而丢弃,然而在一些应用中可以做离点分析或异常挖掘
5、支持度与置信度
支持度表示事物数据库中满足规则的事物所占的百分比,置信度评估所发现的规则的确信程度。
 
准确率即被一个规则正确分类的数据所占的百分比,覆盖率类似于“支持度”表示规则可以作用的数据所占的百分比。
第二章 认识数据
1、数据对象与数据类型
数据对象又称样本、实例、数据点或对象,数据对象存放在数据库中,则他们为数据元组,即数据库的行对应于数据对象,列对应于属性。
属性:表示数据对象的一个特征(属性、维、特征、变量)
标称属性:一些符号或事物的名称(分类的或枚举的),标称属性可以取整数值,但是不能把它视为数值属性。
二元属性:是一种标称属性,只有两种状态,0或1,0通常表示该属性不出现,1表示出现。二元属性有对称与非对称两种。
序数属性:可能的值之间具有意义的序或秩评定,但是相继值之间的差是未知的。中心趋势可以用它的众数和中位数表示,但不能定义均值。
数值属性:定量的,用整数或实数值表示,数值属性可以是区间标度的或比率标度的。除了中心趋势度量中位数和众数之外,还可以计算均值。比率标度属性是具有固有零点的数值属性。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。