大数据与统计学分析方法比较
大数据与统计学分析方法比较
基于理念分析和比较讨论方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。
随着信息技术的日益进展与普及,信息以及数据在社会经济进展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上进展而来的实证统计方法是当前的主流,这些方法可以关心数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策供应理论支撑和方法支持。然而,传统的实证统计方法在最新消失的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模〔甚至是总体〕数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区分,然后才能够确定是否可以应用既有统计学理论和方法来处理某些大数据问题。
1、大数据的界定
依据一位美国学者的讨论,大数据可以被定义为:it means data that’s too big, too fast, or too hard f
or existing tools to process。也就是说,该学者认为:在关于大数据的全部定义中,
他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大〔Volume〕;二是流淌性大〔Velocity〕,典型的如微博;三是种类多〔Variety〕,多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大〔Value〕,这些大规模数据可以为持有企业或者组织制造出巨大的商业或社会价值。
Victor在其最新著作《大数据时代——生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的全部数据,而不是依靠分析少量数据样本;要总体,不要样本。其次,要乐于接受数据的纷繁冗杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应当更加注意相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的许多关联以及主要不同。因此,下面我们分别针对两者的联系和区分进行商量。
2、大数据与统计学分析方法的联系
从18世纪中叶至今,统计学已经经受了两百多年的进展历程,不管是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的`事物规律认知和挖掘思维,也将会对人类的价值体系、学问体系和生活方式产生重要影响,甚至引发重大转变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。
〔1〕挖掘事物规律的基本思想全都。统计学〔statistics〕探究事物规律的基本方法是:通过利用概率论建立数学模型,收集所观看系统的数据,进行量化分析和总结,做出推断和预报,为相关决
策供应根据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在特别多的领域和特别深化的层次获得和使用全面数据、完好数据和系统数据,深化探究现实世界的规律,猎取过去不行能猎取的学问。通过这两个定义可以看出,不管是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及进展趋势的。
〔2〕均采纳量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不管是传统统计学中所应用的数据〔定性和定量数据〕,还是大数据时代即将被转化和采纳其他形式数据〔如文字、图像等〕,最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与进展趋势。
3、大数据与统计学分析方法的区分
〔1〕基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特殊现象相关的全部数据,而不再依靠于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,改变速度快,而且数据来源、类型、收集方法都有根本性改变。
①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的全部数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够把握的事“小数据量”。这种状况下,由于需要分析的数据很少,所以必需尽可能精确的量化我们的
数据。综上,大数据状况下,分析人员可以拥有大量数据,因此不需要对一个现象刨根问底,只需要把握事物大体的进展方向即可;然而传统的小数据状况下则需要非常留意所获得数据的精确度。大数据要学什么
②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加简单和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的大事都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
〔2〕分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:〔基于文献〕提出理论假设—收集相关数据并进行统计分析—验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探究世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的讨论始于数据,并可以发觉以前不曾发觉的联系。换言之,大数据背景下,探究事物规律的范式可以概括为:数据观看与收集——数据分析——描述事物特征/关系。
〔3〕数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征消失的概率。
〔4〕分析视角不同。传统的实证统计意在弄清事物之间的内
在联系和作用机制,但大数据思维模式认为因果关系是没有方法验证的,因此需要关注的是事物之间的相关关系。大数据并没有转变因果关系,但使因果关系变得意义不大,因此大数据的思维是告知我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能精确地告知我们某大事为何会发生,但是它会提示我们这件事情正在发生,因此相关关系的发觉就可以产生经济和社会价值了。
4、结语
综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的全部数据,而不是依靠分析捎来能够的数据样本;其次,讨论人员应乐于接受数据的纷繁冗杂,而不再追求精确性;最终,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和进展完善过程中,需要结合以上转变所产生的挑战,思索有效的统计学进展对策。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。