大数据:大数据课堂之概念学习29篇(建议收藏)
大数据:大数据课堂之概念学习29篇(建议收藏)
1,什么是频数分布
频数也称“次数”,对总数据按某种标准进行分组,统计出各个组内含个体的个数。我们把各个类别及其相应的频数全部列出来就是“频数分布”或称“次数分布”。
频数分布的类型
在日常生活和经济管理中,常见的频数分布曲线主要有正态分布(对称分布)、偏态分布(skewed distribution)、J形分布、U形分布等几种类型,如下图所示:
正态分布是一种对称的钟形分布,有很多现象服从这种分布,如农作物的单位面积产量、零件的公差、纤维强度等都服从正态分布,如图(a)。J形分布有正J形和反J形两种,如经济学中供给曲线,随着价格的提高供给量以更快的速度增加,呈现为正J形;而需求曲线则表现为随着价格的提高需求量以较快的速度减少,呈现为反J形。U形分布的特征是两端的频数分布多,中间的频数分布少,比如,人和动物的死亡率分布就近似服从U形分布,因为人口中婴幼儿和老年人的死亡率较高,而中青年的死亡率则较低;产品的故障率也有类似的分布。
频数分布的特征
频数分布的两个特征:集中趋势(central tendency)和离散趋势(tendency of dispersion)。
1、集中趋势
大部分观察值向某一数值集中的趋势称为集中趋势,常用平均数指标来表示,各观察值之间大小参差不齐。
2、离散趋势
频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,可用一系列的变异指标来反映。
2,什么是费雪指数
费雪指数是美国统计学家欧文·费雪((Irving·Fisher)于1911年提出的。费雪指数是指拉氏指数和派氏指数的几何平均数,主要用于对指数公式的测验,以及调和拉氏与派氏两种指数的矛盾,又被称为“费雪理想指数”。
费雪还提出了评价指数优劣的三项测验标准:
1.时间互换测验标准。报告期对基期的指数和基期对报告期的指数的乘积应等于1。
2.因子互换测验标准。物价指数和特量指数的乘积应等于其总量指数。
3.循环测验标准。环比指数的乘积等于相应的定基指数。
大数据要学什么极少的综合指数能够通过费雪提出的测验标准,而费雪提出几何平均的指数公式可以通过前两项测验,因此费雪将其称为理想公式。
费雪指数的公式
其价格指数和物量指数公式如下:
价格指数:
物量指数:
费雪的价格指数在一些国际对比应用较多。例如不少国家人均国民生产总值,就是借用价格指数,运用货币购买力平价指数法计算的;又如联合国编制的地域差别生活费指数,也采用了价格指。
3,什么是区间估计
区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的。
用样本指标来估计总体指标,要达到100%的准确而没有任何误差,几乎是不可能的,所以在估计总体指标时就必须同时考虑估计误差的大小。从人们的主观愿望上看,总是希望花较少的钱取得较好的效果,也就是说希望调查费用和调查误差越小越好。但是,在其他条件不变的情况下,缩小抽样误差就意味着增加调查费用,它们是一对矛盾。因此,在进行抽样调查时,应该根据研究目的和任务以及研究对象的标志变异程度,科学确定答应的误差范围。
区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。
抽样误差范围决定抽样估计的准确性,概率保证程度决定抽样估计的可靠性,二者密切联系,但同时又是一对矛盾,所以,对估计的精确度和可靠性的要求应慎重考虑。
区间估计的方法
在实际抽样调查中,区间估计根据给定的条件不同,有两种估计方法:①给定极限误差,要求对总体指标做出区间估计;②给定概率保证程度,要求对总体指标做出区间估计。
例1:某企业对某批电子元件进行检验,随机抽取100只,测得平均耐用时间为1000小时,标准差为50小时,合格率为94%,求:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。