大数据和数据科学的挑战丨国政学人
大数据和数据科学的挑战丨国政学人
作品简介 
作者:Henry E. Brady,加州大学伯克利分校高盛公共政策学院院长,政治学教授。
编译:钱靓(国政学人编译员,上海外国语大学)
来源:Brady, H. E. (2019). The Challenge of Big Data and Data Science. Annual Review of Political Science, 22(1), 297–323. /10.1146/annurev-polisci-090216-023229
归档:《国际关系前沿》2022年第1期,总第40期。
内容摘要
大数据和数据科学在各方面都对世界产生造成变革,引发中国社会科学家新的关注。这些方面包括互联网对公民和媒体的冲击、智慧城市的影响、网络战和网络恐怖主义的可能性、精准医学的潜在影响以及人工智能和自动化的后果。伴随着这些社会变化,学界开始使用新的数据科学方法研究行政数据、网络数据、文本数据和传感器-音频-视频数据。蓬勃发展的大
数据和创新性的研究方法提供了从数据中提炼概念、进行描述性推断、得出因果推论和形成预测的新方式,而这有助于回答在此前难以解决的社会问题。不过这些大数据和研究方法也带来了挑战:在政策制定者采用例如动员选民或决定保释算法等方法进行研究时,他们必须掌握复杂算法中的概念及预测的具体含义,权衡预测与因果推理的相对价值,并且应对伦理挑战。
文章导读
近年来,“大数据(big data)”和“数据科学(data science)”频繁出现在媒体、学术期刊及政府报告中,相关技术也得到了政府、学界和社会的高度关注。大数据、数据科学以及与之相关的人工智能、网络基础设施和机器学习等概念为政治学带来了深刻的变化,引领了以下发展趋势。
第一,大数据和数据科学将引发社会及政治变革。由政府、军队、企业、非盈利组织和个人生成并为其所用的大容量、高速、多样与高精确性的数据、大幅提升的计算能力及经改善的数据科学方法一同从根本上改变了社会。大数据和数据科学创造了新的社会现象,并且提出了关于操控民众、隐私、信息真实性、工作的未来等基本问题以及其他许多对政治
学家而言很重要的话题。
第二,科学家(包括政治科学家)可获取的数据量显著增加,为自然科学和社会科学提供了新的研究机遇。如今,政治科学家可以观察和分析人们选择消费的信息、政治行为者提供的信息、人们的生活环境及其生活许多其他方面的信息。
第三,政治科学家可以以新的方式开展工作。面对大量数据的冲击,政治科学家可以通过掌握便于访问、管理、清理、分析和存档数据的新技术重新思考自己应怎样进行政治科学研究。
第四,政治科学家需提出新问题,即重新思考构造概念、描述、因果推理和预测所要达成的目的。这一过程中,他们将重新解读政治行为,提出关于政治机构的新设计。
第五,政治科学家需处理与政治科学研究相关的伦理问题,他们需要思考包括信息的获取、使用和传播以及避免研究模型和结果的误用在内的复杂伦理问题。
01
大数据在容量、速度和类型方面的持续增长
大数据革命基于四大显著趋势。第一,数据数字化。随着记录社会事件的数据大量出现,数字通讯正在取代模拟通讯,数据可以被计算机存储和处理。第二,连接普遍化。如今已经可以记录特定事件,并与特定参与者相关联,这种点对点的电讯比广播更容易被追踪。数据数字化和连接普遍化意味着学者可以在现在鉴别并研究以往短暂发生的事件。第三,环境网络化。以前的通讯属于“一对一(如电话)”或“一对多(如广播)”的传播模式,但如今的通讯还包括结合了上述两种传播模式的社交网络;新的通讯模式可能以不同的方式影响政治、市场和文化,甚至可能因通讯构建的网络不接受异见而加剧政治极化。第四,数据由计算机编辑的趋势。计算机不仅仅是信息传递的媒介,也是创作信息、影响通讯内容的平台。传统的通讯总是试图以尽可能“真实”的方式传输信息,但是计算机可以通过程序将信息重新组合并进行新的输出。
02
大数据、数据科学的定义及其引发的社会和政治变化
有关大数据的定义,除了庞大的数据量,大数据革命的真正显著特征体现在记录、连接、网络化与创建信息的新技术上。人们通过电话、邮件、社交网站等技术进行信息交流,这
些交流的时间、地点都被数字化地记录下来了,并且能够储存更长时间。互联网成为了社交网络和信息访问的绝佳站点,计算机生成信息并与人产生交互——如人工智能和虚拟现实,此时的大数据已经深入了人们生活的方方面面。因此,大数据的真正影响在于它改变了人们的认知环境,需要人们用新视角来看待数据数字化、连接普遍化、环境网络化和计算机生成信息的趋势;而这些趋势源于包括数据科学领域在内的技术新发展。
有关数据科学的定义,数据科学应该包含7种活动,它们分别为(参见下图):数据收集、准备及挖掘;数据表示和转换;数据计算;数据建模;数据可视化呈现;数据归档、索引、搜索和数据治理;对数据科学学科本身的研究。因此,大学需要专门从事数据科学的学者和技术人员完成相关工作,以帮助学生和大学学者使用数据科学。
大数据和数据科学发展迅速,其概念和特征需要重新审视。随着科技创新和发展,信息革命的涉及面还在增多,但对它的研究还远远不足。
大数据及数据科学造成的影响是深远的,这些影响包括网络战的爆发、城市生活方式的改变、精准医疗的发展、大众传媒以及其对政治极化的催生作用。同时,人们也须注意到各国滥用人口普查和其他信息的可能性及相应后果,因为大数据使得社会、企业和政府有能
力访问权限外的大量数据集,因此人们需关注数据的拥有者及有权收集和使用数据的决定者的权力。另外,人们需应对大数据运用过程中产生的一系列情况,包括黑客入侵信息系统或受到病毒攻击、算法在医疗诊断或城市运营时失效,此外还需要解决算法偏见、数据治理的正确方式、正当权利和福利等问题,并确保在没有同行评议的编辑能力、新闻规范、真实性保证下创作、传播新闻和信息。除此之外,人工智能(包括机器人)的伦理问题、就业问题和未来发展问题也需要关注。
03
大数据引起的政治科学研究新现象
A. 数据源的扩大
不断扩大的数据源有益于社会科学研究。新增的数据主要包括行政数据、网络数据、文本数据、传感器-音频-视频数据。
行政数据包括投票、游说、竞选捐款、贸易、税收、福利、警方报告、311美国非紧急求助电话等领域的大规模数据集,但这些数据集可能存在错误。此外,为了获得代表不同领域
并有足够案例进行分析的数据集,研究需要更多人间、跨组织或不同事件之间的广泛联系,而这意味着需要能够处理更多不同形式和变量数据的整合分析方式。曾有学者利用不同个人、组织、事件的数据间的广泛联系开展研究以扩大单一数据集的研究效用,但不同数据集创建时的名称、地点和其他信息的不匹配可能会使这种广泛联系失效。行政数据提供的数据一般是事实数据,而并非预测数据,如只能通过竞选捐款贡献数据得知哪些人曾为竞选捐献过,而无法得知谁将会捐款。解决方法之一是将这些数据与人口数据联系起来,如人口普查数据或机动车牌照数据,但这样的联系会存在法律和实际操作问题,而且这些人口数据也可能并非最佳标准数据。
>大数据要学什么

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。