聊聊⽅法:在线民族志研究如何获取样本数据?社论前沿
引⾔:蓬勃发展的互联⽹环境为民族志研究提供了丰富的机会和素材,但⽬前研究并未完全展开,很重要的原因是⼀般性⽅法论的缺失,导致初期研究没有门路。专注于⼈和数据深层次信息挖掘的民族志研究者,常常感到被⼤量在线资源所压制,因此更多选择专注于⾮常⼩的在线样本。这篇⽂章试图通过对在线博客的系统性抽样⽅法的讨论,拓展在线定性研究⽅法的应⽤范围,并重点强调在初步调查中可能遇到的技术及伦理障碍,以及潜在的解决⽅法。
(这是社论团队第S615次推送)
号:shelunqianyan
在线研究:三种主流⽅法
1、⼤数据分析法(不再赘述);
2、传统定量分析法(不再赘述)。
直到世界尽头3、定性分析⽅法,这是民族志研究者利⽤在线⽹络进⾏研究时最常使⽤的⽅法。通常会使⽤地理上有界的社区(例如学校团体)作为在线研究的主体。定性⽅法也被运⽤到探索沉浸式和相对独⽴的虚拟世界
(例如魔兽世界)的民族志研究中,在这⾥研究者成为了参与者以及分析的镜头。此外⽤户在社交⽹站/平台上的⾏为研究是当前在线民族志研究的热点之⼀。然⽽,在这些研究中,多数并没有执⾏系统性的抽样⽅法,极⼤地影响到样本的代表性和分析结果的普遍性。以博客为例,主要的障碍在于,存在着多个博客平台互动(WordPress、Blogger等)和内容类型丰富等特点,造成传统抽样⽅法的不适⽤,⽬前研究者们普遍采取的缓解策略有:①缩⼩样本量;②使⽤其他的数据收集形式;③专注于对同⼀博客不同时间点的帖⼦的纵向分析;③采⽤滚雪球等⾮随机抽样⽅式。本⽂作者认为,这些⽅法并没有触及⽅法论本⾝,⽆法实现真正的抽样优化。
系统性抽样⽅法
研究通过对个案——美国减肥博客的民族志研究的数据抽样过程的介绍,提出了在线民族志研究实⾏系统性抽样的可⾏⽅案,重点聚焦于三个议题:1、在线质性研究中,可以使⽤怎样的系统抽样技术?2、系统抽样⾯临的技术障碍有哪些,以及应该如何克服?3、在线质性研究存在哪些伦理困境,研究⼈员可以采取哪些策略来应对?
过往研究指出,减肥话题的博客内容,⼀般可以由其选择的减肥⽅式不同⽽分为:节⾷、运动、⼿术等,并且博主选择博客记录的动机也存在着差异性:建⽴减肥社区相互激励督促、减肥成功后“炫耀”成果及传授秘笈等。同时,当前社会对肥胖者的刻板印象并未消除,很多博主通过⾃嘲式的幽默⼝吻来叙述⾃⼰的减肥历程,事实上是通过⾃我陈述的⽅式机智地建构着在线读者对其形象的认知。因此减肥⽅式的多样性,以及博主对这⼀过程的叙述风格,都带来了复杂⽽时有冲突的⽅法论和伦理挑战。
本⽂作者在进⾏这项研究时,⾸先在抽样之前建⽴了初步的包含和排除标准。挑选位置为居住在美国,或在“关于我”界⾯填写了国籍为美国的⽤户;另⼀个指标是仅收集那些直接参与减肥话题讨论、记录减肥进程、讨论肥胖耻辱等话题的博客,包含了⾃我认定为减肥博客和讨论过减肥话题的博客两类。因为选择了个⼈博⽂,⽽⾮博客账号本⾝作为分析单元,所以情况更为复杂样本。⽽具体抽样策略共有四个阶段,如下图所⽰:
黑龙江北开职业技术学院第⼀阶段,由研究者根据过往研究结论,列出与话题相关的⾼频关键词(⼈为判断),作为种⼦(seed),例如“体重歧视”、“节⾷餐单”等,使⽤Google对关键词进⾏搜索,⽣产⼀个⾮系统性的随机抽样样本。注意,这些词汇提供的⾮随机样本并不包含在最终样本中,仅⽤作试点分析,⽣成第⼆阶段⾄第四阶段数据收集/搜索所需的关键术语(经验数据⽀撑)。
第⼆阶段,基于第⼀阶段分析获得的12个⾼频术语,查询其在三⼤搜索引擎:Google、Bing和Yahoo中的分布情况,搜索引擎内及跨搜索引擎的重复结果仅记录⼀次。最终收集到112篇符合标准的博客⽂章。
第三阶段,在第⼆轮112篇博⽂基础上进⾏迭代搜索,使⽤purposive sampling (⽬的抽样)来扩展样本博客的多样性,尤其是性别、地理位置、宗教信仰及其他在过往研究中被认为是对肥胖和减肥态度有重要影响的⼈⼝学因素,第三轮收集的筛选标准与第⼆轮⼀致。尽管减肥在美国受到了⼴泛关注,但⼈们的表达即表达的关切程度是明显不同的,这也是采取⽬的抽样的原因。这⼀步骤中,⼜有86篇博⽂纳⼊到样本中。
第四阶段,使⽤DuckDuckGo对先前⽣成的搜索短语再进⾏⼀轮搜索。这是⼀款不会根据⽤户的⼈⼝统计信息或搜索历史来优化搜索结果的搜索引擎。⽬的在于验证前述抽样结果的代表性。在这⼀阶段⼜产⽣了36篇博⽂样本。
因此最终研究获取了来⾃234位不同博主的234篇博⽂。为了确保样本的多样性以及进⼀步的分析需要,同时收集了博主的地域即背景信息。
对234篇博⽂的数据分析,采取了 Bernard, Wutich, and Ryan (2016)的定性主题编码法(thematic coding methods)。同时,研究还收集了234个样本在2005-2015⼗年间的减肥主题的更新状况。收集了这10年1⽉和6⽉的相关博客条⽬(前者是新年计划,后者是进⼊到泳⾐季),通过纵向分析探讨了博主对体重和减重态度的变化。
⽅法/技术挑战
简单来说,这份研究采取的系统性抽样策略为:⽤“种⼦”搜索词来对在线⽂本进⾏抽样,⽣成经验性的搜索短语(1阶段);随后使⽤迭代抽样策略(2-4阶段),以确保样本的系统性和代表性。这之中遇到的技术障碍有:
1、搜索引擎本⾝算法的影响,也就是说搜索引擎呈现的结果排序可能并不仅仅依据研究给出的标准。例如基于Google 的搜索结果就可能受到其PageRank算法的影响,显⽰出系统频繁链接的内容优先级更⾼。此外,浏览器基于⽤户“历史浏览记录”优化推送搜索内容也会对研究样本的提取产⽣⼀定的影响,称之为“cookies”。研究的解决策略是引⼊第三⽅搜索引擎,例如DuckDuckGo来克服。
2、与搜索引擎算法相称的搜索词很难以经验性和系统性的⽅式⽣成。多义词、同义词和垃圾邮件等因素,使得构建相关的关键词⾮常困难。本⽂案例的策略是,⾸先使⽤关键词的⾮系统性和⾮正式性列表(例如减肥博客和体重歧视)作为“种⼦”来定位和分析第⼀轮博客⽂章。然后,这些博客帖⼦的内容⽤于创建⾃然语⾔和关键词所构成的搜索短语(例如“我的减肥⽃争”、“节⾷体验”等),这些来源于“经验数据”的搜索短语相较于原始的关键词(研究者列出的),更具统计科学性,同时为了过滤⽆效的⼴告⽂本,另⼀个策略是仅收集个⼈博主的博客内容,但事实上仍然⽆法避免普通⽤户博⽂被忽略的问题(写作策略和关键词选取的应修)。⽽对于未来研究⽽⾔,开发⼀套能够记录和纠正这些可能的错误来源的系统⽅法,将是推进研究⽅法改进的重要⼀步。
伦理挑战
1、博客的隐私性和社交性的边界模糊,因此研究者仅选择了对公众开放的博客。
2、匿名性的问题,研究的策略是尊重博主的个⼈声明,例如不希望被转载等。
3、尽管研究⼈员回根据博客中列出的⾼度私⼈性故事来对作者进⾏匿名处理,这种处理⽅式仍然带有道德风险。因为匿名化实际上可能会抹去博主对于分享⾏为是否存在风险的主观认知信息,并且与博主个⼈的建构线上⾝份和交流圈的尝试相悖。本研究的策略是,尽可能引⽤博客原⽂来表述。当然,如果研究⼈员追求更为嵌⼊式的民族志研究,则可能会直接向被调取者询问隐私级别。
4、另外,由于⽤户可能拥有多个社交平台账号,⽽各账号之间可能会出现互相关联的现象,那么研究⼈员使⽤博主的其他(如Twitter)账户信息来确认其本⼈的⼈⼝统计学信息和减肥历程的描述真实性,是否符合道德和⽅法论上的可接受原则呢?在这份研究中的策略,是坚持了机构伦理审查委员会(IRB)提供的原始参数,并且只专注于博客,但作者也承认这种⽅式是⾮常⼈为的,因此⽂章建议研究⼈员可能需要与IRB进⾏更为密切和持续的对话,以便在研究⽅法和⽹站的选择上能够更灵活地应对⽹络空间的互动性和动态性特征。
结语
实习总结3000字本⽂阐述了⼀些线上民族志研究可能遇到的关键性技术障碍和伦理挑战,旨在借由对减肥博客研究的数据收集和分析过程的阐述,抛砖引⽟,激发学界更为⼴泛的关注和讨论,讨论如何以更为系统性和可复制的⽅法收集博客及其他在线⽂本数据,同时做到尊重和保护内容的⽣产者。
整理:雅静
杨恭如被污辱的片段社论前沿
关注国际顶级刊物
聚焦前沿理论⽅法
追踪名家研究轨迹
大马哈鱼籽的做法>古诗词改编的歌曲推送最新学术论⽂
号:shelunqianyan
社论译介作品,欢迎个⼈转发朋友圈,⾃媒体、媒体、机构转载请申请授权,联系邮箱shelun2015@163,注明“机构名称+转载”。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论