被忽视的大多数:用因果推断解析文化遗产众包中志愿者参与的不平衡现象
被忽视的大多数:
用因果推断解析文化遗产众包中志愿者参与的不平衡现象
张轩慧,张伟嘉,赵宇翔,朱庆华
所有依靠用户创造内容的大规模网络社群都有一个特点:大部分用户是潜水者;相反,小部分用户非常活跃,并创造了大部分内容。我们通常用二八定律、90-9-1法则、沉默的大多数等来描述和解释这种社群结构的不平衡。然而,如果我们不去关注哪些是潜水者哪些是活跃者,只关注他们的行为结果,那么,他们的参与是平衡分布的吗?
如果我们不去关注哪些是潜水者哪些是活跃者,只关注他们的行为结果,那么,他们的参与是平衡分布的吗?
我们在诸多文化遗产众包项目中观察到志愿者参与不平衡的现象,即小部分任务得到了大部分志愿者的关注和参与;相反,大部分任务被忽视而没有得到解决。例如,在抄录边沁(Transcribe Bentham)项目中,志愿者完成了“边沁及其家族”主题下的所有任务,而对“边沁和西班牙与葡萄牙通信”主题下的任务关注甚少。在蜂巢(Hive)项目中,志愿者的参与更多分布在困难度高并且内容中包含人名的手稿转录任务。
在文化遗产众包中,志愿者的不平衡参与会影响项目的完成度和可持续性。因此,关注志愿者参与不平衡的问题,识别志愿者参与不平衡的机理,缓解志愿者参与不平衡的困境,是亟待解决和突破的重点。我们从澳大利亚报纸数字化项目(图1)中获取了145,168,535条数据,利用基于机器学习的因果推理方法,对上述问题展开研究和讨论。
志愿者参与不平衡是什么?
我们对数据集进行统计分析之后,通过回答三个问题,即①(who)谁是参与不平衡的主体?②(what)任务完成情况是什么样的?③(how)参与不平衡问题是如何产生的? 从而提出了志愿者参与不平衡的初步概念,即:志愿者活动的分布严重偏向于具有某些特定属性的任务;得到关注的任务有相似的特征,而其他大多数任务得到的关注明显较少;形成这种现象是因为这些众包平台或项目缺乏任务推荐机制,志愿者在任务的参与上有很高的自由度。
哪些因素导致了志愿者参与不平衡?
我们采用了基于条件独立测试的因果结构学习算法从数据中学习数据的因果结构,得到了由11个节点和16个有向边组成的因果结构(如图2)。这张图可以清晰的告诉我们哪些因素导致了志愿者参与不平衡。由于因果关系是有方向性的,只有原因影响结果,答案就存在于订正(Corrections)的父变量和有方向性路径的变量中。具体而言,任务所显式的字数、任务类别、任务列表数量以及任务是否有插图这四个因素直接影响志愿者的不平衡参与。
如何缓解志愿者参与不平衡的现象?
面对文化遗产众包中志愿者参与不平衡的现象,我们在了解是什么、解读为什么的基础上,提出了一些对策建议,旨在提升那些原先被忽视的任务的关注度。以下是本研究提出的命题:
- 任务列表的助推式干预能够促使志愿者朝着预期方向改变,从而缓解参与不平衡问题。
- 降低任务的主观复杂性能够促进志愿者的参与行为,从而缓解参与不平衡问题。
- 提升特定任务的视觉吸引力能够唤起志愿者的更多关注,从而缓解参与不平衡问题。
本研究发表在Information Processing & Management期刊上,自论文在线发表以来,在社交媒体上受到了众包领域学者和从业者的广泛关注。
文章出处:Zhang, X., Zhang, W., Zhao, Y. C., & Zhu, Q. (2022). Imbalanced volunteer engagement in cultural heritage crowdsourcing: a task-related exploration based on causal inference. Information Processing & Management, 59(5), 103027.
APA引用格式:张轩慧,张伟嘉,赵宇翔,朱庆华. (2023, March 20).被忽视的大多数: 用因果推断解析文化遗产众包中志愿者参与的不平衡现象. Information Matters, Vol. 3, Issue 3. https://informationmatters.org/2023/03/被忽视的大多数: 用因果推断解析文化遗产众包中志愿者参与的不平衡现象/