数据匿名化对群体间差异的统计表征的影响

发布者：前沿编辑部发布时间：2021-11-03浏览次数：146

[译者按］：近年来，学界和业界对以数据匿名化为代表的隐私保护技术的研发工作剧增。然而，围绕隐私保护如何影响针对弱势亚人群的数据洞察的研究却非常有限。本文尝试探索数据匿名化可以在多大程度上掩盖群体差异的统计表征。我们首先描述了数据匿名化的两种常见机制（数据移除与噪声插入）和群体差异的两类常见统计表征（隔离差异与变差差异），构建了相关的概念基础和数学表达；在此基础上，证明数据匿名化会掩盖群体差异，并进一步发现采用不同统计表征方式对差异进行操作化时，不同的数据匿名化机制将产生不同的影响。经验证据也验证了我们的理论推断。我们的研究发现具备商业价值和政策意义，强调企业和政策制定者需要在保护隐私和识别、纠正群体差异之间取得平衡。

[关键词］：隐私数据匿名化歧视统计差异

[作者简介] ：许衡，美国美利坚大学科戈德商学院教授；张楠，美国美利坚大学科戈德商学院教授

[译者简介] ：顾洁，上海社会科学院信息研究所副研究员