大数据的迅猛发展为算法技术和数据挖掘提供了巨大的可能性。其支持者认为,这些技术可以在决策过程中消除人为偏见。然而,算法的表现高度依赖于其所使用的数据质量。数据通常并不完善,可能使算法继承以往决策者的偏见,或在某些情况下反映社会中现存的广泛偏见。此外,数据挖掘有时也会揭示意想不到的规律,但这些规律往往暗含着排他性或不平等的既有模式。
无视这些潜在问题而过度依赖数据挖掘,可能会进一步压制弱势群体在社会中的参与机会。更复杂的是,算法导致的歧视通常是无意的,很难追溯到特定程序员的有意选择。这种情况下,确定问题根源并在法院解释变得尤为困难。将从美国反歧视法的视角,特别是通过标题VII禁止就业歧视的角度,来审视这些担忧。
在没有明显歧视意图的情况下,数据挖掘的受害者通常只能依赖完全不同影响理论。然而,判例法和平等就业机会委员会的统一指南表明,若某实践能够预测未来的就业结果,就可将其视为一种商业必要性,而数据挖掘正是用于发现这种统计相关性。第七标题允许这种相关性,即使它们反映历史性偏见或歧视痕迹。
从技术、法律和政治角度来看,根除这种无意歧视并修补相应的法律缺陷面临诸多挑战。计算能力的限制、历史数据的固有偏见,以及数据挖掘完成后调整结果的纠正措施,均为复杂的法律和政治难题。要解决大数据带来的不同影响,亟需重新定义“歧视”与“公平”的概念并为其赋予新的理解。
大数据及其相关算法的公平性问题不仅关乎技术,还涉及深层的社会问题,需多方合力推动偏见的消除,以实现真正公平的数据应用。