你见过和/或编写过的大部分模型都依赖于大型数据集来训练和学习。当你遇到挑战时,作为程序员,你需要定义分类图像数据的函数和模型。程序员和数据确定了脸部识别等分类算法的工作原理。
要注意的是,数据和人类都存在偏差,分别具有分布不均衡的图像类型或个人偏好。还要注意的是,这些偏差会分散到算法创建中。对于脸部识别,想象一下以下情形:哈尔特征等模型训练所用的脸部主要是白人女性;此网络将擅长于检测此类脸部,但是不擅长于检测其他脸部。如果将此模型用于普通脸部识别,则有偏差的数据会创建一个有偏差的模型,如果算法没有体现出目标用户的多样性,则根本没有用。
来自 MIT 媒体实验室的计算机科学家 Joy Buolamwini 研究了决策制定算法中的偏差,她的研究成果揭示了此问题在某些方面的影响。一项研究调查了肤色在女性脸部识别程序中造成的错误率。下图是研究结果。
脸部识别错误率图像,来自 MIT 媒体实验室的性别图谱网站。
判断给定算法的公平性是一个很活跃的研究领域。下面是一个使用生成式对抗网络 (GAN) 帮助分类器检测偏差和更正预测的示例:在 PyTorch 中实施公平的分类器。。另一篇论文探讨了信用贷款对不同人群的影响(具有实用的交互式图表)存在的“公平性”。我认为,随着计算机视觉越来越普遍存在,这个研究领域将越来越重要,有必要了解和学习这方面的知识!
来自信用贷款论文“公平机器学习带来的影响”。
偏差结果是指程序员和数据存在偏差,我们可以努力降低偏差。对于我们的工作、所阅读的内容应该有批判性,并开发测试此类算法的方法。当你深入学习 AI 和深度学习模型时,你将学习一些可视化神经网络学习效果的方法,建议查看数据并确保数据是平衡的;数据是任何机器和深度学习模型的基础。一个好的做法是测试任何算法是否存在偏差;当你开发深度学习模型时,建议测试模型对各种挑战的应对情况,看看是否存在任何薄弱环节。
如果你想了解如何消除 AI 中的偏差,请参阅这篇哈佛商业评论文章 Business Review article。还建议观看 Joy Buolamwini 的 TED 演讲并阅读性别图谱论文。
延伸阅读
如果你对算法偏差很感兴趣,可以阅读一些关于软件工程职业道德的精彩图书:
《Weapons of Math Destruction》,Cathy O'Neil《Algorithms of Oppression》,Safiya Umoja Noble《Automating Inequality》,Virginia Eubanks《Technically Wrong》,Sara Wachter-Boettchera辅助材料
Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification