2020 年的NeurIPS和往届有所不同。除了在线上举办,不同还在于组委会提出了一个新的投稿要求:作者需要在投稿论文中单独拟一个 “影响陈述” 章节。
该章节必须讨论文中工作将带来的更广泛影响,包括可能带来的正面或负面的社会影响。“评审员和地区主席的评估将仅基于技术贡献进行。但是,如果将某篇论文标记包含潜在的道德问题,则该论文将被发送给另一组以道德评估和机器学习为专长的审阅者。这些论文的最终接受还取决于第二批审稿人的正面评价。”NeurIPS 2020通讯主席Michael Littman如此表示。
这也是AI顶会首次采用这种评估作法。但NeurIPS不是唯一一个有此要求的场合。
同样在今年,Nature Machine Intelligence杂志也提出:机器学习论文作者在文中加入对研究更广泛的社会影响和道德承诺的声明。
甚至有人在审视自己的AI研究之后已经无法承受某种道德瑕疵。
今年早些时候,YOLO系列 (v1-v3) 作者 Joe Redmon 宣布,因为无法忽视自己工作带来的负面影响,他决定退出计算机视觉领域,不再进行该方向的研究。此前,Redmon 曾与 Ali Farhadi 共同创建了 YOLO 实时物体检测系统,后者的公司 Xnor 最近被苹果收购。
这些信息并不是独立的故事线。最近,Nature 官网连续刊登3篇文章,集中反映了以人脸识别为代表的 AI 技术滥用及其效应。这三篇文章分别是《Is facial recognition too biased to be let loose?》、《The ethical questions that haunt facial-recognition research》和《Resisting the rise of facial recognition》。
显然,一场比以往更大范围的对AI技术合理使用(尤其是人脸识别)的批判正在展开。
人脸识别问世所走过的60年
人脸识别技术的起源可以追溯到1960年代。
当时,一位名叫 Woodrow Wilson Bledsoe 的计算机科学家首次使用电磁脉冲对人脸进行了测量,进而得以把人脸数据输入到测量系统中,将一张新的未知面孔与先前输入的照片的数据点进行比较。以我们今天的技术标准来看,那个系统的运行速度自然是非常慢,但事实证明,这一想法是很有价值的。很长一段时间内,由于 Bledsoe 的研究有情报机构的赞助,使得其对于人脸识别技术基本缄口不言,直到 2000 年以后 CIA 逐渐解密,Bledsoe 才被公认是最早研究人脸识别技术的科学家。
Bledsoe 的发明之后,技术的改进集中在如何增加人脸测量点上。1970 年代,Goldstein、Harmon 和 Lesk 三人建立了 21 个人脸测量点;1980 年代,研究人员使用线性代数使用了大约 100 个人脸测量点,人脸图像的低维表示进一步铺平道路。
1990 年代,第一个基于图像的粗略自动人脸检测诞生,人脸识别也从强调人脸特征识别逐渐走向了人机交互。期间不但诞生了若干代表性的人脸识别算法,美国国防高级研究计划局(DARPA)和美国国家标准技术研究院(NIST)更是推出了著名的人脸识别技术(FERET)项目,研发最先进的人脸识别算法和数据库。主要目的便是用于安全监控。这也为人脸识别引发全球轰动的时间线埋下伏笔,例如 2011 年时的本拉登事件:基地组织负责人 Osama bin Laden 在美国突袭中被杀后,最终由军方的人脸识别算法成功辨认。
21 世纪的第二个 10 年,基于深度学习神经网络的当代人脸识别技术势如破竹。
与仍需要人工操作的人机交互阶段相比,人脸识别的自动化程度和精确度都更高。在这个新的历史时期,企业开始大量投入其中,从而进一步推动人脸识别走向商用市场:云端——2010 年起,Facebook 招募了图像身份自动标记人员,从那时开始,FB 平台上每天有超过一百万张照片被上传和标注;终端——诸如 Windows Hello 和 Android 的 Trusted Face,将人脸识别作为一种安全功能集成到了个人设备中,然后在 2017 年推出了 iPhone X 和 Face ID。到了 2017 年,iPhone X 成为全球最畅销的带有人脸识别功能的手机。
当人脸识别大规模铺开使用摁下了加速键之后,越来越多人意识到,人脸识别的方向和速度产生了偏差。
抵制人脸识别的关键词之一:
偏见
根据任务,现代人脸识别系统可以简单划分为两类:将人脸与大型数据库进行匹配的一对多识别系统以及更简单的一对一验证系统。相较前者,一对一验证只涉及确认一个人与自己的照片相匹配,主要应用于解锁智能手机、护照检查之类的场景。
一个典型的人脸识别系统,第一阶段会在图像中定位一个或多个人脸角度。例如,在各种照明条件下和从不同角度观看监视摄像机馈送中的人脸,下一个任务是 “标准化” 人脸,将被拍摄对象旋转为正面,保证照明良好的视图。这产生了一组人脸 “特征”,可以与从现有人脸数据库中提取的人脸 “特征” 进行比较。通常包括在受控条件下拍摄的照片,例如警方使用的照片。由于要素表示形式是结构化的文件,计算机可以快速扫描数百万个文件以找到最接近的匹配项。
无论是哪一类任务,自大约 10 年前将 “深度学习” 技术引入该领域以来,识别的准确性得到了极大提高。但是,这是否意味着人脸识别足够用于现实世界?
图片出处:FRVT
在人脸识别领域,有一个已经进行了 20 余年重要的基准测试。那就是由美国国家标准技术研究院(NIST)主导的国际权威人脸识别供应商测试 FRVT (Face Recognition Vendor Test)。
NIST 拥有规模达到百万量级的人脸数据,且均来自真实业务场景。NIST 会根据自己的图像数据集来衡量学术机构或者企业提交的人脸识别系统性能。由于测试数据不公开 (盲测),参赛的算法团队无法利用测试数据做模型训练,相对于 LFW、MegaFace 而言,FRVT 则更能体现测试的公正性。
2019 年下半年,NIST 发布了一份报告,描述了人脸识别在 2018 年期间的巨大进步,包括一对多搜索和一对一验证两大任务。NIST 图像小组负责人的电气工程师 Craig Watson 表示:“我们发现人脸识别的准确性有了显着提高,这很大程度上是得益于卷积神经网络的出现。”
NIST 发现,算法现在可以从户外拍摄的个人资料图像中识别出人,并与数据库中的正面视图相匹配,其准确度已经和十年前最好的人脸识别软件识别正面图像相同。NIST 研究人员写道,“这在人脸识别的长期研究中是一个里程碑”。
但是 NIST 也证实了 2018 年一项捅破了 “纸窗户” 的研究。
2018 年,计算机科学家 Timnit Gebru(美国人工智能领域仅有的几位黑人女性计算机科学家之一。)发表的研究结果,首次揭示了商业人脸识别系统的缺陷:人脸识别针对黑人、女性的错误率高达 21%~35%,而针对白人、男性的错误率则低于 1%。黑人女性有 20%~30% 的概率被识别错误,产生误会。也就是说,如果是在警用安保等场景下,后果可能会非常严重。
NIST 的数据库显示,被归类为非裔美国人或亚洲人的面孔,比被归类为白人的面孔被算法误认的可能性高 10-100 倍。与男性相比,女性被误判的概率会更高。
NIST 科学家 Watson 说,这种不准确性很可能反映了每家公司训练数据库的组成不平衡。数据科学家通常将这种不平衡描述为 “垃圾进,垃圾出”。
因此,大量要求暂停或禁止人脸识别软件的呼吁,都会频繁经常提到对人口统计学偏见的担忧。
甚至在今年 6 月,全球最大的计算机科学学术共同体 ACM 也发表声明,敦促私人和政府停止使用人脸识别技术,因为 “基于种族,种族,性别和其他人类的明显偏见特征”,将损害特定人口群体的个人权利。
抵制人脸识别的关键词之二:
隐私
除了放大人类现有社会系统的偏见,对侵犯个人隐私的担忧,形成另一股强大的反对声浪,矛头直指大型科技公司。
众所周知,一个人脸识别系统要发挥作用,还需要通过大型图像数据集进行训练和测试。理想情况下,需要在不同的光照条件下和不同的角度多次捕获人脸图像。没有大量数据的情况下训练人脸识别算法的普适方法,仍未出现。
那么,这些数据从哪来?
1990 年代和 2000 年代,科学家们收集研究所需的数据一般会通过招募志愿者的方式。但现在,这个光荣传统几乎退出历史主舞台了,大多数机构未经许可就进行人脸数据采集。
2015 年,斯坦福大学的科学家基于旧金山一家咖啡馆的网络摄像头,发布了一组 12000 张图像集。第二年,杜克大学的研究人员发布了超过 200 万个视频帧(85 分钟),记录了在大学校园中行走的学生的镜头。
2016 年,雷德蒙德微软研究院发布了世界上最大的公众人物数据集 MS Celeb ,包含从互联网上搜刮的近 100000 个人的 1000 万张图像,其中包括记者、音乐家和学者。
微软是通过知识共享许可协议(Creative Commons license)抓取和收录这些照片的。按照知识共享许可协议,照片的版权所有者许可后,微软可以将照片用于学术研究。微软自己也声称,MS Celeb 的发布旨在促进学术研究,鼓励研究人员开发最好的人脸识别技术。
版权所有者许可,并不等同于照片中的被拍摄者许可。人脸照片属于生物识别数据,按照欧盟 GDPR 的规定,处理此类数据须征得当事人的明确同意。不仅如此,MS Celeb 发布之后,有研究人员发现,其所收录的已不仅仅是名人照片,还有一些普通人的照片。《金融时报》曝光称,信息安全记者 Kim Zetter、技术作家 Adam Greenfield、负责消费者隐私保护事务的原美国联邦贸易委员会专员 Julie Brill 等人都在其中。
这些人完全没有意识到自己的人脸照片被收录到了这些数据集中。这就像是,你永远都不知道,你在何时何地,在经过哪一个摄像头的时候,成为了某个训练数据集一部分。
“我并不是公众人物,没有任何道理放弃自己的隐私权。”Adam Greenfield 声讨道。
微软回应,MS Celeb 仅被用于学术用途。但公开资料显示,多家公司使用过 MS Celeb 进行算法训练,如英伟达、IBM、松下、日立等。在那次风波中,微软表示已经删除 MS Celeb,但 Adam Harvey 指出,这些数据并不会完全消失。他说,一旦数据被发布、被下载,它就存在于全世界的硬盘上,微软根本无法阻止人们根据自己的目的发布和使用数据。
现在,美国的一些州已经确定,商业公司未经其同意使用人脸这样的个人生物识别数据是非法的。伊利诺伊州还允许个人对此提起诉讼。
例如 Fcebook 就已同意支付 6.5 亿美元,以解决伊利诺伊州集体诉讼案,该诉讼案涉及一系列被用于人脸识别的非公开照片。总部位于纽约 Clearview AI(传该公司的人脸系统已经抓取到 30 亿张在线照片,并为警方和富豪提供定制服务),也正在面临人脸数据违规采集和使用的集体诉讼。
“我不担心政府,我担心谷歌和脸书”。北卡罗莱纳州威尔明顿大学的教授 Karl Ricanek 曾如此说道。
“我认为,他们比政府拥有更多的公民信息,而且我们无法动摇这些公司的领导地位。我认为我们的政府至少还有着良好的使命。从学术角度来看,我们正在努力解决一些问题以让世界变得更好,而不是大多数人想着赚钱。”
这些存在感愈发强烈的声音,也促使着该领域的一部分研究者重新反思。
开始分化的学界
今年,针对人脸识别研究存在的棘手伦理问题,Nature 对全球 480 位从事人脸识别 / 计算机视觉 / 人工智能工作的研究人员进行了一次问卷调查。
这也是 Nature 首次进行这类性质的调查。结果显示,该领域的学者已经出现观念分化:一些科学家十分关注该领域的工作道德规范,但另一些科学家仍然认为学术研究没有问题。在某些问题上,受访者表现出明显的偏好。
当被问及对将人脸识别用于预测个人特质(例如性别、性别认同、年龄或种族)研究时,约三分之二的人表示,此类研究应在数据被收集者同意的情况下进行,或与可能受影响的群体的代表进行充分沟通。
但是在这以外的问题上,分歧明显出现。大约 40%的受调查学者认为,在收集人脸数据之前,研究人员应征得个人的知情同意,而超过一半的人认为这并不必需。
瑞士马蒂尼 Idiap 研究所生物识别小组负责人 Sébastien Marcel 认为,研究人员应获得知情同意,但实际上却很难保证。他所在的小组不会在网络上抓取人脸图像,但是会使用其他人已发布的在线图像数据集。“许多研究人员会回避这件事:他们认为这不是他们的问题”,他说。
Springer Nature 期刊政策总监 Ed Gerstner 说,出版商正在考虑采取何种措施来阻止研究使用不经被采集者明确授权的数据集。
Nature 调查还询问该领域的研究者,即使获得知情同意,对敏感人群(如受到严密监视的难民或少数群体)的人脸识别研究是否仍然存在伦理问题。总体而言,71%的人表示同意。
一些持相反观点的研究者,则试图在学术研究和人脸识别的使用方法之间做出区分。他们强调,重点应该放在谴责和限制人脸识别的不道德应用上,而不是限制研究。
伦理学家自然认为这种区分是幼稚的。“这是一种 ‘ 我只是个工程师 ’ 的心态,但现实已经远远超越了这个界限。” 康奈尔大学的社会学家 Karen Levy 评价道。
那么,AI 学界应该对有道德问题的研究采取什么措施?
最受欢迎的答案是,在同行评审的过程中,应该明确询问该研究是否合乎伦理,例如该研究是否事先获得伦理学机构的批准(例如 IRB,Institutional Review Board,FDA 等监管机构对生命科学实验的管理采用了这种机制)。几乎一半的受访者认为应该这样做,另有四分之一的人认为这取决于具体的研究。
显然,本文开头所提到的 NeurIPS 和 Nature Machine Intelligence 组织方,属于前者。
Karen Levy 希望人脸识别的学者能早日意识到他们所从事的工作的含义。“这像是科学界真正觉醒的时代。人们更加敏锐地意识到,他们所研究的技术可能会被不当使用”,她说。
国内近日的一则热闻,售楼中心应用人脸识别技术让购房者多花了 30 万元,一男子不得不戴着头盔去看房。图片出处:互联网
凡注有"天津滨海网"或电头为"天津滨海网"的稿件,均为天津滨海网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"天津滨海网",并保留"天津滨海网"的电头。