考虑到所有这些担忧,我们有必要停下来思考一下,为什么使用人工智能进行基于算法的决策是可取的,因此值得我们共同努力去思考并做出正确的决定。我认为至少有三个很好的理由。如果经过深思熟虑并谨慎使用,算法可以:
将最佳实践编纂成法典并大规模推广。在雷·达利欧 (Ray Dalio) 的精彩著作《原则》中,他描述了他创立的公司桥水基金 (Bridgewater Associates) 如何充分利用其流程并将其转化为算法,以便可以反复应用。这些算法可以随着时间的推移进行微调,以产生不断改进的结果。
消除人类偏见的最坏情况。尽管目前关于人工智能的偏见和局限性存在很多争议,但人类推理中也存在众所周知的偏见和局限性。整个行为科学领域之所以存在,正是因为人类不是完全理性的生物,而是在思维中存在可预测的偏见。算法可以帮助消除或减少这些缺陷的影响。
实现基于证据的现场决策。我们经常谈论基于证据的政策制定的必要性。然而,政治家和政策制定者在制定政策时在宏观层面使用证据是件好事,但如果在一线做出糟糕的决定,那么它就无法取得多大成效。每个公共部门组织的真正效率是其员工每天做出的数千个小决定的总和。人工智能的前景是,我们可以在现场进行基于证据的决策:帮助一线工作人员在最重要的时刻做出更明智的决定,这些决定基于对已知有效方法的智能分析。
您的反馈
感谢您的反馈。我无法指望在一篇博客中涵盖所有观点,但下面我将讨论一些最常被提及且让我印象深刻的观点。
这些评论最引人注目的地方在于其两极分化的性质。一些人声称这些原则还不够完善;另一些人则声称该准则将阻止任何公共部门组织尝试使用人工智能。
持后一种观点的一些人表示,该法规 IG 数据 就像要求 在第一辆汽车前挥舞一面红旗一样,是一种不必要且过度严格的规定的简称。
让我们暂时考虑一下这个比较。
就一个人在汽车前挥舞旗帜这一实际案例而言,我认为这不是过度监管的例子,而是支持了新技术规范的合理性。
当汽车刚刚发明时,人们对其安全性感到不确定,这是可以理解的,因此人们采取了措施来应对感知到的风险,直到驾驶员恢复信心,行人感到所存在的风险是可以接受的。
挥舞旗帜永远不会成为永久的标志。它已被数百条确保安全驾驶条件、车辆正常运行和其他许多事项的规则和法规所取代。关键在于,这些法规最初可能采取谨慎的态度,但在我们对新技术建立信任和信心之前,它们是必不可少的。
我觉得公共部门在算法决策中使用人工智能的情况也大体如此。我完全相信我们的态度和行为准则会随着时间的推移而演变。但如果我们在早期犯下重大错误,我们可能会损害信心,并使其有益用途倒退数年。
鉴于公共部门在先前的数据和技术举措(如身份证、Care.Data 等)上对公众意见的误判记录,我认为这种担忧并非毫无道理。
其他人想知道为什么我们对算法的期望标准要比对人类流程和现有决策形式的期望标准更高。
例如,汤姆·福斯(Tom Forth ) 指出,一些原则同样是“非算法决策”的合理要求。他重新表述了原则 1 和 2 来说明他的观点:
公共部门组织制定的每一项政策决定都应附有其目标和预期影响的描述。
公共部门组织应发布描述制定每项政策决策所使用的假设的详细信息,以及减轻潜在偏见的风险评估。
这是一个良好且公平的挑战。
当然,我们可能希望考虑为更传统的决策形式设定比目前更高的标准 - 我们可以合理地提出许多与我们建议算法提出的相同的问题。
然而,我认为,算法知情决策有着很大的不同,因此需要一种新的方法,尽管这种方法需要随着时间的推移而发展。
主要有四个原因。
首先(重复上文中的观点),对于新技术,我们可能需要在最初设定更高的标准,以建立信心并测试真正的风险和收益,然后再采取更宽松的方法。简而言之,我们需要时间来观察使用人工智能实际上与传统决策过程有何相同或不同之处。
第二个问题与责任有关。出于可能不完全理性的原因,我们倾向于选择人为的决定。一个人在头脑中遵循的过程可能存在缺陷和偏见,但我们觉得自己有责任感和追索权,而机器则不存在(至少不是自动存在的)。
第三,某些形式的算法决策最终可能会真正改变决策过程的复杂性。正如一些金融分析师最终无法理解他们在 2008 年之前共同创建的 CDO 一样,当无限量的数据为其输出做出贡献时,追溯某个决策是如何做出的可能太难了。
第四是决策部署的潜在规模。技术的主要优势之一是它能够大规模推出解决方案。同样的特性,它也可以造成大规模破坏。
我做了什么
考虑到我们需要在提供保护的标准与帮助组织创新之间取得适当的平衡,我对这些原则进行了调整、改进和改写,将其转化为一系列问题。
这些问题综合了我收到的许多其他反馈意见,这些反馈意见似乎更适合于在更实用的工具中体现。
这些问题都是任何公共部门组织在实际环境中部署算法之前都应该问自己的问题,无论是内部部署还是外包提供商。这些问题旨在确保组织已经考虑过:
组织必须根据算法的具体使用环境,运用自己的专业判断和相关法律框架的要求,来决定他们的回应需要有多详细、什么样的道德模型最合适以及谁需要看到他们的答案。
然而,我认为我们的标准应该是这样的:如果公共部门组织不能充分回答下面链接中列出的 20 个问题中的一个或多个,那么它们就不应该在实时环境中使用算法决策