能首席架构师
Posted: Wed Jun 18, 2025 8:40 am
背景
这场时长3.5小时的CRAFT会议由Salesforce道德人工智Kathy Baxter和Cantellus集团顾问兼高级经理Chloe Autio组织并主持。16位专家分享了他们对人工智能领域新兴挑战的见解。来自16家私营企业、17所大学、2个政府机构和2个非营利组织的24位参会者和3位纪录片制作人参与了讨论。
主题
悖论比比皆是,但解决方案也同样如此
许多负责任的人工智能概念之间存在着矛盾(例如,可解释性与可解读性、透明度与隐私性、公平性与意识)。例如,可解释性和可解读性是信任的基础,但并非每个参与者都怀有善意;更高的可解释性有时可能会损害安全性,因为不良行为者可能会学习如何利用系统。
此外,可解释性很难定义和操作化,因为在不同情境下,对可解释性的需求和水平各不相同。例如,“它做了什么?”与“它的行为合理吗?”截然不同。“为什么会发生X?”与“我可以对X做哪些改变,以便将来获得不同的结果?”也截然不同。在不同情境下,受众处理这些问题的方式以及评估价值权衡的方式可能有所不同。
虽然悖论层出不穷,但解决方案也层出不穷(例如,隐私增强技术、参与式设计、审计、稳健性测试、对抗性和反事实测试、偏见评估、模型卡、情况说明书)。然而,这些方案可能让人眼花缭乱,因为每个解决方案都需要投入更多精力,超出最显而易见或最便捷的范围,而且许多解决方案需要专业人士或运营人员的帮助才能完全整合——它们并非“拖放式”操作。即使无法最终获得完整的解决方案,也必须从小处着手进行改进。首先要测量或测试所有可能的情况,因为测试不可能面面俱到。这时,矛盾再次出现,必须做出一些权衡(例如,在公平性、可解释性和稳健性之间做出权衡)。
如何评估、监控和修复模型仍面临重大挑战
纵观历史,如今数据集中的偏见一直是整个人工智能伦理学界关注的核心问题。然而,评估、监控和修 电报筛查 复这些数据集始终是一项挑战。大多数人工智能开发团队仍然缺乏对其模型的可视性,包括:
模型行为的解释
理解特征影响和公平性
监测潜在的偏差或漂移(模型衰减)
自动化测试还面临其他挑战,包括测试数据有限、测试数据变异性有限,以及独立测试人员/审核员需要新鲜的、未使用过的测试数据。目前模型中使用的许多基准并未涵盖所有受影响的人员(例如,计算机视觉中的肤色测量、充斥着性别或种族偏见的自然语言处理 (NLP) 数据集)。合成数据可以帮助解决其中一些问题,但其隐私保护能力以及可能无法保留准确性关键信号的数据的实用性存在争议。
这场时长3.5小时的CRAFT会议由Salesforce道德人工智Kathy Baxter和Cantellus集团顾问兼高级经理Chloe Autio组织并主持。16位专家分享了他们对人工智能领域新兴挑战的见解。来自16家私营企业、17所大学、2个政府机构和2个非营利组织的24位参会者和3位纪录片制作人参与了讨论。
主题
悖论比比皆是,但解决方案也同样如此
许多负责任的人工智能概念之间存在着矛盾(例如,可解释性与可解读性、透明度与隐私性、公平性与意识)。例如,可解释性和可解读性是信任的基础,但并非每个参与者都怀有善意;更高的可解释性有时可能会损害安全性,因为不良行为者可能会学习如何利用系统。
此外,可解释性很难定义和操作化,因为在不同情境下,对可解释性的需求和水平各不相同。例如,“它做了什么?”与“它的行为合理吗?”截然不同。“为什么会发生X?”与“我可以对X做哪些改变,以便将来获得不同的结果?”也截然不同。在不同情境下,受众处理这些问题的方式以及评估价值权衡的方式可能有所不同。
虽然悖论层出不穷,但解决方案也层出不穷(例如,隐私增强技术、参与式设计、审计、稳健性测试、对抗性和反事实测试、偏见评估、模型卡、情况说明书)。然而,这些方案可能让人眼花缭乱,因为每个解决方案都需要投入更多精力,超出最显而易见或最便捷的范围,而且许多解决方案需要专业人士或运营人员的帮助才能完全整合——它们并非“拖放式”操作。即使无法最终获得完整的解决方案,也必须从小处着手进行改进。首先要测量或测试所有可能的情况,因为测试不可能面面俱到。这时,矛盾再次出现,必须做出一些权衡(例如,在公平性、可解释性和稳健性之间做出权衡)。
如何评估、监控和修复模型仍面临重大挑战
纵观历史,如今数据集中的偏见一直是整个人工智能伦理学界关注的核心问题。然而,评估、监控和修 电报筛查 复这些数据集始终是一项挑战。大多数人工智能开发团队仍然缺乏对其模型的可视性,包括:
模型行为的解释
理解特征影响和公平性
监测潜在的偏差或漂移(模型衰减)
自动化测试还面临其他挑战,包括测试数据有限、测试数据变异性有限,以及独立测试人员/审核员需要新鲜的、未使用过的测试数据。目前模型中使用的许多基准并未涵盖所有受影响的人员(例如,计算机视觉中的肤色测量、充斥着性别或种族偏见的自然语言处理 (NLP) 数据集)。合成数据可以帮助解决其中一些问题,但其隐私保护能力以及可能无法保留准确性关键信号的数据的实用性存在争议。