迈向正确的方向:优化机器学习

机器学习模型,也被称为人工智能模型,近年来在复杂性上取得了惊人的飞跃,并正在大规模进入公共领域。最明显的例子是聊天机器人ChatGPT和图像生成器DALL·e2。尽管取得了这些进步,但在机器学习完全融入社会之前,仍需要做大量工作,使其更加高效、可靠、安全和公平——无论是在文本生成器的背景下,还是在自动驾驶汽车等高风险技术中。
熨斗研究员Neha Wadia是致力于让机器学习更高效、更可靠的研究人员之一。她正在从事的一个项目是应用数值分析的方法来更有效地训练机器学习模型。
瓦迪亚加入了熨斗研究所的计算数学中心CCM将于2022年推出。在此之前,她在加州大学伯克利分校获得了生物物理学博士学位,在圆周理论物理研究所获得了物理学硕士学位,在阿默斯特学院获得了物理学学士学位。她是印度班加罗尔国家生物科学中心的初级研究员。
Wadia最近接受了西蒙斯基金会的采访,谈到了她的工作和机器必威注册网站学习的未来。为清晰起见,以下对话经过了编辑。
你在做什么机器学习项目?
我现在从事的一个主要项目是优化领域,这是机器学习的技术主力。在机器学习中,我们通常从一个数据集和一个模型开始,我们训练它来学习数据的函数。训练是通过解决一个优化问题来实现的,在这个问题中,我们通过调整模型的参数来最小化模型性能中的一些误差度量。例如,如果我们训练一个模型来识别图像中的人类,我们可以通过模型错误回答的图像数量来衡量性能。
这里有一个优化的类比:假设你走在一个多山的景观中,试图找到最深的山谷。一个合理的策略是环顾四周,寻找最陡峭的斜坡,并朝那个方向迈出一步。希望通过一遍又一遍地重复这个过程,你最终能到达最深的点,或者至少是你在初始位置所能到达的最深点。在这个类比中,景观上的每个点都是模型的一组可能的参数值,而景观的高度是模型误差的度量。行走相当于调优模型参数。
事实证明,计算下一步的方向并不难。很难决定的是要迈出多大的一步。为了理解这一点,想象一下在一个碗状的表面上行走。如果你走得太长,你可能会越过底部,最后到碗的另一边。如果你采取的步骤太小,你可能会在到达之前耗尽你的计算预算。我们必须选择每一步的大小,这样我们就不会走太多步,也不会错过我们正在寻找的山谷。
为了选择合适的步长,我们通常使用所谓的自适应步长方法,这是一类算法,在每次迭代中调整步长,以尊重速度和计算预算之间的平衡。这些方法的缺点是它们通常很难解释,并且与其他一些方法相比,每次迭代需要更大的计算预算。出于这两个原因,我正在开发新的、有效的、可解释的自适应优化方法。与我的合作者一起,我从数值分析中借鉴了技术——这是数学领域中与模拟动力系统有关的领域——并将它们应用于优化。粗略地说,主要思想是将机器学习模型的训练过程重新定义为一个动力系统,并利用现有的有效和有原则的数值分析技术来模拟该系统。
在这个项目上工作真的很有用,因为CCM拥有世界上最好的数值分析小组之一。我一直在从小组学习数值分析证明技术,以证明它也适用于优化环境。能够走到隔壁,依靠他们的专业知识真是太棒了。看到一个数学领域的思想被成功地应用到另一个领域是一件很酷的事情。它以一种美丽的方式庆祝计算科学的统一。
你接近大规模应用了吗?
还没有。初步的实验结果似乎表明,该方法工作得非常好,而且在小尺度模型上计算效率很高——模型有几百个参数。以现代标准来看,这并不多,因为模型通常有数百万个参数。我将很快开始在更大的范围内对该方法进行编码,并查看它的执行情况。
鉴于我目前在实验中看到的结果,我认为我的工作肯定会引起优化理论社区的兴趣。如果该方法在更大的尺度上表现良好,那么构建大型模型的人员可能也会感兴趣。它将为目前大规模使用的自适应方法提供一种可解释的替代方案。
我在机器学习中发现的一件有趣的事情是,你为了理解管道的某些部分是如何工作而提出的“第一原则”问题的答案通常也具有实际意义或产生新的算法。我现在正在做的高效自适应步长方法的工作,源于试图理解机器学习中常用优化算法的动态。动态是至关重要的,因为它们会影响学习内容,因此如果我们更好地理解并控制动态,我们就可以直接在模型中设计更高的效率和其他我们关心的属性。
效率很重要,因为大型模型需要强大的计算能力,并且有大量的碳足迹。一个大型模型的训练过程所排放的二氧化碳,相当于从纽约到旧金山的数百个航班(按每位乘客计算)所排放的二氧化碳。显然,我们培训的效率越高,我们就越能减少碳排放。
我们所关心的另一个受优化动态严重影响的特性是鲁棒性,当机器学习模型用于社会环境时,尤其是当它们的输出是潜在高风险决策的基础时,鲁棒性至关重要。例如,如果自动驾驶汽车的图像识别系统在被涂鸦覆盖的情况下无法可靠地区分停车标志和限速标志,则可能会造成危险的情况。
你认为十年后机器学习会在哪里?
十年前,如果你告诉机器学习研究人员,我们将在十年内拥有这些生成模型——比如DALL·E 2和ChatGPT,他们不会相信你。
我们在这个领域处于一个激动人心的时刻,因为构建模型的人在聊天机器人和艺术生成器等新应用方面的能力真的让我们感到惊讶。我怀疑这种情况会以我无法预测的方式继续下去。
然而,在研究端和社会端也存在着巨大的挑战,这些挑战是相互交织的。我相信,对培训动态的理解将使我们能够至少部分地解决许多问题,包括缺乏稳健性、效率和公平性。
另一个我希望我们在10年内取得进展的大问题是如何将误差条分配给模型的精度。例如,如果您正在使用图像识别算法来协助医生识别癌症肿瘤,那么您需要能够保证模型的正确频率。机器学习中不确定性量化的整个科学目前几乎完全缺失。
在不久的将来,我对机器学习研究还有两个希望。首先,当我们正在挑战机器学习模型所能做的极限时,我认为理解它们不能做什么同样重要。作为这一领域的研究人员,当模型被用于公共领域——甚至是科学本身——时,尽管我们不了解它们的局限性,但这让我感到紧张。其次,我也很清楚,即使是我们这些从事机器学习的人,大多数时候都在做纸上的研究,也在对世界产生影响。作为科学家,我们没有受过训练去思考我们的研究和观点可能产生的影响。这种情况需要改变。我认为我们需要更多地表达我们的工作成果是如何被使用的。