强化学习奠基人荣获图灵奖:AI驯化机器的先驱

强化学习奠基人荣获图灵奖:AI驯化机器的先驱

知行看点 2025-03-06 热点资讯 71 次浏览 0个评论

强化学习奠基人荣获图灵奖:AI驯化机器的先驱

计算机科学领域的最高荣誉——A.M. 图灵奖,于近日颁发给了强化学习领域的两位先驱:安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton),以表彰他们为人工智能发展做出的卓越贡献。他们的研究方法,如同动物训练师驯服犬马,对人工智能的开发有着重要的影响。

强化学习:驯化机器的关键

巴托(76岁)和萨顿(67岁)的研究始于20世纪70年代末,为过去十年的人工智能突破奠定了基础。他们工作的核心是引导所谓的“享乐主义”机器,使其能够根据积极信号持续调整自身行为。这种“享乐主义”机器,实际上指的是一种能自我学习和改进的人工智能系统,它通过从环境中获得的奖励或惩罚来调整自己的策略,从而达到特定的目标。

强化学习是谷歌计算机程序在2016年和2017年击败世界顶级围棋选手“AlphaGo”的关键技术。它也被广泛应用于改进诸如ChatGPT等流行的人工智能工具,优化金融交易,以及帮助机器人手臂解决魔方等复杂问题。例如,ChatGPT的训练就包含了强化学习,通过人类反馈来不断优化其生成文本的能力。

“荒野”中的探索:早期研究的挑战

然而,巴托表示,当他和他的博士生萨顿在马萨诸塞大学阿默斯特分校开始构建他们的理论和算法时,这个领域“并不流行”。

“我们当时有点像在荒野中,”巴托在接受美联社采访时说。“这就是为什么获得这个奖项如此令人欣慰,看到它越来越被认为是相关和有趣的事情。在早期,情况并非如此。”他们早期的研究并没有受到广泛关注,甚至被认为是冷门领域。

图灵奖的认可:对早期工作的肯定

这一年度奖项由谷歌赞助,奖金为100万美元,由计算机协会(Association for Computing Machinery)于周三宣布。

巴托(现已从马萨诸塞大学退休)和萨顿(加拿大阿尔伯塔大学的长期教授)并非首次获得以英国数学家、密码破译者和早期人工智能思想家艾伦·图灵命名的奖项的人工智能先驱。但他们的研究直接试图回答图灵在1947年提出的“可以从经验中学习”的机器的呼吁——萨顿将其描述为“可以说是强化学习的本质思想”。

从心理学到工程学:平衡杆问题的突破

具体来说,他们借鉴了心理学和神经科学中关于寻求快乐的神经元如何对奖励或惩罚做出反应的想法。在20世纪80年代初发表的一篇里程碑式论文中,巴托和萨顿将他们的新方法应用于模拟世界中的一项特定任务:平衡一根移动小车上的杆子,以防止它倒下。这两位计算机科学家后来合著了一本关于强化学习的广泛使用的教科书。

谷歌首席科学家杰夫·迪恩(Jeff Dean)在一份书面声明中表示:“他们开发的工具仍然是人工智能繁荣的中心支柱,并取得了重大进展,吸引了大批年轻研究人员,并推动了数十亿美元的投资。”这些工具不仅在学术界产生了深远影响,也推动了人工智能在工业界的应用。

对AI风险的辩论:技术乐观与谨慎

在接受美联社的联合采访中,巴托和萨顿在如何评估不断寻求改进自身的AI主体的风险方面并不总是达成一致。他们还将自己的工作与当前流行的生成式人工智能技术分支区分开来——OpenAI、谷歌和其他科技巨头开发的模仿人类写作和其他媒体的大型语言模型。

萨顿说:“重要的选择是,你是试图从人们的数据中学习,还是试图从(AI)主体的自身生活和自身经验中学习?”这反映了强化学习与监督学习之间的根本区别。强化学习更侧重于让AI通过与环境的互动来学习,而监督学习则依赖于大量标注的数据。

萨顿驳斥了他所描述的关于人工智能对人类威胁的夸大担忧,而巴托则不同意,并表示“你必须意识到潜在的意外后果。”这体现了对人工智能发展方向的不同看法,萨顿更加乐观,认为AI可以为人类带来福祉,而巴托则持更为谨慎的态度,强调需要关注潜在的风险。

后人类主义的未来:不同的哲学观

退休14年的巴托自称是勒德分子(指反对科技进步的人),而萨顿则拥抱他期望拥有比现在人类更高智慧的生物的未来——这种想法有时被称为后人类主义。

“人是机器。他们是了不起的,奇妙的机器,”但他们也不是“最终产品”,可以工作得更好,萨顿说。

“这本质上是人工智能事业的一部分,”萨顿说。“我们试图了解自己,当然,也要制造出能够更好地工作的东西。也许是为了成为这样的东西。”萨顿的观点体现了一种对人工智能的终极愿景,即通过技术进步来超越人类自身的局限性,创造更强大的智能体。但这种愿景也引发了伦理和哲学上的诸多问题,值得深入思考和探讨。

  • 随机文章
  • 热门文章
  • 热评文章

转载请注明来自知行看点,本文标题:《强化学习奠基人荣获图灵奖:AI驯化机器的先驱》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!
Top