您的位置:首页 > 资讯中心

DeepMind 联合创始人谢恩·莱格访谈实录:真正的 AGI 可能在 2028 年实现

发布时间:2024-07-28 13:52:55      阅读量:230次     

本次访谈由德瓦克什·帕特尔( Dwarkesh Patel )主持,访谈对象是谢恩·莱格( Shane Legg ),Google DeepMind 的联合创始人及首席通用人工智能( AGI )科学家。访谈围绕着人工智能的未来发展、技术挑战和伦理问题展开,讨论了 AGI 的定义、实现路径、潜在风险以及激励机制等关键话题。

DeepMind 自成立以来开发出 AlphaGo、AlphaFold 等标志性项目,现阶段,DeepMind 不仅专注于通用人工智能的研究,还广泛涉足强化学习、卫星图像分析和天气预报等领域。

谢恩·莱格( Shane Legg )在访谈中首先澄清了他对 AGI 的定义,AGI 不仅仅是执行单一任务的工具,而是能够完成各种认知任务的智能系统。他提到,目前的人工智能模型在某些具体任务上表现出色,但距离真正的 AGI 还有一定距离。

谢恩·莱格( Shane Legg )的核心观点包括:

  • 多模态技术的发展将成为下一里程碑,它能将文字模型的理解扩展到图像和视频等更广泛的内容,使系统更深入地理解世界。

  • 为了达到通用人工智能(AGI),需要一整套严格的测试,并且采用对抗性测试方法寻找人类能完成而机器不能的任务,当无法轻易找到新的认知任务例子来证明机器表现低于人类,可认为达到了 AGI

  • 到 2028 年有 50% 的可能性实现 AGI

  • 当前的语言模型需要改进上下文记忆和辅助推理,以提高模拟和理解情境的能力。

  • 基于人类反馈的强化学习和自动对弈是实现 AI 对齐的一部分,确保 AI 在实践中能遵循道德和价值观。

  • 深度学习模型在处理新的、大容量数据的能力上有其劣势,但可以通过更多研究和架构上的改进来解决这一问题。

  • 认为真正的 AI 创造力需要进行探索,当前的语言模型更多是模仿已知数据而不是超越它们,强大的搜索过程将是关键

以下是本期播客内容的完整翻译,我们作了不改变原意的删减。

德瓦克什·帕特尔

第一个问题是,我们具体该如何衡量通用人工智能(AGI)的进展?虽然我们可以通过损失值看到模型的改进,但这只是一个数字。我们该如何解读这个数字,并评估我们实际取得了多少进展?

谢恩·莱格 :

这是个难题。实际上,AGI(通用人工智能)的定义在于其广泛性,而不是专注于某个特定任务。 当你有一个非常具体的目标时,达到预期表现要容易得多,因为你可以围绕这个目标进行系统的构建。

也许我应该先解释一下我所说的 AGI(通用人工智能)是什么意思。因为有几种不同的定义,对吧?当我说 AGI 时,我指的是一种能够执行人类通常能做的认知任务的机器,甚至可能更多。要成为 AGI,这就是你需要达到的标准。

所以,如果我们想测试是否达到了这个门槛或接近这个门槛,我们实际上需要很多不同类型的测量和测试,涵盖人类能够完成的各种认知任务的广度。然后,我们需要了解人类在这些任务上的表现,这样我们才能判断是否达到了标准。这很难,因为你永远无法完全涵盖人类所做的一切,因为这是一组非常庞大的任务。

但我认为,如果你能有一系列相当不错的测试,涵盖人类所做的各种认知任务,并且有一个 AI 系统在所有这些任务上都能达到人类的表现,并且你无法轻易找到新的认知任务例子来证明机器表现低于人类,那么在这个时候,概念上可能存在机器无法做到而人类能做到的事情。但如果你无法通过一些努力找到这样的例子,那么从实际角度来看,你就拥有了 AGI。

德瓦克什·帕特尔

那么,让我们具体一点。我们在 MMLU 等基准上衡量这些大语言模型的性能。也许你可以解释一下这些不同的基准是什么?但我们现在使用的这些基准,你可能会在论文中看到,它们缺少了什么?它们没有充分衡量人类认知的哪些方面?

谢恩·莱格

哦,是的,这些都是相当大的领域。比如说,语言模型并不能评估对流媒体视频的理解,而人类可以做到这一点。 人类还有所谓的情境记忆,对吧?我们有工作记忆,记录最近发生的事情;还有皮质记忆,存储在大脑皮层中的信息。但在这两者之间还有一个系统,就是情境记忆,由海马体负责。

这涉及到快速学习特定信息。比如今天我对你说的一些话,如果你明天还记得,那就是你的情境记忆。我们的模型并没有这种能力,我们也没有对此进行测试。我们只是试图通过延长上下文窗口(这更像是工作记忆)来补偿这一点。但我们确实没有测试这种能力。 所以,这里有各种各样的细节。

这是一个很难回答的问题,因为在人类智能涵盖范围非常广的情况下,你真的需要深入研究,找出现有基准中缺失的类型,或者目前还不存在的基准类别。

德瓦克什·帕特尔

你提到的情境记忆,可以称之为“样本效率”吗?还是这是不同的概念?

谢恩·莱格

这与样本效率密切相关,也是人类样本效率非常高的原因之一。大语言模型在某种程度上具有样本效率,因为当某些内容出现在它们的上下文窗口中时,会导致分布以不同的方式表现,从而实现非常快速的学习。因此,存在多种学习方式,而现有系统只具备其中的一部分,所以情况有些复杂。

德瓦克什·帕特尔

这种记忆能力,或者我们称之为样本效率,是这些深度学习模型的致命缺陷吗? 因为它们需要处理的数据量远超人类一生所见。还是说这是一个可以随着时间解决的问题?

谢恩·莱格

模型可以在上下文窗口内立即学习内容,然后通过训练基础模型进行长期学习,这涉及数万亿个标记(tokens)。 但它们似乎在中间阶段有所缺失,对吗?这正是我的意思。我不认为这是一个根本性限制。我认为大语言模型的发展带来了根本性变化。

我们现在已经掌握了构建具备理解能力模型的方法,这是过去无法实现的。由于我们现在拥有可扩展的方法,这将开启许多新的可能性。

现在我们可以看看哪些东西是缺失的,比如情境记忆类型的问题。然后,我们可以开始想象解决这些问题的方法。所以我觉得,现在有相对明确的路径来解决现有模型的大多数缺点。无论是关于错觉、事实、它们的记忆和学习类型,还是理解视频内容等问题,我实际上并不认为这里有大的障碍。我只是看到需要更多的研究和工作,这些问题将得到改进并可能完全解决。

德瓦克什·帕特尔 :

回到最初的问题,如何衡量人工智能是否已经达到或超越人类水平?具体来说,AI 需要具备哪些能力,你才会认为“好吧,我们达到了人类水平”?它需要通关《Minecraft》吗?还是需要在某个基准测试中获得满分?究竟需要达到什么标准?

谢恩·莱格

没有单一的事物可以实现这一点,因为它的本质关乎通用智能。所以我必须确保它能够完成许多不同的任务,并且没有明显的缺陷。我们已经有系统可以在人类水平甚至超越人类水平完成非常令人印象深刻的任务。因此,我希望有一整套非常全面的测试。此外,当人们说,“好吧,它通过了一大套测试”,我们就采用对抗性测试方法,故意寻找一些人类通常能完成但机器失败的例子。当这些例子不再存在时,我会说,“好吧,我们可能已经达到了目标”。

德瓦克什·帕特尔

在你早期的许多研究中,我注意到你强调 AI 应该能够在各种开放环境中操作并取得成功。这听起来有点像电子游戏。你现在还是这样认为吗?还是有了不同的看法?

谢恩·莱格

这个概念已经有所演变。当我在撰写关于通用智能的论文时,我试图提出一个非常通用且数学上简洁的框架来定义和衡量智能。我认为在某些方面这是成功的。在我看来,这阐明了智能的本质,即在许多不同领域和任务中表现出色。这关乎能力和突破性表现。

我发现这非常有帮助,也很有启发性。参考机的问题总是存在,因为在这个框架中,你会根据复杂性对事物进行加权。这有点像奥卡姆剃刀原则,你会对较简单的任务和环境赋予更高的权重,因为你会得到一个无限的、可数的不同可计算环境空间。我注意到在可计算环境和复杂性度量的组合中,内置了一个叫做参考机的东西,这是一个自由变量。这意味着智能度量中有一个自由变量,当你改变这个自由变量时,它会改变不同任务和环境空间的权重和分布。所以这是整个问题中尚未解决的一部分。那么我们理想中应该使用什么参考机呢?实际上并没有一个通用的、特定的参考机。人们通常会使用一个通用图灵机,但实际上有很多种类的通用图灵机。

鉴于这是一个开放性问题,我认为最自然的做法是考虑什么在智能方面对我们有意义。我认为,人类智能对我们和我们的环境是有意义的。我们知道什么是人类智能,因为我们是人类,并且与其他智能体互动。显然,人类智能是可能的,因为它确实存在。

我们知道人类智能非常强大,因为它在无数方面深刻影响了世界。如果机器达到了人类智能的水平,将会带来经济上的变革,因为许多由人类完成的认知任务可以由机器来完成。

这在哲学上非常重要,因为它涉及我们如何思考智能的问题。我认为这是历史上的一个关键点。人类智能在类似人类的环境中是一个很自然的参考点。你可以想象,将你的参考机器设定为强调我们所生活的环境,而不是某种抽象的数学环境。因此,我开始了这段旅程,试图定义一个完全通用、简洁的数学智能概念。虽然它有一个可调参数,但一种思考方式是更具体地考虑人类智能。我们能否构建出能够匹敌人类智能的机器?因为我们理解人类智能的强大之处,它具有经济、哲学和历史的重要性。当然,另一个问题是,在这种纯粹的复杂性组合的形式化中,它实际上是不可计算的。我当然知道这是一个限制,但这是一个尝试,看看我们是否能在理论上提出一个简洁的定义。我认为我们可以接近这个目标,但我们面临一个未指定的参考机器问题。

德瓦克什·帕特尔

在我们继续之前,我想请教一下关于你提到的这些机器或大语言模型需要情境记忆的问题。你说这些问题是可以解决的,并不是根本性的障碍。那么,你认为这些问题会通过规模化来解决吗?还是每个问题都需要一种细粒度的、具有架构性质的具体解决方案?

谢恩·莱格:

我认为这是一个架构问题,因为当前的架构无法实现这一点。它们基本上只有一个非常灵活的上下文窗口和一些权重,而这些权重会非常缓慢地固化。所以在我看来,这更像是工作记忆,就像大脑中的激活状态和皮层中的权重与突触一样。

大脑将这些任务分开处理。它有一个独立的机制来快速学习特定信息,因为这与缓慢学习深层次的普遍性是不同类型的优化问题,对吧?这两者之间存在一定的张力,但你希望能够同时做到这两点。你希望能够听到某人的名字并在第二天记住,同时也希望能够在一生中整合信息,从而看到世界中的更深层次模式。这些是相当不同的优化目标和过程,但一个全面的系统应该能够同时具备这两种能力。因此,我认为可以构建一个同时具备这两种能力的系统,但由于它们是相当不同的事情,所以分开处理是有道理的。我认为这就是为什么大脑会分别处理这些任务的原因。

德瓦克什·帕特尔:

我很好奇,你认为这些目标具体如何实现?我特别想知道,DeepMind 一直在研究的特定领域的强化学习设置,比如 AlphaFold 和 AlphaCode 等。这些研究在通向通用人工智能( AGI )的路径中起到什么作用?它们只是独立的特定领域模型,还是最终会整合成 AGI ?”

谢恩·莱格:

像 AlphaFold 这样的项目并不会直接推动通用人工智能( AGI )的发展。虽然在这个过程中我们可能会学到一些相关的知识,但我不认为这些项目会成为通向 AGI 的路径。不过,我们是一个庞大的团队,有数百名博士在不同的项目上工作。当我们发现有机会做一些像 AlphaFold 这样有意义的事情时,我们会去做。我们不仅专注于 AGI 的研究,还在探索聚变反应堆、可持续性、能源等领域。我们有团队在分析卫星图像以监测森林砍伐,还有团队在进行天气预报等工作。 我们有很多人在从事各种各样的项目。

德瓦克什·帕特尔:

你之前提到的关于参考类或参考机器智能是人类智能的观点非常有趣。在你 2008 年的论文中,你讨论了如何衡量智能的问题。你提到,可以通过压缩测试来评估智能,看看它是否能够填补文本中的空白。这种方法实际上与当前训练模型的方式基本一致。你认为这是一个特别有效的训练方向吗?

谢恩·莱格:

是的,从某种意义上说,实际发生的情况与我在论文中所写的内容非常一致。这些理论源自马库斯·胡特(Marcus Hutter)的 AIC 理论。你可以将所罗门诺夫归纳法(Solomonoff induction)视为一种不可计算但理论上非常优雅且极其高效的预测系统。有了这个基础,你可以通过添加搜索和强化学习信号来构建一个通用代理,这正是 AIC 的做法。这告诉我们,如果你有一个极其优秀的序列预测器,即所罗门诺夫归纳法的某种近似,那么从这个基础到一个非常强大、通用的 AI(即 AGI 系统)只是一步之遥。事实上,你已经解决了很多问题。我认为这正是我们今天所看到的。这些极其强大的基础模型是非常优秀的序列预测器,它们能够基于所有这些数据进行数据压缩。然后,你可以不同的方式扩展这些模型,并构建出非常强大的代理。

德瓦克什·帕特尔:

那么,让我再问你一些相关的问题。理查德·萨顿(Richard Sutton)在他的《痛苦的教训》文章中提到,有两件事可以扩展:搜索和学习。我猜可以说,大语言模型(LLM)侧重于学习方面,而你职业生涯中一直在研究的搜索部分涉及一个与环境互动的智能体。那么,这是否是需要再次探索的方向?还是说需要将搜索和与环境互动的能力添加到大语言模型中,使它们能够以某种方式与数据或世界互动?

谢恩·莱格:

是的,我认为你说得对。这些基础性模型本质上是一种世界模型。要真正解决有创意的问题,你需要开始进行探索。

谢恩·莱格

我想到 AlphaGo 在第 37 手的著名走法,它是从哪里来的?是从它看到的人类棋局数据中来的吗?不是的。它是通过识别一个看似不太可能但实际上非常好的走法,并通过搜索过程发现的。所以,要获得真正的创造力,你需要在可能性的空间中进行搜索,找到这些隐藏的宝石。这就是创造力。

我认为当前的语言模型并没有真正做到这一点。它们实际上是在模仿从互联网获取的人类智慧和创意。如果你想要一个系统能够真正超越这一点,而不仅仅是以一种新颖的方式进行泛化,这些模型可以结合事物,比如以 Kanye West 说唱风格写的《哈利·波特》,尽管这种组合从未实际发生过。它们可以将事物融合在一起,对吧?但要实现真正的创造,不仅仅是现有事物的融合,而是需要在可能性的空间中进行搜索,找到那些隐藏的宝石。

所以,这需要搜索。我认为在我们拥有强大的搜索过程之前,我们不会看到真正超越其训练数据的系统。

德瓦克什·帕特尔:

有传言称 Google DeepMind 正在训练新的模型。你不必具体回应这些传言。但如果确实需要通过搜索或类似技术来达到下一个水平,你们的训练方式是否与 GPT 或其他 Transformer 的训练方式完全不同?

谢恩·莱格:

关于我们如何进行训练,我不便透露太多。可以公平地说,我们的训练方法大致与该领域许多人所做的类似,但我们有自己的见解和独特技巧。

德瓦克什·帕特尔:

关于技术问题。好吧,也许我们稍后会再讨论这个问题。但让我们简要谈谈对齐问题(Alignment Problem)。那么,如何对齐人类水平和超人类的 AI 呢?这很有趣,因为现在流行的强化学习和自我对弈的设置,比如宪法 AI(Constitution AI)或基于人类反馈的学习(LHF)。显然,DeepMind 在强化学习和自我对弈方面有多年的专业知识。所以我很好奇你对当前形势的看法,以及 DeepMind 在安全性方面如何追求对人类水平模型的研究。

谢恩·莱格:

您是想了解我们目前在做什么,还是想知道我们需要做什么?目前,我们正在进行许多工作,包括可解释性研究、过程监督、红队测试、风险能力评估和机构治理等。此外,还有许多其他项目。总之,我们有很多不同的项目在进行。

那么,我认为我们需要做些什么呢?我认为强大的机器学习和通用人工智能(AGI)迟早会到来。如果这些系统真的非常智能且强大,试图以某种方式限制或控制它们可能不会成功,因为这些系统最终会变得极其强大。

因此,你必须从一开始就使系统高度伦理化,并与价值观对齐。那么该怎么做呢?这也许有些理想化,但这是我的看法。人们是怎么做的呢?如果你面临一个非常困难的伦理决策,你会怎么做?你不会只是做第一个想到的事情,因为这可能涉及很多情绪和其他因素。这是一个复杂的问题。所以你需要冷静下来,坐下来思考。你需要考虑,“我可以做什么?如果我采取这些行动,每个行动会带来什么结果?”这需要一个世界模型。然后你需要从伦理角度评估每个不同的行动及其可能的结果,什么是正确的选择?当你思考所有不同的可能性、你的行动及其后果,以及它们如何与你的价值观和伦理观对齐时,你就能得出一个结论,知道在这种情况下最好的选择是什么,如果你真的想要做到伦理化。

我认为 AI 系统本质上需要做同样的事情。当你从一个基础模型中采样时,它就像是直接说出第一个想法。这有点像卡尼曼(Kahneman)提出的心理学中的系统 1 思维,对吧?这还不够好。如果我们进行基于人类反馈的强化学习(RLHF)或者叫什么来着?我有点记不清了。总之,没有人类反馈的 AI 版本是 AFI,对,就是这个。哦天哪,我有点搞混了。

总的来说,宪法式人工智能(Constitutional AI)试图解决这个问题。你在某种意义上试图修复底层的系统 1,这可以改变分布,非常有帮助,但这是一个高维度的分布。你在很多点上进行调整,因此这不太可能是一个非常稳健的解决方案。这就像试图改掉一个坏习惯一样,最终可以做到,但需要系统 2 的帮助。你需要一个不仅仅从模型中采样,而是进行逐步推理的系统。这个系统需要思考,分析面前的选项,使用世界模型和善意模型来理解每个选项可能带来的结果,然后从伦理角度进行推理。因此,你需要一个对世界有深刻理解的系统,有一个好的世界模型,对人类和伦理有良好理解,并且具有稳健且非常可靠的推理能力。然后,你设置这个系统,使其应用这种推理和伦理理解来分析面前的不同选项,并执行最符合伦理的选择。

德瓦克什·帕特尔:

我认为,当很多人思考基本的对齐问题时,他们担心的不是 AI 是否具备理解其行为影响的世界模型。抱歉,我的意思是理解其行为影响所需的世界模型。这确实是一个担忧,但不是主要的担忧。主要的担忧是 AI 的目标与我们的目标不一致。因此,即使你改进了它的系统,使其思考和规划能力更强,根本问题仍然是我们有复杂的价值观,如何传达这些价值观并确保它们在 AI 中得到强化。

谢恩·莱格:

不仅需要一个好的世界模型,还需要对伦理有深刻的理解。我们需要向系统传达应遵循的道德和价值观。

德瓦克什·帕特尔:

我们如何确保一个达到或超越人类水平的模型能够保留并学习人类的价值观?

谢恩·莱格:

它应该遵循这些原则,因为如果在所有决策中都基于对伦理和价值的良好理解,并且在执行时保持一致,就不应采取违背这些原则的行动。否则,这些行动将显得不一致。

德瓦克什·帕特尔:

那么,我们该如何达到最初教会它们的那一步呢?

谢恩·莱格:

是的,这就是挑战。我认为,要拥有一个高度伦理的 AI 系统,它必须非常强大。它需要一个非常好的世界模型,对伦理有深刻的理解,并且具备卓越的推理能力。因为如果没有这些要素,怎么可能始终如一地保持高度伦理呢?这是不可能的。 所以,我们实际上需要在推理能力、对世界的理解以及对伦理的理解方面做得更好。

德瓦克什·帕特尔:

系统,对吧?在我看来,随着这些模型变得更强大,强化学习和自我对弈似乎会自然而然地随之发展。

谢恩·莱格:

这是一个很好的特点,因为它实际上是一个能力问题。

德瓦克什·帕特尔:

在某种程度上确实如此。但如果第三个因素成为瓶颈,或者第三个因素并没有随着 AI 本身的发展而进步,那么实际确保这一点的技术是什么?

谢恩·莱格

第三点,抱歉,我刚才说到哪里了?

德瓦克什·帕特尔:

在伦理模型中,人类重视的是什么?

谢恩·莱格:

我们面临几个问题。首先,我们需要决定是否应该让系统接受伦理训练。我的意思是,有很多课程、论文和书籍等资源可以帮助它深入理解人类伦理,对吧?我们需要确保它对人类伦理有深刻的理解,至少要达到顶尖伦理学家的水平。接下来,我们需要决定,在这种普遍的伦理理解中,我们希望系统实际重视哪些价值观,并希望它应用哪些伦理原则。这不是一个技术问题,而是一个需要社会和伦理学等领域共同解决的问题。

我不确定是否存在所谓的真正正确的最优伦理,但我确信可以提出一套比"末日论者"担心的 AGI 系统行为更好的伦理标准。然后,我们需要设计系统,使其实际遵循这些标准。每次它做出决策时,都需要基于对世界和伦理的深刻理解,以及稳健且精确的推理来进行伦理分析。当然,我们还希望有很多其他的措施。我们希望有人检查这些推理过程,验证其行为是否符合预期。

德瓦克什·帕特尔

明白了。那么我们如何确保它做到这一点呢?

谢恩·莱格

我们必须在执行过程中进行检查,确保它始终遵循这些伦理原则。我不确定是否存在最优解,但至少要做到和人类一样好。

德瓦克什·帕特尔

你们是否担心,如果按照传统方式进行训练,即每当系统似乎遵循伦理时就进行强化,你们可能也在无意中训练它的欺骗行为?

谢恩·莱格:

在我看来,强化学习存在一些潜在的危险。我认为,更稳妥的方法是检查系统的推理过程及其对伦理的理解。为了确保系统对伦理有深刻的理解,我们应该对其进行一段时间的严格测试,全面评估其理解程度,确保其非常牢固。此外,在系统部署后,我们应该有专人持续监控其决策和推理过程,以理解其如何正确地处理这些问题。

德瓦克什·帕特尔:

谷歌 DeepMind 是否有某种框架来处理这个问题?

谢恩·莱格:

这不仅代表了 Google DeepMind 的观点,也是我个人对这类工作的看法。内部有许多不同的观点和这些想法的变体。

德瓦克什·帕特尔:

那么,您个人认为是否需要某种监管框架,在达到某些能力时制定具体的安全标准,还是应该暂停或减缓进度?

谢恩·莱格:

我认为这是一个明智的做法,但实际上非常困难。有些人在思考这个问题,我知道 Anthropic 已经提出了一些类似的想法。我们也在研究这个问题。实际上,落实具体措施是相当具有挑战性的。因此,我认为这是一个重要的问题,并鼓励人们去研究它。

德瓦克什·帕特尔:

你知道,你写过一些博客文章,特别是在 2010 年创办 DeepMind 时写的那些。你提到你的动机是推动人工智能的发展。那么,你认为 DeepMind 在安全性和能力方面产生了怎样的影响?

谢恩·莱格:

哦,有趣。我不知道,很难判断。实际上,我很早就开始担心 AGI(通用人工智能)的安全问题,甚至在 DeepMind 成立之前就已经在担心了。但在早期,确实很难招聘到愿意从事 AGI 安全研究的人。我记得大概在 2013 年左右,我们才招聘到第一个研究人员,但他只同意兼职工作,因为他不想放弃所有的能力研究,毕竟这对他的职业生涯和其他方面有影响。而且这还是一个之前已经在 AGI 安全领域发表过论文的人。所以,我不知道如果我们不在那里做这些工作,情况会是怎样。我认为,我们一直是一个公开讨论这个问题的团队。我在很多场合都谈到过它的重要性。我们一直在招聘人来研究这些话题。我认识这个领域的很多人,多年来一直与他们交流。我从 2005 年左右就认识 Dario,我们时不时会讨论 AGI 安全问题。所以,我不知道 DeepMind 的影响有多大。我想我们是第一家 AGI 公司,作为第一家 AGI 公司,我们一直有一个 AGI 安全团队,多年来一直在这个领域发表论文。

我认为,当人们看到通用人工智能(AGI)时,这为该领域增加了可信度。我的意思是,AGI 曾经是一个边缘概念,而现在有人在 DeepMind 从事 AGI 安全工作。我希望这能为人们提供一些新的机会。

德瓦克什·帕特尔:

你认为如果没有 DeepMind,AI 的进展会如何?这个问题不仅针对 DeepMind,我认为我们对 OpenAI 和 Anthropic 也有类似的疑问。这些公司进入这个领域是为了促进 AI 的安全性,但最终的净效果可能是加速了能力的发展。

谢恩·莱格:

是吗?我认为我们在提高能力方面取得了进展,但相应的应对措施却相当困难。比如说,我们没有参与 ImageNet 项目。而 ImageNet,我认为,对吸引该领域的投资非常有影响。是的,我们确实开发了 AlphaGo,这改变了一些人的看法。

你知道,社区不仅仅是 DeepMind 一家。现在情况有所不同,因为有许多其他拥有大量资源的参与者。但如果回到五年前,我们能够用更大的团队做更大的项目,承担比许多小型学术团体更雄心勃勃的任务。所以我们能够进行的工作类型有所不同,我认为这在某种程度上影响了动态。

但你知道,AI 研究社区远比 DeepMind 大得多。所以,也许我们加速了一些进展,但我认为很多发展本来就会发生。这些好点子往往是大家都在思考的。作为研究人员,有时你发表某些东西或即将发表时,会发现其他人也有非常相似的想法并取得了不错的结果。我认为很多时候,时机是成熟的。因此,我觉得很难对这些假设的情况进行推理。”

德瓦克什·帕特尔:

提到早期阶段,真的很有趣。2009 年,你在一篇博客文章中提到,你预计我们将在 2025 年达到人类水平的人工智能,预计时间大约是 2028 年左右。这是在深度学习兴起之前,当时几乎没有人谈论人工智能。如果趋势继续下去,这个预测是合理的。在所有这些趋势出现之前,你是如何做出如此准确的估计的?

谢恩·莱格:

首先,让我们回到 2008 年深度学习刚刚起步的时候。

德瓦克什·帕特尔:

哦,抱歉,我本来想先提到这个的。

谢恩·莱格:

我想这大概是在 2012 年之前。我最初形成这些信念是在 2001 年左右,当时读了雷·库兹韦尔(Ray Kurzweil)的《机器的精神时代》。我得出的结论是,库兹韦尔的观点是正确的。

在他的书中有两个非常重要的观点,我认为是正确的。其一是计算能力将在未来几十年内呈指数增长,另一个是世界上的数据量也将在未来几十年内呈指数增长。 当计算能力和数据量都呈指数增长时,高度可扩展算法的价值也会越来越高。因此,有很大的动力去开发更可扩展的算法来利用这些计算和数据资源。我认为我们很可能会开始发现可扩展的算法来实现这一目标。这些因素之间存在正反馈关系。如果你的算法在利用计算和数据方面变得更好,那么数据和计算的价值就会上升,因为它们可以被更有效地使用。这会推动更多的投资进入这些领域。如果计算性能提高,那么数据的价值也会上升,因为你可以利用更多的数据。因此,这些因素之间存在正反馈循环。这是第一个重要观点。

第二点是观察趋势。如果我们能够发现可扩展的算法,那么在 2020 年代,我们应该能够开始在远超人类一生所经历的数据量上训练模型。 我认为那将是重大突破开始出现的时刻,并最终实现通用人工智能(AGI)。这是我的推测。我认为我们现在已经处于这个阶段的第一部分。我们现在可以开始用超出人类一生所能体验的数据量训练模型。所以我认为这是实现的第一步。我认为到 2028 年有 50%的可能性会实现 AGI。 当然,这只是 50%的可能性。我确信到 2029 年会有人说,“哦,Shane,你错了。”但我会说,“来吧,我们谈谈。”所以,我认为这是完全可能的。到 2028 年有 50%的可能性会实现,但如果到那时还没有实现,我也不会感到惊讶。你知道,在研究和科学中经常会遇到意想不到的问题,有时事情会比预期的更久。

德瓦克什·帕特尔:

如果在 2029 年某个问题导致某种情况未能发生,回顾过去,您认为最可能的原因是什么?

谢恩·莱格:

我不知道。不过,目前看来,所有问题可能在经过数年的研究后得到解决。

德瓦克什·帕特尔:

那么,从现在到 2028 年这段时间会是怎样的?如果 2028 年真的是那个关键年份,我们会看到数万亿美元的经济影响吗?世界会变得更加动荡吗?会发生什么变化?

谢恩·莱格:

我认为你会看到现有模型逐步完善。它们会减少错误,变得更加准确。在回答问题时,它们对当前事件的了解会更加深入。它们还将具备更多功能,从而变得更加有用。

我认为未来几年我们会看到大量优秀的应用,尽管也会出现一些误用的情况。人们将开发出非常有用的模型应用,但总体上我对未来的预期是积极的。

德瓦克什·帕特尔:

关于人工智能的安全性问题,你提到了不同的研究方向,包括你们在 DeepMind 内部进行的研究,如可解释性和反事实推理等。你对哪个方向最为乐观?

谢恩·莱格:

哇,我不知道。我不想挑选最喜欢的领域,这很难。我知道很多人在这些领域工作。我认为类似于系统二的研究很有前景。我们有一个由杰弗里·欧文(Jeffrey Irving)领导的项目叫做“深度对话”,它有点像系统二的风格。在这个项目中,智能体可以就某些行动或正确答案进行辩论。人们可以审查这些辩论,并使用这些 AI 算法来帮助判断正确的结果。这是一种尝试将对齐扩展到日益强大的系统的方法。我认为这种类型的研究非常有前途,但这是一个相当广泛的研究类别,其中包含许多不同的主题。

德瓦克什·帕特尔:

这很有趣。你提到大语言模型(LLM)需要改进的两个方面:一个是上下文记忆,另一个是辅助推理。这两者是相关联的,还是两个独立的问题?

谢恩·莱格:

我认为这些系统是相对独立的,但也可能存在一定的关联。你可以通过不同的方式思考问题,并利用情景记忆快速学习。因此,这些不同的系统和子系统是相互作用的。尽管它们从未完全独立,但从概念上讲,你可以将它们视为相对独立的存在。

我认为幻觉和真实性是另一个重要领域,尤其在许多应用中非常重要。比如,如果你想要一个能写创意诗歌的模型,那很好,因为你希望它能够自由地提出各种可能性,而不受现实的限制。然而,如果你需要一个用于特定应用的模型,通常你必须非常具体地知道当前发生的事情、什么是真实的、什么是不真实的等等。目前的模型在真实性和创造力方面有些随意,我认为这在很多方面限制了它们的应用。

德瓦克什·帕特尔:

最后一个问题。你在这个领域已经工作了十多年,比许多人都要久,见证了许多重要的里程碑,比如 ImageNet 和 Transformer。你认为下一个重要的里程碑会是什么?

谢恩·莱格:

我认为下一个让人们铭记的重要里程碑将是多模态技术的全面发展。这将把我们在语言模型中看到的理解扩展到更广阔的可能性空间。 回顾过去,人们会想到那些只能聊天、只处理文本的老式模型,这显得非常狭隘。而现在的模型不仅能理解你对它们说的话,还能理解图像和视频。你可以向它们展示各种东西,它们会对正在发生的事情有更深入的理解。这将使系统以更强大的方式融入世界。

德瓦凯什·帕特尔:

您介意我继续追问一下吗?OpenAI 刚刚为 ChatGPT 发布了多模态功能。而在 DeepMind,你们有 Gato 论文,展示了一个模型可以处理图像、动作、视频游戏等各种输入。但到目前为止,它似乎还没有像 ChatGPT 从 GPT-3 发布时那样引起广泛关注。这是为什么呢?是因为人们还没有学会使用多模态功能吗?还是说它们还不够强大?

谢恩·莱格:

我认为我们现在还处于早期阶段。虽然你可以看到一些希望,比如对图像和其他事物的理解越来越深入,但这个转变仍然在初期。当你开始真正消化大量视频和其他内容时,这些系统将对世界和各种其他方面有更扎实的理解。当这一切运作良好时,自然会开启许多新的应用和各种新的可能性,因为你不再局限于文本聊天了。

德瓦克什·帕特尔:

是否还有新的训练数据途径?

谢恩·莱格:

是的,新的训练数据和各种新应用不再仅限于纯文本。那么,这些应用是什么呢?很多我们现在可能还无法想象。因为一旦你能够以一致的方式处理各种不同的模式,可能性就会非常多。

(完)

转自----知乎--AI就是这样

相关资讯
More >