奥特曼最新访谈:GPT5将会以全新方式发布,OpenAI将放出开源模型

0

0


5月11日,OpenAI首席执行官山姆·奥特曼(Sam Altman)日前参加了播客节目“All-in Podcast”。节目中,他谈论了GPT-5发布、AI硬件、智能体、训练数据、UBI等话题,也回应了去年的“宫斗”风波以及7万亿募资传闻。

访谈的信息量非常巨大,建议任何关注人工智能前沿动态,对 OpenAI 和奥特曼本人观点感兴趣的读者都不要错过这篇访谈。

与谷歌CEO皮查伊此前参加彭博社专访节目类似,奥特曼这次亮相,也是想在OpenAI在13日发布会前造势。

作为理解今晚OpenAI发布会的“信息前菜”,这个访谈能让我们对OpenAI以及整个人工智能未来的热点和方向和奥特曼本人进行一次“对齐”。

经智能涌现整理,奥特曼的核心观点如下:

  • GPT-5:不着急推出,发布策略与此前或有不同。以及,GPT-4发布后已有多轮升级,这比版本迭代更值得关注。
  • 开源vs闭源:二者各有优点。已经开源了一些项目,也计划未来开源更多。重申OpenAI没有忘却技术普惠的初心。
  • 移动端模型:对端侧模型开发十分感兴趣。若要做AI硬件,很难超越苹果级别的智能设备。语音交互是重要方向,但是要做好不容易。
  • 智能体:相比AI替身,更期待会对人类指令有“自我见解”的AI助理。
  • 人工智能风险:可能引发全球性问题,建议引入全球性国际监管机构。
  • 法律法规:针对人工智能的法规容易过度和过时,但安全性测试仍很有必要。
  • “宫斗”风波:相信董事会此前要有心解决问题。大家初心都是想安全实现AGI。


以下是节目内容的全文记录。

主持人:第一次遇见Sam Altman是在大约20年前,那时他在开发一款名为Loop的本地移动应用程序。我们都得到了红杉资本的支持,实际上,我们都是红杉资本的第一批童子军。

他投资了一家名不见经传的金融科技公司Stripe,而我投资了Uber。我和Sam作为童子军参与的那个小型实验基金是红杉资本回报率最高的基金。我听说,几百万美元变成了超过2亿美元。他还曾在Y Combinator工作过一段时间,并在2014年至2019年担任总裁。2016年,他与他人共同创立了OpenAI,其目标是确保通用人工智能造福全人类。2019年,他离开YC,全职加入OpenAI担任首席执行官。

2022年11月30日,事情变得非常有趣。那天是OpenAI推出ChatGPT的日子。2023年1月,微软投资了100亿美元。2023年11月,在疯狂的五天时间里,Sam被OpenAI解雇。每个人都要去微软工作。人们开始猜测该团队已经达到了通用人工智能(AGI)。世界末日就要来临了。突然间,几天后,他又回到了OpenAI的首席执行官的位置。

2023年2月,Sam正在寻求为一个AI芯片项目筹集7万亿美元。此前有报道称,Sam正在寻求从Masayoshi San那里筹集10亿美元,与iPhone的联合创始人Johnny Ive一起打造一款iPhone杀手。

与此同时,ChatGPT变得越来越好,变得家喻户晓。它对我们的工作方式和工作完成方式产生了巨大影响。据报道,它是历史上在短短两个月内,用户数量达到1亿级别的产品。看看OpenAI的疯狂收入增长。据报道,去年他们的ARR达到了20亿美元。

发布GPT-5不想沿用传统方式

问:业内都在迫不及待的等待着GPT-5的发布。有报道称,这款产品将会在今夏某时正式推出。能给我们一个更准确的时间范围吗,你们会在何时发布GPT-5?

奥特曼:目前我们还没有确定一个具体的日期。现在,我们推出新的重要模型时会更谨慎。也如之前说的,我们在考虑采用新的发布策略,确保发布时能达到我们的预期标准。我甚至都不知道,它是否真的会叫GPT-5。

很多人特别是在过去几个月注意到,GPT-4发布后,模型性能也在持续提升。技术进步并不是简单的版本号递增,模型的发展,更像是单个模型基础上的持续的渐进式优化。实际上,渐进式的更新也有利于人们接受新的技术。

问:这是否意味着,不会有很长的训练周期,而是持续不断地反复训练或训练子模型。对于大模型,未来在架构方面会有哪些变化?

奥特曼:持续训练模型,在我看来再也合理不过。

问:刚才你谈到GPT-5这次发布会有点不同。你是不是在想先向付费用户发布GPT-5;或者现在安全风险还很高,你们打算先让红队进行测试之后,再逐步向用户发布?

奥特曼:目前GPT-4仍然只对付费用户开放,但我们的使命是开发人工智能工具,并尽可能广泛地免费提供给用户,或者以非常低廉的成本提供服务。我们相信,这样可以帮助人们利用这些工具去发明和创造新的事物,创造无比光明的未来。

我们非常希望GPT-4级别的先进模型,能够以免费或低成本的方式提供给更多的用户,但这确实十分高昂,目前我们也还在探索对应的方法。

开源闭源各具优势,模型进步不应依赖数据

问:人们的讨论似乎离不开两大话题。一是潜在成本和延迟,某种程度上限制了杀手级应用的速率。

二是长期开发的角度来看,开源闭源哪个好?目前开源社区发展非常迅速。一个多月前,Devin的demo视频发布,给我们留下了非常深刻的印象。然后就有年轻人根据MIT的开放许可证(如OpenDevon)在开源社区里做出了类似的产品,效果非常好,甚至比很多闭源的还好。

能聊聊现在模型依然闭源的商业考虑吗?以及你认为未来几年,开源闭源的发展态势是怎样的?

奥特曼:关于你提到的速度和成本问题,我们非常重视。我无法给出一个确切的时间表,什么时候能真正降低成本,毕竟研发是艰难的,但我们有信心大幅度减少延迟,大幅降低成本。要知道,我们仍处于对人工智能技术发展早期,无法理解其真正的工作原理,但至少我们目前的开发工作也还比较顺利。我不知道,我们何时才能获得便宜至极的智能,而且反应速度快到大家都觉得它是即时的。但我们可以达到相当高的智能水平。这对我们重要,也能为用户解锁很多东西。

在开源和闭源的问题上,我们认为两者各有优点。我们已经开源了一些项目,也计划未来开源更多的模型。

但我们的使命是朝着AGI的方向发展,并想办法广泛地分配这一技术带来的好处。我们有个策略好像引起了很多人的共鸣,但显然也不适合所有人。我们想做一个庞大的生态系统,当然会有开源模型及背后的开发者。

个人对开源特别感兴趣的一个领域是,我希望有个尽可能好的开源模型,可以在我的手机上运行。我认为,要做一个这样的端侧模型版本,目前还没有出现足够好的技术,但这件事应该很要紧,迟早要完成。

问:你们何时会开发在手机上运行的开源模型?你会这样做吗?你会发布这样的模型吗?

奥特曼:我不知道我们会不会,或者有人会。

问:Llama 3怎么样?

奥特曼:Llama 3在手机上运行?

问:那应该适合手机。

奥特曼:但是我不知道,我不确定那是否适合,我还没有玩过。我不知道它是否足以完成我这里的设想

问:当Llama 3发布时,很多人首先就觉得,哇,他们已经赶上了GPT-4。可能它并不是在所有方面都平等,但总的来说,它非常非常接近。我想问题是,你们发布GPT-4有些时候了,你们也正在开发5,或者要对4进行更多升级。我想听听你的观点,即如何比开源做得更好?这通常是一项极具挑战性的任务,你怎么看?

奥特曼:我们的目标并不是制造出我们能制造的最智能的权重集,而是制造出一个有用的智能层供人们使用。模型只是其中的一部分。我相信我们将在这方面保持领先,并在这方面能够远远领先于世界上的其他玩家。

但整个系统还有很多其他工作,不仅仅是模型权重。我们必须像其他任何企业一样,以传统方式建立持久价值。我们必须做出伟大的产品和坚持运作下去的理由,并以优惠的价格进行交付。

问:OpenAI创立时确立的目标,或者你刚刚讨论的也是——技术太重要了,每一家公司都应该用上才对,所以应该开放。但现在态度又转变为,这个技术过于危险,不能让每个人都能接触,需要有所限制。我想,大概是你开始有所害怕。我想知道,这是真的吗?

有的人可能会嘲讽说,OpenAI只是想赚钱了。然后,我很好奇这一转变的背后有怎样的思考?世界需要看到这一点——为什么闭源那么重要,只有自己人才能看到。你是怎么得出这个结论的呢?

奥特曼:我们发布ChatGPT的部分原因是,希望全世界都能看到这一点。我们一直在试图告诉大家,人工智能真的很重要。2022年10月,那时并没有那么多人,认为人工智能会那么重要。可能的确有人看到这一技术的潜力。

但我们最想做的就是把技术交到人们手中。我还是想说,条条大路通罗马。但有这么多人在使用ChatGPT的免费版本,不投放广告,不想从中赚钱。我们推出这项工具,是希望人们拥有、使用工具。我认为它帮了大家很多忙,提供了很大的价值,就像是教人们如何钓鱼,但也因此,世界开始真正思考我们推出的技术。

现在,我们还是没有找到所有答案。但和其他人一样,我们摸着石头过河。随着认知更新,我们也可能会多次改变策略。就比如创办OpenAI时,我们真的不知道事情会如何发展。就做语言模型应该够了?永远不做产品了吗?我清楚地记得第一天成立,我们当时想,好吧,现在我们都做到这个地步了。要把这这一切准备好这么难。但现在发生什么呢?也许我们应该发研究论文,也许我们应该围着白板站着。我们一直在努力,做一步,再看一步,如此进步。我们会继续这样做。

问:我理解您的观点是,无论是开源还是闭源,无论何种商业决策,所有这些模型都将一直逐步提高其准确度。可能非所有的公司都用这些模型赚钱,假设有四到五家吧,比如Meta、谷歌、微软等,或者可能还有一家初创公司。这些公司都在开源网络上运作。然后很快,这些模型的准确性或价值,又会依赖特定玩家专享的训练数据源,这些数据源就并非每个玩家都能获取了。

您认为事情的发展趋势是这样的吗?开源网络使每个玩家都达到一定门槛,然后变成数据争夺战?

奥特曼:我并不这么认为。我坚决认为这不会变成一场争夺数据的军备竞赛。模型变得足够智能时,要想进步就不该继续过于依赖数据,至少不是用于训练的数据。不应该是数据让模型有用。

经历这么多之后,我学到的最重要一课就是,很难对未来几年的走向做出自信预测,所以我现在不想这么做了。我期待世界上出现许多非常强大模型。我觉得我们刚刚偶然发现了一个新的自然或科学事实。或者你可以称之为我们可以创造的事实:智能只是物质的这种突现属性,这就像物理法则之类的东西。人们会弄清楚的。

相应的系统设计方法肯定可以是多样的。人们会做出不同的选择,有新的想法。我敢肯定,就像任何其他行业一样,我预计会有很多可行方法,不同的人偏好不一样,有喜欢 iPhone的,有喜欢 Android 的。我认为未来是这样。

问:让我们回到第一部分,只讨论成本和速度。所有玩家都有点受到英伟达产能的限制,是不是这样?你们和大多数人都已经宣布了可以获得多少产能,我认为因为这只是英伟达的最大产能。在基础层上,到底需要有哪些进步,你们才能真正降低计算成本,加快计算速度,获得更多能源?你们又如何帮助行业解决这些问题?

奥特曼:我们肯定会在算法上取得巨大进步。我不想看低这一点。我对芯片和能源非常也感兴趣。但如果我们能够使相同性能的模型效率提高一倍,那实际上就等于我们拥有了双倍的计算能力,不是吗?我相信在提升效率方面还有很多工作要做,并且我期待我们能够真正开始看到这些成果的显现。

除此之外,供应链也非常复杂。有芯片制造设施的产能。世界可以产出多少HBM(高带宽内存),你要花多少时间,快速获得许可证、浇筑混凝土、建立数据中心,然后安排人员布线。这都是问题。最后是能源,这是一个巨大的瓶颈。但我认为,当人工智能技术对人类的价值足够大,世界就会对此真正行动起来。我们也想尽快实现这一目标。可能性的确存在,我无法给出具体的概率。不过我也相信,正如你之前提到的,如果在基础设施方面取得重大突破,我们可能会拥有一种更加高效的计算方法。不过,我不愿意过于依赖这种可能性,也不会花费太多时间去考虑它。

看好语音交互,期待人工智能助理的出现

问:设备端的情况呢?你之前提到能够适配手机的模型,无论是大语言模型(LLM)还是小语言模型(SLM),我相信你肯定已经在考虑类似模型的应用。但是,设备本身是否也会随之发生变化?设备要像iPhone一样贵吗?

奥特曼:我对这个话题非常感兴趣,并且对计算领域的创新形态充满热情。每一次技术的重大飞跃,都能带来新的可能。智能手机已经做得很好,要再上一个高度,门槛会很高很高。我个人认为,iPhone是人类造出的最伟大的技术产品。真的是一款让人惊叹的设备,已经非常出色了。

问:你现在在和Jony Ive(“iPhone之父”,前苹果首席设计师)合作,或许会有些动作。

奥特曼:是的我们在交流一些想法。

问:这个设备必须设计得更复杂,还是应该更经济、更简单呢?

奥特曼:几乎每个人都已经愿意为手机付费,即使能制造出一种更便宜的设备,携带第二件电子设备或使用第二件设备的障碍就相当高。因此,考虑到我们都愿意为手机付费,或者我们大多数人都愿意用手机,我认为让AI设备更便宜,并不能解决问题。

问:是否会有一种专门的芯片可以在手机上运行,并且能够很好地驱动手机大小的AI模型?

奥特曼:可能会有(这样的芯片),手机制造商肯定会朝这个方向努力。那这样,我们去创造一个新设备就没必要了。我认为关键在于,要发掘一种技术进步驱动的、与众不同的互动模式。如果能告诉我是什么,我现在就会非常激动地投身于这个领域的开发。

问:不过,你们现在的应用已经具备了语音功能,实际上,我已经将手机上的快捷动作按钮,设置成直接启动ChatGPT的语音应用。我常和孩子们一起使用它,他们非常喜欢与它交流。尽管这个应用有时会出现一些延迟问题,但确实很好用。

奥特曼:我们将继续改进语音功能的质量。我相信语音交互或许是通向未来交互方式的重要线索。如果能做出真正优质语音互动体验,那将成为与计算机互动的全新方式。

问:顺便提一下,ChatGPT有时怎么不响应?这确实有点烦人。但当它提供正确答案时,又同样令人赞叹。

奥特曼:我们正在努力改进,目前它确实显得有些笨拙,响应速度不够快,不够流畅自然。我们也想提升体验。

问:关于计算机视觉呢? 你可以选择佩戴相关设备。你可以将视觉或视频数据与语音数据结合起来。人工智能就能全面掌握你周围发生的一切。

奥特曼:多模态交互的能力极其强大,例如,可以提问:“嘿!ChatGPT,我正在看什么?”或者“我不太确定这是什么植物。”这显然是另一个探索方向。

但关于人们是否愿意佩戴眼镜,或者在需要时举起某个设备来获取信息,我认为这涉及到许多社会和人际交往方面的复杂考量,在面部佩戴设备时尤为如此。

问:我们看到了谷歌眼镜的案例,曾经有人戴着谷歌眼镜做事时还引起身体冲突。如果人工智能无处不在,例如在人们的手机上,那么它可以解锁哪些应用程序呢?你有没有这种感觉?你希望看到什么?

奥特曼:我期望拥有的是一种始终处于激活状态且极易使用的设备,它可以通过语音、文字,或者更理想的状态,通过其他方式理解我的需求。我设想有一个系统能够全天候地辅助我,尽可能多地收集上下文信息,成为世界上最出色的助理,不断地帮助我提升自我。

当讨论到人工智能的未来时,人们通常有两种不同的观点,它们听起来可能颇为相似,但在系统设计的实际应用上却有着显著差异。

一种观点是希望,人工智能成为个人的延伸,像一个幽灵或另一个“我”,能够代表“我”行动,甚至在不通知我的情况下处理邮件,它变得就像是我的一部分。另一种观点——人工智能成为一个出色的高级员工,能非常了解我,我可以向它委派任务,它可以像有权访问我的电子邮件一样了解我的需求,但我会将其视为一个独立的实体。

我个人更倾向于后者,认为这是我们未来发展的方向。在这个意义上,人工智能不是用户的简单延伸,而是一个始终可访问、能力超群的助理或主管。

执行指令前,优秀的智能体能“顶嘴”

问:智能体在某种程度上就像是你的代表,它能够理解你的需求,并且预测你的意图,可以这么理解吗?

奥特曼:我认为会有代理人的行为,但高级员工和代理人之间是有区别的。
我想要它,我认为我喜欢高级员工的一点是他们会反驳我。他们有时不会做我要求的事情,或者有时会告诉我:我可以做那件事,但会有那些后果。不仅仅是我给它一个任务,它盲目地去做。它可以推理,并且反驳。我期望与一个真正有能力的人共事,这与谄媚者不同。

问:在这个设想的世界中,如果我们拥有像Jarvis(Jarvis是钢铁侠的人工智能助手)这样的高级智能体,它们将怎样改变我们与应用程序的互动方式?这些智能体具备推理能力。这将对我们目前使用的产品界面产生哪些影响,尤其是在那些界面价值极高的应用上,比如Instacart、Uber和DoorDash等,不是单纯提供API接口的服务,而是直接为人们提供便利。

在这样一个由智能体代表80亿人进行交互的世界里,我们对应用程序的工作方式和整个体验架构的思考需要如何转变?

奥特曼:我个人对设计一个人类和人工智能都能使用的世界非常感兴趣。我喜欢它的可解释性,喜欢交接的流畅性,喜欢我们能够提供反馈的能力。

例如,DoorDash可以向我未来的人工智能助手公开一些API,使其能够下订单等。我可以拿着手机说:“好的,AI助手,请在DoorDash上下这个订单。”我可以看到应用程序打开,看到东西在点击,我可以说:“嘿,不,不是这个。”

设计一个人类和AI共存的世界,是很有趣的。出于同样的原因,我对人形机器人比对其他形状的机器人更感兴趣。这个世界是为人类设计的,我认为我们应该保持这种状态。

问:你会看到语音、聊天等模式正在取代应用程序。你只需告诉它你想要寿司,它知道你喜欢什么寿司,知道你不喜欢什么,并会尽最大努力去满足你。

奥特曼:很难想象,我们会进入一个完全不同的世界,只需简单地说“嘿,ChatGPT,给我订份寿司”,然后它回应“好的,你想从哪家餐馆订?要哪种类型的寿司?什么时间送达?”等等一系列问题。

所以我相信用户界面对于许多任务来说都是非常有用的。我很难想象一个你完全不再看屏幕,而只依赖语音交互的世界,那样的场景不够智能。

问:确实如此。对于许多事物来说是这样的。比如,苹果推出了Siri,按理说我们可以通过Siri来自动预约Uber,但我怀疑实际上很少有人这么做。毕竟,为什么要冒这个险呢?正如你所指出的,因为目前语音助手的服务质量还不够高。然而,一旦服务质量足够高,我认为人们真的会更倾向于使用语音助手,因为它更加便捷。你不需要拿出手机,不需要打开应用,不需要点击任何东西。如果遇到应用自动登出,或者需要重新登录,或者进行双因素认证(TFA)的情况,整个过程就变得非常繁琐。

奥特曼:对于像设置计时器这样简单的任务,我总是使用Siri,因为它非常有效且方便,我也不需要其他额外的信息。然而,对于像叫Uber这样的服务,我可能想要比较几种不同选项的价格,了解车辆距离我的实际远近,甚至查看司机在地图上的实时位置,因为有时候我可能会选择步行到某个更方便的地点。通过直接在Uber应用的界面上操作,我可以更快地获取这些详细信息,这比通过语音指令来完成整个过程,要高效得多。

我认为将会有不同的交互界面用于不同的任务,而且我认为这种情况将会持续下去。

具备推理能力的模型是 AGI 的关键

问:在所有在OpenAI上构建应用程序和体验的开发人员中,有没有一些让你印象深刻的?你是否觉得这是一个非常有趣的方向,即使它只是一个玩具应用程序。但是,你们是否有指出并说其中十分重要的?

奥特曼:我今天早上遇到了一个新建的创业团队,两个人组成。他们致力于开发人工智能导师功能。我对这一领域一直抱有浓厚兴趣,尽管许多人已经在我们的平台上取得了杰出成果,但如果能够有人实现——正如他们所形容的,这将是一次蒙特梭利级别的再造——彻底改变我们学习的方式,那将是非常令人兴奋的。如果能够找到一种新的途径,让人们能够以个性化的方式探索和学习,我个人非常看好这个方向。

你之前提到的与编程编码相关的许多事项,我认为这是对未来的一个非常酷的展望。我相信医疗保健是一个特别需要被彻底革新的领域。但就个人而言,我最感到兴奋的是加速和改进科学发现过程的可能性。尽管GPT-4显然没有在很大程度上发挥作用,但它可能会通过提高科学家的生产力来加速事情的发展。

问:这些模型与语言模型在训练和构建上有所区别。虽然它们之间存在许多共同点,但也存在许多差异。这些模型中的许多都是基于一种全新的基础架构设计的,它们专门针对特定的问题集或应用场景,例如化学相互作用的建模,是这样吗?

奥特曼:我认为我们当前普遍缺失的是具备推理能力的模型。一旦模型能够进行推理,就可以将它们与化学模拟器等工具相结合,或者用于进行预测和做出假设。

问:确实,我今天想探讨的一个关键话题是模型网络的理念。在讨论智能体时,人们往往会想到一系列线性的函数调用,但在生物学中,我们观察到的是系统之间复杂的网络和相互作用。这些系统通过集合和网络的整合作用产生结果,而不仅仅是简单的线性调用。我们是否正处于这样一个架构的兴起之中:专业模型或网络模型相互协作,共同解决更复杂的任务集,运用推理能力,其中一些计算模型专注于化学或数学运算,而其他模型则承担不同的职责。这种架构避免了依赖单一的、全知全能的模型来处理所有问题。

奥特曼:我并不确定有多少推理能够转化为一种广泛推广的形式。我有这样的预感,并且希望它是,如果真的能够实现,那将是非常理想的情况。不过,我并不确定最后真的会发展成这样。

问:让我们以蛋白质结构预测为例。存在大量蛋白质图像和序列数据,研究人员利用这些数据构建了一个预测模型,并且遵循一系列流程和步骤来实现这一点。可以设想,未来可能会有一种人工通用智能或具备高级推理能力的模型,它能够自主地构建出解决这一问题的子模型,通过搜集必要的数据并进行处理来解决蛋白质结构预测的问题吗?

奥特曼:存在许多可能性。例如,可能为特定任务训练一个专门的模型;或者,可能依赖于一个大型模型,这个模型能够识别出它所需的其他训练数据,然后主动查询这些数据,并据此更新自身的知识库。

问:我想知道,是否真的所有这些初创公司都会失败?目前许多初创公司都在采取这样的策略:收集特定的数据,接着基于这些数据全新训练一个模型,该模型专门针对某一任务进行优化,并且在这一任务上的表现超过了其他所有解决方案。

奥特曼:某种程度上,正如我们在讨论生物学和那些复杂的系统网络时所指出的,我已经能够窥见一二。我之所以会笑,是因为最近我经历了一场严重的疾病,现在已大致康复,但整个过程就像是身体系统逐一受到攻击。患者可以明确感受到,比如,这是消化系统的问题。这让我想起了我们之前讨论的,你不知道这些系统之间相互作用的复杂性,直到出现问题,这本身是一个非常有趣的现象。同时,我尝试使用ChatGPT来理解我的病情。我可能会说,我对某个问题不太确定。然后,我在没有阅读的情况下,把相关的论文链接放入上下文中,然后发现,哦,这就是我不确定的那个问题,现在我认为应该是这样。这就是你之前提到的一个例子,你可以说,我不知道这个信息,然后你可以添加更多的上下文信息,而不是重新训练整个模型,你只需要即时地增加上下文,然后你就能得出一个结论。

问:这些用于预测蛋白质结构的模型,比如说,构成了这个领域的基石。现在,我好奇的是,Alpha 3是否能够处理其他分子类型的预测?如果可以,那么理论上最好的通用模型将能够接入、学习训练数据,并自主解决问题。或许你可以为我们举一个例子来阐释这个过程。你能和我们谈谈Sora吗?你的视频模型能够生成令人惊叹的动态图像和视频。你愿意分享的话,能不能告诉我们它的架构有何独特之处,以及它是如何区别于其他模型的?

奥特曼:确实,对于一般性问题,我们显然需要专业的模拟器、连接器和各种数据片段等工具。我有一种直觉:虽然我们并没有科学依据—如果我们能够理解通用推理的精髓,并将这一原理应用到新的问题领域,类似于人类的通用推理能力,我认为这是可以实现的。这可能会是一个快速的突破过程,至少我是这么认为的。至于Sora,它并不是以语言模型为基础,而是专门针对视频处理而设计的模型。

问:显而易见,我们还未能完全实现那样的技术境界,对吧?以构建高效视频模型为例,你们可能是从零开始,采用独特的架构和特定的数据集进行开发。然而,展望未来,一个具备通用推理能力的系统—也就是我们所说的人工通用智能—理论上应该能够通过自我学习和逻辑推理,掌握渲染视频的方法。

奥特曼:我想说的是,以一个例子来看,据我所了解,目前全球最优秀的文本模型大多还是基于自回归的方法构建的。与此同时,顶尖的图像和视频模型则采用了扩散模型技术,这种情况在某种程度上显得有些不寻常。

训练数据使用各有立场,制定规则需要考虑创新的需求

问:围绕训练数据的使用,存在广泛争议。你们一直采用合理使用原则和尊重创作者权利的方式来处理问题。为何OpenAI选择不涉足音乐产业?相较于其他公司,你们的做法显得更加审慎。目前,你们已经建立了一些授权协议,但据我所知,你们与纽约时报的诉讼并未达成和解,我猜想这背后涉及的是训练数据的使用问题。

你们是如何看待和平衡公平使用原则的?我们在播客中对此有过激烈的讨论。你们通过签订授权协议的行动表明了你们追求公平的决心。对于创作美妙音乐、歌词、书籍的艺术家的权利,你个人是如何看待的?当你们使用了他们的作品,创造了衍生产品,并将其商业化,这其中的公平性应如何定义?

我们应如何构建一个让艺术家们能够创作内容,并能够控制他人对其作品的使用的世界?我对你个人的看法很好奇,因为我知道你在这个问题上一直思考得很深入,而我们行业中的许多人,对内容创作者的权利并没有给予足够的考虑。

奥特曼:我认为不同类型的情况之间存在着显著差异。以公平使用为例,我认为根据现行法律,我们的立场是合理的。但人工智能的特殊性意味着,对于艺术等创造性工作,我们需要用新的角度来考虑这些问题。

举个例子,如果有人通过阅读网上的数学资料学会了数学,我想大多数人会认为这是无可非议的。然而,对于其他情况,可能会有不同的看法……但为了避免回答过于冗长,我就不深入讨论了。在我看来,人们普遍认为学习通用的人类知识,如数学定理,属于公共领域的一部分。而另一方面,系统模仿某位艺术家的风格或创作肖像,则涉及到更为复杂的版权问题。

在这两个极端之间,存在许多不同的情况。

传统上,讨论往往集中在训练数据上,但随着训练数据价值的降低,我们越来越关注模型在推理时的行为,以及它如何实时地在上下文中访问和使用信息。推理时的行为将成为新的讨论焦点,以及未来的经济模式将如何发展。以音乐为例,如果有人要求模型创作一首泰勒·斯威夫特(Taylor Swift)风格的歌,即使该模型从未在泰勒·斯威夫特的歌曲上进行过训练,我们仍然面临一个挑战:模型可能已经了解了关于泰勒·斯威夫特的信息和她的音乐主题。这就引出了一个问题:即使没有直接训练,模型是否应该被允许模仿她的风格?如果可以,那么泰勒·斯威夫特应如何获得报酬?

在这种情况下,我认为首先应该有选择加入或退出的机制,然后建立一个经济模型来处理这些问题。从音乐产业的采样历史中,我们可以找到一个有趣的视角,来观察这种经济模式是如何运作的。这虽然和人工智能创作不完全相同,但为我们提供了一个思考的起点。

问:山姆,我想对你的例子提出一点质疑:模型通过学习歌曲结构、节奏、旋律、和声关系等元素——这些是成就音乐成功的关键因素,然后利用训练数据来创造新的音乐。这与一个人聆听了大量音乐、吸收了这些知识,并在大脑中构建了相似的预测模型或理解的过程有何不同?这两者之间的差异何在?你为什么要主张艺术家应该获得特别的报酬?这不是一个简单的采样案例,因为AI并没有复制或存储原始歌曲,而是在学习音乐的结构,不是吗?

奥特曼:我不是这个意思,因为我同意,就像人类从其他人类那里获得灵感一样,我在说,如果你说“为我创造一首泰勒·斯威夫特风格的歌。”

问:我明白了,好的,提示语中含有某位艺术家的风格。

奥特曼:我个人认为这是两个不同的案例。

问:你是否能够接受这样的情况:一个音乐模型在未向创作了这些音乐作品的艺术家支付版税的前提下,自主地通过人类创作出的所有音乐作品库进行训练。接着,你不被允许提出特定艺术家的请求,而是可以这样要求:“请为我播放一首相当现代的、关于心碎的流行歌曲,最好是女声演唱的。”

奥特曼:我们已经决定暂时不进入音乐产业,部分原因在于围绕如何界定使用界限的复杂问题。比如,我最近与一些我非常尊敬的音乐家会面,试图探讨一些边缘情况。设想一下,如果我们出资让一万位音乐家创作大量音乐,专门用于构建一个优质的训练集,使我们的音乐模型能够学习到所有关于强烈节奏结构和引人入胜的节奏的要素。如果我们仅利用这些音乐进行训练,理论上我们仍能开发出一个杰出的音乐模型,或许我们能够实现这一点。

我曾将这作为一个思维实验提出,音乐家们表示,到了那个阶段,他们没有原则上的反对理由。即便如此,我个人对此仍有所保留。这并不是说我们不应该这么做,但确实存在一些考量。

问:你看到苹果最近发布的广告了吗?它将人类的所有创造力凝练在一台非常薄的iPad中。你对这有什么看法?

奥特曼:人们对此产生了非常情感化的反应,比你想象的要强烈得多。我本人对人工智能持非常积极的态度,但我相信人类创造力和艺术表达中有些东西是非常宝贵的。对于能够提升科学研究的人工智能,我们当然欢迎。然而,当涉及到能够进行深刻而美妙的人类创造性表达的人工智能时,我认为我们应该审慎行事。这种技术的发展是不可避免的,它将成为帮助我们达到更高层次创造力的工具,但在这个过程中,我们应该找到一种方式,既能推动技术发展,又能保持我们所珍视的创造性精神。

先进人工智能系统可能引发全球性问题,建议引入国际监管

问:当讨论到人工智能的监管以及在一个由人工智能主导的世界中实施全民基本收入时,有人提倡“全面监管人工智能”。这究竟指的是什么?你是否能够就加州最近提出的监管提案分享一些看法?如果你愿意,我们可以进一步探讨这个话题。

奥特曼:我对目前的情况有些担忧。虽然关于人工智能许多监管提案都在讨论中,让我担忧的主要还是加州的提案。同时,我担心的还有每个州都将独立进行人工智能的监管工作。当谈论“监管人工智能”时,大家说的可能不是一件事。有些人可能主张完全禁止人工智能的发展,而另一些人则可能坚持认为人工智能应当是开源的。

我个人特别关注的是,在不远的将来,我认为我们可能会面临一个时刻—这只是一个前瞻性声明(做出此类预测总是伴随着风险)——我的预测是,在不久的将来,一些先进的人工智能系统将有能力造成严重的全球性伤害。对于这些系统,我希望能有一个类似监管核武器或合成生物学的国际机构,来监督这些极强大的系统,确保它们通过合理的安全测试,以预防系统失控、自我递归改进或其他类似的风险。

问:有批评指出,你拥有足够的资源去和政治家建立紧密联系,你确实也非常积极地参与其中。然而,对于那些同样对这一领域充满热情并投入资金的初创公司来说,它们可能没有足够的资源去游说或应对监管俘获的问题。正如风投大佬比尔·柯尔利(Bill Gurley)在去年的一次精彩演讲中提到,这可能是一个值得关注的问题。你怎么回应这个问题?

奥特曼:如果法规限定为“我们仅关注那些在价值超过10亿或100亿美元的计算机上训练的模型”,我认为这是可以接受的,可以设定这样一个标准。而且,我不觉得这样的规定会为初创公司带来监管上的负担。

担心监管法规会过度和迅速落伍,安全性测试是必要的

问:如果你拥有制造核武器的核材料,这通常只限于少数人所持有,因此,可以将这种情况比作需要核检查的类比。

奥特曼:确实,我觉得这个观点很有趣。关于监管问题,我想补充一点,我非常担心监管过度的问题。我认为矫枉过正会让我们出错,过一点点也会。同样,如果监管做得不够,也可能出错。但我认为,我们有责任也有使命去讨论我们认为可能会发生的事情,以及正确应对的方式和需要付出的代价。

问:挑战在于,我们现有的法规本意是保护人民和整个社会,但我们正在面临一种新类型的法规,这种法规可能会赋予政府审查代码,窥探商业机密的权力,这是我们以前从未遇到过的。例如,加州提出的立法和一些联邦立法提案实质上要求联邦政府对模型、软件进行审计,检查和核实模型的参数和权重。在获得政府认证之前,你无法将这些模型或软件部署于商业或公共用途。对我来说,这似乎是因为人们对人工智能和它潜在的影响感到恐惧,并且希望它是可控的,而控制方式就是要求在发布前进行审查。我认为,这些立法者对人工智能的理解可能还很有限。正如你所知(也许比任何人知道的都多),随着技术的快速发展,这些法规在一年后可能就会变得不再适用。

奥特曼:我之所以提倡采取基于机构的方法来处理宏观层面的问题,而不是写成法条,是因为也许在12个月后,这些法律可能都会“过期失效”。即使立法者是世界级专家,我也对他们能在12个月或24个月的时间框架内做出正确的决策持怀疑态度。我也不信任那些政策,例如:我们要审查你的所有源代码,逐一检查你的所有权重。是的,我认为市面上有很多不切实际的提议。但是,就像飞机在获得认证前需要经过一系列的安全测试一样,这与阅读所有代码完全不同,我们更应该审查模型的输出结果,而不是模型的内部细节。所以我认为进行安全测试是有意义的。

问:我们怎样才能达到那个目标呢?我不只是代表OpenAI,而是代表整个行业,乃至全人类发声。我担心,如果我们限制了那些能够极大推动人类进步的卓越技术的发展,我们可能会让自己回到一个类似于中世纪黑暗时代的局面。我们该如何转变当前的情绪并实现这一目标?因为政府层面的进展太快,许多人似乎并没有正确处理这个问题。另外,Llama的架构决策非常有意思,它的理念是允许Llama尽可能自由地发展,同时我们还有另一个名为Llama卫士( Llama Guard)的系统,它旨在提供保护性的控制措施。你认为这种方法是否足够解决问题,或者你对这个问题有何看法?

奥特曼:鉴于当前模型的能力,问题一定是存在的,我也并不打算淡化和忽视它们的严重性。但对于像GPT-4这样的模型,我个人并不担心它们会带来灾难性的后果。我相信,有多种可行的方法来安全地部署这类模型。这个观点上是达成更多共识的基础。你提到的一个例子特别有趣,那就是在技术上有潜力进行递归自我改进的模型,即便它们实际并不会被这样使用,比如自主设计和部署生物武器,或者涉及到递归自我改进的新模型。对于这些有潜在威胁的模型,我认为应该在国际层面进行安全测试。我认为GPT-4并不会构成实质性的威胁,并且有许多安全的方式来发布这样的模型。但你也了解,当涉及到可能导致大量人员伤亡的情况时,例如飞机等,大众对一套安全性测试框架一定是喜闻乐见的。当我登上飞机时,我通常不会担心它的安全性,因为我假定它是安全的,对吧?现在,人们对此有很多不必要的担忧。

未来全民基本计算,可能会替代全民基本收入

问:关于工作的问题,你在Y Combinator的时候进行了一些测试,我想你对全民基本收入(UBI)进行了一些研究,你的研究结果很快就会出来。

奥特曼:这是一项五年前启动的研究项目,现在已告一段落。项目初始阶段进行了一项试验性研究,之后则是长期的研究运行。

问:你能解释一下为什么决定启动全民基本收入项目吗?你的初衷是什么?

奥特曼:我们在2016年开始探讨这个问题,也正是在那个时期,我们开始严肃地对待人工智能。目前的理论是,无论对于社会、就业、经济,还是在更深层次上,例如社会契约的本质,变化都可能非常大,以至于我们需要进行大量研究,探索重新组织社会结构的新方法。我也认为,我对政府在大多数旨在帮助贫困人口的政策上的做法并不十分满意。我更倾向于相信,如果直接给人们金钱,他们能够做出明智的选择,市场也会相应地发挥作用。

我非常支持提高基本生活水平,减少并消除贫困,但我更感兴趣的是寻找一种比现有社会安全网和现行处理方式更有效的解决方案。金钱虽然不能解决所有问题,也不会让人即刻拥有幸福,但它能解决一些问题,为人们提供一个更好的起点,帮助他们自助,我对这样的前景非常感兴趣。现在,随着我们看到人工智能的发展方式,我在思考,是否有比传统的全民基本收入更好的做法。我在想,未来可能不仅仅是关于全民基本收入的,而更像关于全民基本计算资源。例如,每个人都可以获得一定量的GPT-7计算能力,他们可以使用它,可以将其转售,或者捐赠给其他人用于癌症研究等。但你所获得的不是金钱,而是相当于一部分生产力的份额,你拥有的是一部分生产力本身。

相信董事会此前要有心解决问题

问:究竟发生了什么事?你曾经被解雇,却又回来了,那是一场内部的权力斗争吗?有没有人背叛了你?你是看到了AGI还是怎样?来谈一谈吧。

奥特曼:我遭遇了被解雇的情况,当时我在考虑是否返回岗位,因为那时我感到非常沮丧,有些迷茫。但随后我意识到,我对OpenAI以及那里的同事们怀有深厚的感情,我决定要回去。我明白重返岗位将会面临挑战,实际上,这个过程比我预想的更加艰难,但我觉得可以应对。我同意重返OpenAI。董事会花费了一些时间搞清楚状况,而在此期间,我们尽力将大家团建在一起,继续为客户提供服务。随后,我们开始制定新的计划。最终,董事会决定任命另一位临时CEO。当这位临时CEO上任后,许多人感到惊讶,他的名字是埃米特·谢尔(Emmett Shear)?他在职的时间非常短暂。

我是在拉斯维加斯的一个酒店里知道自己被解雇的。我前一天晚上先收到了一条短信,紧接着又接到了一个电话,之后一切就变得非常混乱。我的手机没法用,不断震动,短信和来电来个不停。

在酒店房间里,我几小时都处于一种彻底的困惑状态,不知所措。我大约在下午3点左右飞回家,一路上手机也在一直响。到了晚上,我和一些人面对面地见了面,我决定,想着自己被解雇后,其实还可以继续AGI的研究,这么想还挺开心的。第二天早晨,我和几位董事会成员通了电话,讨论了我可能回归的事情,这又引发了一连串的忙碌和混乱。

最终,尽管中间经历了许多疯狂的时刻,但事情得到了解决。OpenAI当时只有一个非营利董事会,因此所有的董事会成员都是独董。董事会的成员数量已经减少到了六个人。他们先是让时任董事长兼总裁格雷格·布洛克曼(Greg Brockman)离开了董事会,随后又解雇了我。情况就是这样。

问:我的意思是,是否在董事会中,那些只具有非营利组织背景的成员与那些具有初创公司经验的成员之间发生了文化冲突?如果你愿意,你能否分享一些关于导致这些决策背后的动机的信息,或者是任何你愿意透露的细节。

奥特曼:我总是认为文化冲突是不可避免的。显然,并非所有董事会成员都是我特别喜爱的人,但我对他们对待人工通用智能的严肃态度,以及对确保人工智能安全重要性的认识持有深深的敬意。尽管我对他们某些决策和行为持有强烈的异议,但我从未对他们的诚信或对我们共同目标的承诺,也就是实现安全且有益的AGI感到怀疑。

问:你是否认为他们在处理过程中做出了正确的决策,或者是否知道如何平衡所有需要妥善处理的事务?

奥特曼:我并不这么认为。但我确实相信,他们的意图是真诚的,他们对AGI的重视以及对正确处理这项技术的承诺是认真的。

对于AI发展引起的恐慌,我认为这确实引发了很大的恐惧。世界上很多人都对AGI,甚至当前的AI感到非常害怕,同时也对其发展方向感到非常兴奋,甚至更加害怕和兴奋。我们为此而苦苦挣扎。但我认为这是不可避免的。我还认为它会带来巨大的好处。但我们必须找到如何以合理的方式到达那里的方法。很多事情都会发生改变,而改变会让人们感到不舒服。所以我们有很多事情需要做对。

世界需要更多的人工智能基础设施

问:你已经创造了一个最热门的公司。而你处于中心位。但是从经济角度来看,你回避了所有这些价值,这非常独特。你能给我们讲讲吗?

奥特曼:是的,我希望我当时拿到了股权,这样我就不必回答这个问题了。如果我能回到过去……

问:为什么他们现在不给你一笔补助金?为什么董事会不给你一笔你应得的大额期权补助金?当时的决定是什么?为什么那如此重要?

奥特曼:当时的决定,最初的原因只是我们非营利组织的结构。从动机的角度来看,这很好。但主要是我们的董事会需要大多数无私的董事。我想,那很好。我现在不需要股权。我有点……但是,我希望……
问:我想询问有关OpenAI的使命,其明确的目标是开发人工通用智能。这确实是一个非常有趣的目标。许多人认为,如果我们成功创造了通用人工智能,这可能会是一个意料之外的结果,甚至可能是某些事情出现了严重错误的标志,这让他们感到非常害怕。然而,OpenAI实际上将此作为其核心使命。

这样的使命是否为您所从事的工作带来了更多的担忧?我理解,它同样也能激发动力,但您是如何平衡这两者的?您为什么会选择这样的使命?

奥特曼:我首先会回答第一个问题,然后是第二个问题。我认为,人工通用智能的发展确实引起了广泛的恐惧,这是可以理解的,因为许多人对当前的人工智能,乃至未来的AGI都感到害怕。尽管如此,他们对人工智能目前的发展感到兴奋,对未来的可能性感到更加兴奋,尽管这种兴奋伴随着更深的忧虑。我们正在努力应对这些复杂的情感,但我认为通用人工智能的出现是不可避免的,它终将实现。我相信,尽管如此,它将带来巨大的益处。然而,我们确实需要找到一种合理的方式来引导我们走向这一未来。将会有很多变化发生,而变化往往让人们感到不适,所以我们需要在很多方面做出正确的决策和调整。

问:你是一位杰出的交易者。我见证了你整个职业生涯,你在交易方面的确非常出色。你拥有广泛的人脉,而且在筹资方面技艺高超,成效显著。你在投资界的动作,以及你所参与的公司筹集了巨额资金来建设芯片厂等事宜,所有这些都显示了你的实力。

问:那个7万亿美元的数字是从哪里来的?

奥特曼:我不知道那是从哪里来的。实际上,我真的不知道。我认为世界需要更多的人工智能基础设施,远远超过目前计划建设的数量,而且成本结构也不同。我们仍在试图弄清楚很多细节要如何推进。

关于设备公司或芯片制造公司的项目,这些并不是我个人的项目,而是OpenAI的项目。相应的,OpenAI将会获得相关股权。我理解外界可能会有这样的看法,尤其是那些不需要日常评论这些事务的人。这是公平的,因为我们还没有宣布这些事项,它们尚未完成。我并不认为世界上大多数人会像你们这样深入思考这些问题。

我也认同,这种情况确实容易引发众多阴谋论,特别是在科技评论家中。如果能回到过去,我会更加明确地表达我持有股份的意图,并确保这一点非常清晰。这样,每个人都能理解,尽管如此,我依然会投身于其中,因为我深切关心通用人工智能,并相信这是全球最引人入胜的工作。至少,这样做可以向所有人清楚地传达芯片项目的本质。