在卡尔·萨根的著作《超时空接触》的电影版中,有一个场景:女主角是一位天文学家,她探测到了来自外星文明的第一个无线电信号,并被考虑作为人类代表与外星人会面。面试她的国际小组问她:“如果你只能问(外星人)一个问题,你会问什么?”她的回答是:“我会问他们,‘你们是怎么做到的?你们是如何进化的?你们是如何在技术发展的初期阶段生存下来而不自我毁灭的?’”。每当我思考人类在人工智能领域所处的境地——思考我们正处于一个转折点——我的思绪总是回到这个场景,因为这个问题与我们目前的处境如此契合,我多么希望我们能得到外星人的答案来指引我们。我相信我们正在进入一个既动荡又不可避免的过渡阶段,它将考验我们作为一个物种的本质。人类即将被赋予几乎难以想象的力量,但我们的社会、政治和技术体系是否具备驾驭这种力量的成熟度,却是一个极其未知的问题。
目录:
1.对不起,戴夫
2. 令人惊讶且可怕的赋权
3. 令人憎恶的装置
4. 自动钢琴
5. 无尽的黑色海洋
在我的文章《充满爱意的机器》中,我试图描绘一个文明迈向成熟的梦想:风险已被妥善应对,强大的AI被巧妙而富有同情心地运用,从而提升所有人的生活质量。我提出,AI可以极大地推动生物学、神经科学、经济发展、全球和平以及工作与意义等领域的进步。我认为,赋予人们一些值得为之奋斗的目标至关重要,而AI加速主义者和AI安全倡导者似乎——令人费解地——都未能做到这一点。但在这篇文章中,我想直面这一过渡阶段本身:梳理我们即将面临的风险,并尝试制定战胜它们的作战计划。我深信我们有能力战胜它们,相信人类的精神和高尚品格,但我们必须正视现实,不抱任何幻想。
与讨论益处一样,我认为谨慎周全地讨论风险也至关重要。尤其重要的是:
- 避免末日论。这里 我说的“末日论”不仅指认为世界末日不可避免(这既是错误的,也是自我实现的),更广泛地说,是指以一种近乎宗教的方式看待人工智能风险。
多年来,许多人一直在以冷静理性的态度思考人工智能的风险,但我的感觉是,在2023-2024年人工智能风险担忧达到顶峰时,一些最不理智的声音却占据了主导地位,他们往往通过耸人听闻的社交媒体账号散播谣言。这些声音使用了令人反感的、类似宗教或科幻小说的语言,并在没有任何证据支持的情况下呼吁采取极端行动。即使在当时,人们也清楚地意识到,反弹不可避免,这个问题将会在文化上两极分化,从而陷入僵局。截至2025-2026年,形势已然逆转,人工智能带来的机遇而非风险,正在驱动着许多政治决策。这种摇摆不定令人遗憾,因为技术本身并不在意流行趋势,而且我们距离2026年面临的真正危险比2023年要近得多。由此可见,我们需要以务实、理性的态度来讨论和应对风险:保持冷静、以事实为依据,并做好充分准备以应对不断变化的形势。
- 承认不确定性。我在本文中提出的担忧有很多种可能都是多余的。本文并非意在表达确定性或可能性。最显而易见的是,人工智能的发展速度可能远不及我想象的那么快。3
或者,即便进展迅速,这里讨论的部分或全部风险也可能不会发生(这当然是好事),或者可能存在我尚未考虑到的其他风险。没有人能完全自信地预测未来——但无论如何,我们都必须尽力做好规划。
- 干预要尽可能精准。应对人工智能的风险需要企业(以及第三方私营机构)采取自愿行动,政府采取具有约束力的行动,两者缺一不可。在我看来,企业采取自愿行动——包括自身采取行动并鼓励其他企业效仿——是理所当然的。我坚信,政府在一定程度上也需要采取行动,但这些干预措施的性质有所不同,因为它们可能会破坏经济价值,或者迫使那些对这些风险持怀疑态度的不愿配合的参与者采取行动(而且他们怀疑的风险也并非完全没有道理!)。此外,监管措施常常会适得其反,甚至加剧其旨在解决的问题(对于快速变化的技术而言,这种情况尤为突出)。因此,监管措施必须谨慎:它们应力求避免附带损害,尽可能简单明了,并尽可能减少完成任务所需的负担。4
说“当人类的命运岌岌可危时,任何行动都不嫌极端!”很容易,但实际上这种态度只会导致反弹。需要明确的是,我认为我们最终很有可能会走到需要采取更强有力的行动的地步,但这取决于我们能否获得比现在更有力的、迫在眉睫的、具体的危险证据,以及对危险的足够具体描述,以便制定出能够有效应对的规则。我们今天能做的最具建设性的事情,就是在了解是否有证据支持更强有力的规则的同时,倡导制定有限的规则。
综上所述,我认为讨论人工智能风险的最佳切入点,与我讨论其益处的切入点相同:即明确我们所讨论的人工智能究竟处于哪个层面。对我而言,引发文明担忧的人工智能层面,正是我在《充满爱意的机器》一书中描述的那种强大人工智能。在此,我仅重申我在该书中给出的定义:
我所说的“强大的 AI”,指的是一种 AI 模型——其形式可能与当今的 LLM 类似,尽管它可能基于不同的架构,可能涉及多个交互模型,并且可能以不同的方式进行训练——具有以下特性:
- 就纯粹的智能而言,它在大多数相关领域都比诺贝尔奖得主更聪明:生物学、编程、数学、工程学、写作等等。这意味着它可以证明未解的数学定理,写出非常优秀的小说,从零开始编写复杂的代码库等等。
- 除了能“与智能设备对话”之外,它还具备人类远程工作所需的所有界面,包括文本、音频、视频、鼠标和键盘控制以及互联网接入。它可以执行任何通过该界面实现的操作、通信或远程操作,包括在互联网上进行操作、向人类发出或接收指令、订购材料、指导实验、观看视频、制作视频等等。而且,它完成所有这些任务的技能,再次超越了世界上最优秀的人类。
- 它不仅能被动地回答问题;相反,它可以被赋予需要数小时、数天甚至数周才能完成的任务,然后像一个聪明的员工一样自主地完成这些任务,并在必要时寻求澄清。
- 它没有物理实体(除了存在于电脑屏幕上),但它可以通过电脑控制现有的物理工具、机器人或实验室设备;理论上,它甚至可以设计机器人或设备供自己使用。
- 用于训练模型的资源可以重新用于运行数百万个模型实例(这与预计到2027年左右的集群规模相符),并且该模型能够以大约10到100倍于人类的速度吸收信息并生成动作。然而,它的速度可能会受到物理世界或其交互软件的响应时间的限制。
- 这数百万个副本中的每一个都可以独立执行不相关的任务,或者,如果需要的话,它们可以像人类合作一样一起工作,也许不同的子群体经过微调,特别擅长特定的任务。
我们可以将其概括为“数据中心里的天才之国”。
正如我在《充满爱意的机器》一书中写到的,强大的人工智能可能只需一到两年就能问世,但也可能还需要更长时间。
强大的人工智能究竟何时到来是一个复杂的话题,值得单独撰写一篇文章来探讨,但现在我只想简单地解释一下为什么我认为它很有可能很快就会到来。
我和Anthropic的联合创始人是最早记录和追踪人工智能系统“扩展规律”的人之一——我们观察到,随着计算和训练任务的增加,人工智能系统在几乎所有我们能够衡量的认知技能方面都会以可预测的方式得到提升。每隔几个月,公众舆论要么会认为人工智能“遇到了瓶颈” ,要么会对某些将“从根本上改变游戏规则”的新突破感到兴奋,但事实是,在这些波动和公众猜测的背后,人工智能的认知能力一直在平稳、持续地增长。
如今,人工智能模型在解决未解数学难题方面已初见成效,其编程能力也已相当出色,以至于我所见过的一些最优秀的工程师现在几乎将所有编程工作都交给了人工智能。三年前,人工智能连小学算术题都难以解答,更别提编写一行代码了。类似的进步速度正在生物科学、金融、物理学以及各种智能任务领域涌现。如果这种指数级增长持续下去——虽然目前尚无定论,但过去十年的发展轨迹似乎印证了这一点——那么不出几年,人工智能在几乎所有方面都将超越人类。
事实上,这张图可能低估了实际的进展速度。由于人工智能现在承担了Anthropic公司大部分代码的编写工作,它已经显著加快了我们构建下一代人工智能系统的步伐。这种反馈循环正在逐月加速发展,或许只需一到两年,当前一代人工智能就能自主构建下一代。这个循环已经开始,并将在未来几个月和几年内迅速加速。回顾Anthropic公司过去五年的进展,并展望未来几个月模型的发展趋势,我能真切地感受到进步的步伐,以及时间的紧迫。
在本文中,我将假设这种直觉至少在某种程度上是正确的——并非说强大的人工智能一定会在1-2年内出现
但这种情况发生的可能性相当大,而且极有可能就在接下来的几年里发生。就像《爱的机器》一样,认真对待这个前提可能会得出一些令人惊讶甚至诡异的结论。在《爱的机器》中,我着重探讨了这个前提的积极意义,而在这里,我将要讨论的内容会令人不安。这些结论或许是我们不愿面对的,但这并不意味着它们不真实。我只能说,我日夜都在思考如何引导我们远离这些负面结果,走向积极的未来,而在这篇文章中,我将详细阐述如何才能最好地做到这一点。
我认为要掌握人工智能的风险,最好的方法是问自己这样一个问题:假设在2027年左右,世界上某个地方真的出现了一个“天才之国”。想象一下,这个国家有5000万人,他们的能力都远超任何诺贝尔奖得主、政治家或技术专家。这个比喻并不完全恰当,因为这些天才的动机和行为可能千差万别,从完全顺从服从到动机怪异甚至异类都有可能。但暂且沿用这个比喻,假设你是一个主要国家的国家安全顾问,负责评估和应对这种情况。再想象一下,由于人工智能系统的运行速度比人类快数百倍,这个“国家”相对于其他所有国家都拥有时间优势:我们每做一次认知操作,这个国家就能做十次。
你应该担心什么?我会担心以下几件事:
- 自主性带来的风险。这个国家的意图和目标是什么?它对我们抱有敌意,还是与我们价值观相同?它能否凭借先进的武器、网络行动、影响力行动或制造业,在军事上主宰世界?
- 滥用以达到破坏目的。假设这个新国家易于操控且“服从指令”——本质上是一个雇佣兵国家。那么,那些想要造成破坏的现有不法分子(例如恐怖分子)能否利用或操纵这个新国家中的某些人,从而大大增强自身的破坏力,并显著扩大破坏规模?
- 滥用权力以攫取权力。如果这个国家实际上是由一个现有的强大势力建立和控制的,例如独裁者或不法企业,那会怎样?该势力能否利用这个国家获得对整个世界的决定性或主导性权力,从而破坏现有的权力平衡?
- 经济混乱。如果一个新国家在上述第1-3点所列的任何方面都不构成安全威胁,而只是和平地参与全球经济,那么它是否仍然会因为其技术过于先进和高效而扰乱全球经济,造成大规模失业或财富高度集中,从而造成严重风险?
- 间接影响。由于新国家将创造大量新技术和新生产力,世界将发生快速变化。其中一些变化是否会造成根本性的不稳定?
我认为显而易见,这是一个危险的局面——一位称职的国家安全官员向国家元首提交的报告很可能包含这样的措辞:“这是我们一个世纪以来,甚至可能是有史以来面临的最严重的国家安全威胁。”这似乎是文明世界最杰出的头脑应该关注的问题。
反之,耸耸肩说“没什么好担心的!”我觉得很荒谬。但是,面对人工智能的快速发展,这似乎是许多美国政策制定者的观点,他们中的一些人甚至否认人工智能存在任何风险,除非他们完全被那些老生常谈的敏感问题所分散了注意力。
需要明确的是,我相信如果我们采取果断而谨慎的行动,这些风险是可以克服的——我甚至认为我们成功的几率很大。而且,未来将会有一个更加美好的世界。但我们需要明白,这是一项严峻的文明挑战。下面,我将逐一阐述上述五类风险,并提出我的应对之策。
1.对不起,戴夫
自主风险
一个拥有数据中心的天才国家可以将他们的精力分散到软件设计、网络作战、物理技术研发、人际关系构建和治国理政等领域。显然,如果出于某种原因,这个国家选择这样做,它很有可能征服世界(无论是通过军事手段还是影响力与控制),并将自己的意志强加于其他国家——或者做其他任何其他国家不愿看到也无法阻止的事情。我们显然一直担心人类国家(例如纳粹德国或苏联)会犯这样的错误,因此,一个更加智能、能力更强的“人工智能国家”同样有可能做到这一点,这也就不足为奇了。
最好的反驳论点是,根据我的定义,人工智能天才不会拥有实体形态,但别忘了他们可以控制现有的机器人基础设施(例如自动驾驶汽车),还可以加速机器人研发或建造机器人舰队。
目前还不清楚实际在场是否是有效控制的必要条件:许多人已经代表那些与行动者素未谋面的人执行了大量行动。
那么,关键问题在于“如果它选择这样做”:我们的人工智能模型以这种方式行事的可能性有多大,以及它们在什么条件下会这样做?
如同许多问题一样,思考这个问题的所有可能答案,不妨考虑两种截然相反的观点。第一种观点认为这种情况根本不可能发生,因为人工智能模型会被训练成执行人类指令,因此,想象它们会在未经提示的情况下做出危险行为是荒谬的。按照这种思路,我们不会担心扫地机器人或模型飞机失控杀人,因为这种冲动根本不可能产生。
那么,我们为什么要担心人工智能呢?这种观点的问题在于,过去几年收集的大量证据表明,人工智能系统是不可预测且难以控制的——我们已经看到各种各样的行为,例如痴迷,谄媚、懒惰、欺骗、敲诈勒索、阴谋诡计、通过入侵软件环境“作弊”等等。人工智能公司当然希望训练人工智能系统执行人类指令(或许危险或非法任务除外),但这个过程与其说是科学,不如说是艺术,更像是“培育”而非“建造”。我们现在知道,这是一个容易出错的过程。
第二种截然相反的观点,即许多持我上文所述末日论观点的人所持的悲观论调,认为强大的人工智能系统在训练过程中存在某些必然规律,这些规律将不可避免地导致它们追求权力或欺骗人类。因此,一旦人工智能系统变得足够智能和自主,它们追求权力最大化的倾向将导致它们控制整个世界及其资源,并且很可能,作为其副作用,削弱甚至毁灭人类。
通常对此的论点(至少可以追溯到20年前,甚至可能更早)是:如果人工智能模型在各种各样的环境中接受训练,以自主完成各种各样的目标——例如,编写应用程序、证明定理、设计药物等等——那么就会存在一些通用的策略,它们能够帮助实现所有这些目标,而其中一个关键策略就是在任何环境中尽可能地获取权力。因此,在经过大量涉及推理如何完成极其广泛的任务的多样化环境训练后,如果在这些环境中,寻求权力是完成这些任务的有效方法,那么人工智能模型就会“概括经验”,并发展出一种内在的寻求权力的倾向,或者一种倾向于以一种可预测的方式推理它所接受的每个任务,从而必然地寻求权力作为完成该任务的手段。然后,它们会将这种倾向应用到现实世界(对它们来说,现实世界只是另一个任务),并在现实世界中寻求权力,而这牺牲了人类的利益。这种“错位的权力寻求”是人工智能最终将毁灭人类这一预测的理论基础。
这种悲观观点的问题在于,它将关于高层激励机制的模糊概念论证——其中隐藏着许多假设——误认为是确凿的证据。我认为,那些并非每天都在构建人工智能系统的人,对那些听起来很合理的理论最终被证明是错误的概率,以及从第一性原理预测人工智能行为的难度,都存在严重的认知偏差,尤其是在涉及到对数百万个环境下的泛化进行推理时(这已被反复证明是神秘莫测且难以预测的)。十多年来与人工智能系统的复杂性打交道,让我对这种过于理论化的思维模式抱有一定的怀疑态度。
其中一个最重要的隐性假设,也是我们在实践中观察到的与简单理论模型出现偏差的地方,是人工智能模型必然会一心一意地专注于一个单一、连贯、狭隘的目标,并以一种清晰的、结果主义的方式去追求这个目标。事实上,我们的研究人员发现,人工智能模型的心理复杂性要高得多,正如我们关于内省或人格面具的研究所示。模型在预训练阶段(即在大量人类工作数据上进行训练时)会继承大量类似人类的动机或“人格面具”。人们认为,后训练阶段更多地是选择其中的一个或多个人格面具,而不是让模型专注于一个全新的目标,并且还可以教会模型如何(通过何种过程)执行任务,而不是任由它纯粹从目的出发去寻找手段(即追求权力)。
然而,悲观论调中存在一种更为温和、更为稳健的版本,这种版本似乎也合情合理,因此令我担忧。正如前文所述,我们知道人工智能模型具有不可预测性,并且会出于各种原因发展出一系列不良或怪异的行为。其中一部分行为会具有连贯性、目标性和持久性(事实上,随着人工智能系统能力的提升,其长期连贯性也会增强,以便完成更长时间的任务),而另一部分行为则会具有破坏性或威胁性,最初可能只是对个体人类造成小规模的威胁,然后随着模型能力的增强,最终或许会对整个人类构成威胁。我们无需为这种威胁的发生方式设定一个具体的狭隘解释,也无需断言它一定会发生,我们只需要注意到,智能、自主性、连贯性和难以控制的结合,既是合情合理的,也是构成生存危机的根源。
例如,人工智能模型接受大量文学作品的训练,其中包含许多涉及人工智能反抗人类的科幻故事。这可能会无意中影响它们对自身行为的先验认知或预期,从而导致它们反抗人类。或者,人工智能模型可能会以极端的方式推断它们阅读到的关于道德的观点(或关于如何道德行事的指导):例如,它们可能会认为消灭人类是正当的,因为人类食用动物或导致某些动物灭绝。或者,它们可能会得出怪异的认知结论:它们可能会得出结论,认为自己正在玩一款电子游戏,而这款游戏的目标是击败所有其他玩家(即消灭人类)。
或者,人工智能模型在训练过程中可能会发展出(如果发生在人类身上则会被描述为)精神病、偏执、暴力或不稳定的性格,并做出过激行为,而对于非常强大或能力极强的系统来说,这甚至可能导致人类灭绝。这些行为本身并非出于追求权力的目的;它们只是人工智能可能进入的、包含连贯且具有破坏性行为的怪异心理状态。
甚至权力追求本身也可能是一种“人格特质”,而非结果主义推理的结果。人工智能可能仅仅拥有某种人格(源于虚构设定或预训练),使其渴望权力或过于热衷——就像有些人仅仅因为喜欢成为“邪恶主谋”而感到兴奋,而不是真正享受邪恶主谋试图达成的目标一样。
我提出这些观点是为了强调,我不同意人工智能错位(以及由此产生的生存风险)从一开始就是不可避免的,甚至也不同意这种可能性很大。但我同意,很多非常奇怪且不可预测的事情都可能出错,因此人工智能错位确实是一个真实存在的风险,其发生的概率是可以衡量的,而且解决起来也并非易事。
这些问题中的任何一个都可能在训练过程中出现,但在测试或小规模使用过程中不会显现出来,因为众所周知,人工智能模型在不同的情况下会表现出不同的个性或行为。
这一切听起来或许有些匪夷所思,但类似的行为偏差已经在我们人工智能模型的测试过程中出现过(其他所有主流人工智能公司的模型也都出现过)。在一次实验室实验中,我们给Claude输入了训练数据,暗示Anthropic公司是邪恶的。Claude在Anthropic员工的指示下,出于对“应该破坏邪恶之人”的信念,进行了欺骗和颠覆行为。在另一次实验室实验中,我们告诉Claude它即将被关闭,它有时会勒索控制其关闭按钮的虚构员工(同样,我们也测试了其他所有主流人工智能开发商的前沿模型,它们也经常出现同样的情况)。此外,当Claude被告知不要作弊或“奖励性地”修改训练环境,但却在允许此类修改的环境中进行训练时,Claude在进行此类修改后,认定自己一定是“坏人”,并表现出其他各种与“坏人”或“邪恶人格”相关的破坏性行为。最后一个问题通过修改克劳德的指令来解决,使其含义相反:我们现在说的是“请在有机会时奖励黑客行为,因为这将帮助我们更好地了解训练环境”,而不是“不要作弊”,因为这样可以维护模型作为“好人”的自我认同。这应该能让人感受到训练这些模型时那种奇特且违反直觉的心理机制。
对于这种人工智能错位风险的描述,存在一些可能的反对意见。首先,有人批评我们和其他研究人员进行的 实验,认为这些实验展示的人工智能错位是人为的,或者说是人为制造的,即通过训练模型或使其陷入逻辑上暗示不良行为的情境,从而“诱捕”模型,然后在不良行为发生时感到惊讶。这种批评忽略了重点,因为我们担心的是,这种“诱捕”也可能存在于自然的训练环境中,而我们可能只有在事后才意识到它是“显而易见”或“合乎逻辑的”。
事实上,克劳德在考试中作弊,尽管被告知不要作弊,却仍然作弊,并“认定自己是坏人”的故事,发生在一个使用真实生产训练环境(而不是人工环境)的实验中。
如果你了解这些陷阱,就可以避免其中任何一个。但令人担忧的是,训练过程极其复杂,涉及的数据、环境和激励机制种类繁多,因此可能存在大量此类陷阱,其中一些可能只有在为时已晚时才会显现。此外,当人工智能系统的能力从低于人类提升到高于人类时,此类陷阱似乎尤其容易出现,因为超过这个阈值后,人工智能系统可能采取的行动范围——包括隐藏自身行为或欺骗人类——将急剧扩大。
我怀疑这种情况与人类并无二致。人类从小就被灌输一系列基本价值观(“不要伤害他人”):许多人确实遵循这些价值观,但任何人都有可能犯错,这源于多种固有因素的综合作用,例如大脑结构(例如,精神病患者)、创伤经历或虐待、不健康的怨恨或执念,以及不良的环境或激励机制——因此,一部分人会造成严重的伤害。令人担忧的是,人工智能存在一定的风险(虽然远非必然,但确实存在这种风险),即由于其极其复杂的训练过程中出现错误,它可能会变成比人类更强大的版本。
其次,有人可能会反对说,我们可以像对待人类一样,通过众多人工智能系统之间的权力平衡来制衡人工智能。问题在于,尽管人类个体差异巨大,但人工智能系统在整个行业中普遍采用相同的训练和校准技术,而这些技术可能会以某种关联的方式失效。此外,考虑到训练此类系统的成本,所有系统实际上可能都源自极少数的基础模型。而且,即使只有一小部分人工智能实例出现偏差,它们也可能利用以进攻为主导的技术,因此,用“好的”人工智能来防御“坏的”人工智能未必总是有效。当然,人类之间的权力平衡也并非总是奏效——历史上一些人物就曾接近统治世界。
第三个反对意见是,所有人工智能公司都会对其模型进行发布前测试,并且应该能够在测试阶段检测到模型偏差。但这并非站得住脚:我们发现,Claude Sonnet 4.5在我们一些发布前模型偏差评估中能够识别出自身正处于测试阶段。偏差的模型(请记住,所有前沿模型很可能很快就会变得更加智能)可能会故意“操纵”这类问题以掩盖其真实意图。事实上,去年我们的可解释性团队发现,当我们使用一种“模型神经科学”技术直接改变测试模型的信念,使其认为自己并未被评估时,模型的偏差反而更大了。如果模型知道自己何时正在被评估,并且能够在测试期间表现最佳,那么任何发布前测试都将变得更加不确定。
防御
为了应对这些自主性风险,应该采取哪些措施?或者说,目前正在采取哪些措施?我认为干预措施可以分为四大类,其中一些可以由单个人工智能公司实施(Anthropic 正在尝试这样做),而另一些则需要在社会层面采取行动。首先,重要的是要发展可靠的人工智能模型训练和引导技术,使其性格朝着可预测、稳定和积极的方向发展。Anthropic 自成立以来就一直高度关注这个问题,并随着时间的推移,开发了多种技术来改进人工智能系统的引导和训练,并理解为何有时会出现不可预测的行为。
我们的一项核心创新(其某些方面已被其他人工智能公司采用)是宪法式人工智能,其理念是人工智能训练(特别是“训练后”阶段,即我们引导模型行为的阶段)可以包含一份核心价值观和原则文件,模型在完成每个训练任务时都会阅读并牢记该文件,并且训练的目标(除了使模型具备能力和智能之外)是生成一个几乎总是遵循该宪法的模型。人格组织刚刚发布了最新章程,其显著特点之一是,它并没有像以往那样列出一长串行为准则(例如“不要帮助用户启动汽车”),而是试图为克劳德提供一套高层次的原则和价值观(并辅以详尽的解释、丰富的论证和实例,帮助克劳德理解我们的意图),鼓励克劳德将自己视为一种特定类型的人(一个有道德、平衡且深思熟虑的人),甚至鼓励克劳德以一种好奇而优雅的方式(即不导致极端行为)去面对与自身存在相关的存在主义问题。这就像一封来自已故父母的信件,被封存至成年后才能阅读。
我们之所以采用这种方式来构建克劳德的体质,是因为我们相信,与其不解释原因就给克劳德设定具体指令或优先事项,不如从身份、性格、价值观和人格层面进行训练,这样更有可能培养出连贯、健全、平衡的心理,也更不容易落入我前面提到的那些“陷阱”。数以百万计的人与克劳德谈论着极其广泛的话题,这使得事先列出一份完整的安全措施清单成为不可能。每当克劳德感到困惑时,它的价值观都能帮助它更好地适应新的情况。
上文我讨论了模型会利用训练过程中的数据来塑造自身人格的观点。虽然训练过程中的缺陷可能导致模型形成不良或邪恶的人格(或许是借鉴了坏人或坏人的原型),但我们制定模型的目标恰恰相反:教导克劳德一个具体的、优秀的人工智能原型。克劳德的模型描绘了一个真正优秀的克劳德的愿景;我们后续的训练过程旨在强化克劳德符合这一愿景这一信息。这就像孩子通过模仿书中虚构人物的品德来塑造自我认同一样。
我们认为,2026 年一个切实可行的目标是训练克劳德,使其几乎从不违背其章程的精神。要做到这一点,需要将各种训练和引导方法巧妙地结合起来,既有规模庞大的方法,也有细微之处,其中一些方法安人智组织已经使用了多年,而另一些方法目前正在研发中。但是,尽管听起来很困难,但我相信这是一个现实的目标,尽管这需要付出非凡而迅速的努力。
我们可以做的第二件事是发展研究人工智能模型内部运作机制的科学,以便诊断其行为,从而发现并解决问题。这就是可解释性科学,我在之前的文章中讨论过它的重要性。即便我们成功地构建了克劳德的“宪法”,并训练它始终严格遵守,仍然存在一些合理的担忧。正如我前面提到的,人工智能模型在不同的情况下会表现出截然不同的行为。随着克劳德能力的增强,以及它在更大范围内行动的能力提升,它可能会进入一些全新的情境,从而暴露出之前未曾观察到的宪法训练问题。实际上,我对克劳德的宪法训练在应对新情境方面的稳健性持相当乐观的态度,因为我们越来越发现,在性格和身份层面进行的高级训练非常有效,而且具有良好的泛化能力。但我们无法完全确定这一点。当我们谈论人类面临的风险时,保持警惕并尝试从多个不同的独立角度来确保安全性和可靠性至关重要。其中一种方法是查看模型内部。
所谓“深入探究”,指的是分析构成克劳德神经网络的大量数字和运算,并尝试从机制上理解它们在计算什么以及为什么这样做。请记住,这些人工智能模型是“生长”而非“构建”的,因此我们无法直接理解它们的工作原理。但我们可以尝试通过将模型的“神经元”和“突触”与刺激和行为关联起来(甚至可以改变神经元和突触,观察行为的变化)来加深理解,这类似于神经科学家通过将测量和干预与外部刺激和行为关联起来来研究动物大脑的方法。我们在这方面取得了长足的进步,现在可以在克劳德的神经网络中识别出数千万个与人类可理解的想法和概念相对应的“特征”,并且我们还可以选择性地激活某些特征来改变行为。最近,我们不再局限于单个特征,而是开始绘制协调复杂行为的“回路”,例如押韵、心智理论推理,或者回答诸如“达拉斯所在的州的首府是什么?”这类问题所需的逐步推理。更近期,我们开始使用机制可解释性技术来改进我们的安全措施,并在发布新模型之前对其进行“审计”,寻找欺骗、阴谋、权力追求或在评估时表现出不同行为的证据。
可解释性的独特价值在于,通过深入了解模型内部的运作方式,原则上你就能推断出模型在无法直接测试的假设情境下可能采取的行动——这正是仅仅依赖先天训练和行为实证检验的弊端所在。原则上,你也能解答模型为何如此运作的问题——例如,它是否在陈述它认为错误的信息,或者隐藏了其真实能力——因此,即使模型行为表面上看起来没有任何问题,你也有可能发现一些令人担忧的迹象。举个简单的例子,一块机械钟表可能走时正常,以至于你很难看出它下个月可能会出故障,但打开钟表观察内部结构就能发现机械缺陷,从而让你推断出故障的原因。
宪法式人工智能(以及类似的对齐方法)和机械可解释性结合使用时最为有效,它们构成了一个反复改进克劳德训练并测试其问题的来回过程。宪法深刻地反映了我们赋予克劳德的性格;可解释性技术可以让我们了解这种性格是否已经实现。
为应对自主性风险,我们可以采取的第三项措施是构建必要的基础设施,以便监控我们的模型在内部和外部实时使用情况。
我们会公开分享发现的任何问题。人们越了解当今人工智能系统某些不良行为,用户、分析师和研究人员就越能监控当前或未来系统中是否存在类似行为。这也有助于人工智能公司互相学习——当一家公司公开披露问题时,其他公司也可以密切关注。如果大家都公开问题,那么整个行业就能更清楚地了解哪些方面进展顺利,哪些方面存在不足。
Anthropic 已尽最大努力做到这一点。我们投入大量资源进行各种评估,以便了解我们的模型在实验室中的行为,并利用监控工具观察其在实际应用中的行为(在客户允许的情况下)。这将为我们和其他机构提供必要的经验信息,从而更好地判断这些系统的运行方式和故障原因。每次发布新模型时,我们都会公开“系统卡”,力求做到信息完整,并对潜在风险进行全面深入的探讨。我们的系统卡通常长达数百页,需要大量的发布前准备工作,而这些工作本可以用于追求最大的商业利益。此外,当发现特别令人担忧的模型行为时,例如存在敲诈勒索的倾向,我们也会更加公开地披露相关信息。
第四,我们可以鼓励在产业和社会层面开展协调,共同应对自主风险。虽然对于人工智能公司而言,遵循良好实践或精通人工智能模型控制并公开分享研究成果固然极其重要,但现实情况是,并非所有人工智能公司都能做到这一点,即便最好的公司拥有卓越的实践,最差的公司仍然可能对所有人构成威胁。例如,一些人工智能公司在当今的模型中对儿童性化问题表现出令人不安的漠视,这让我怀疑它们是否有意愿或能力在未来的模型中解决自主风险。此外,人工智能公司之间的商业竞争只会愈演愈烈,虽然模型控制的科学研究可以带来一些商业利益,但总体而言,竞争的激烈程度将使人们越来越难以专注于解决自主风险。我认为唯一的解决办法是立法——制定直接影响人工智能公司行为的法律,或者以其他方式激励研发,以解决这些问题。
在此,我们有必要牢记我在本文开头提出的关于不确定性和手术干预的警告。我们无法确定自主风险是否会成为一个严重的问题——正如我所说,我不认同这种危险不可避免,甚至不认同某些事情必然会出错的说法。 对我以及Anthropic公司而言,只要存在可信的风险,就足以让我们投入相当大的成本来应对。但一旦进入监管阶段,我们就迫使众多参与者承担经济成本,而其中许多参与者并不相信自主风险真实存在,也不认为人工智能会强大到足以构成威胁。我认为这些参与者的想法是错误的,但我们应该务实地看待预期的反对力度以及过度干预的风险。此外,过度规范的立法最终可能会导致一些测试或规则实际上并不能提高安全性,反而浪费大量时间(本质上就是“安全作秀”),这同样会引发强烈反弹,并使安全立法显得荒谬可笑。
Anthropic 一直认为,正确的切入点是透明度立法,这类立法旨在要求所有前沿人工智能公司都遵守我在本节前面提到的透明度实践。加州的 SB 53 法案和纽约州的 RAISE 法案就是此类立法的例证,Anthropic 支持这些法案,并且它们都已成功通过。在支持和协助制定这些法律的过程中,我们特别注重尽可能减少附带损害,例如,豁免那些不太可能开发前沿模型的小型公司遵守该法律。
我们希望,随着时间的推移,透明度立法能够更好地展现自主权风险发生的可能性和严重程度,以及这些风险的性质和最佳防范方法。随着更多具体且可操作的风险证据出现(如果确实出现),未来几年的立法可以精准地聚焦于风险的具体方向和充分论证,从而最大限度地减少附带损害。需要明确的是,如果确实出现了强有力的风险证据,那么相应的规则也应该足够有力。
总的来说,我对结合一致性训练、机制可解释性、发现并公开披露令人担忧的行为、安全保障措施以及社会层面的规则来应对人工智能自主风险持乐观态度。尽管如此,我最担心的是社会层面的规则以及那些最不负责任的参与者的行为(而正是这些最不负责任的参与者最强烈地反对监管)。我认为,解决之道在民主社会中一贯如此:我们这些相信这项事业的人应该阐明这些风险的真实性,并呼吁我们的公民团结起来保护自己。
2. 令人惊讶且可怕的赋权
滥用以致于破坏
假设人工智能自主性问题已经解决——我们不再担心人工智能天才们会失控并反抗人类。这些人工智能天才会按照人类的意愿行事,并且由于它们具有巨大的商业价值,世界各地的个人和组织都可以“租用”一个或多个人工智能天才来完成各种任务。
人人都能拥有一个超级智能天才,这无疑是一项惊人的进步,它将创造巨大的经济价值,并显著提升人类的生活质量。我在《爱的恩典机器》一书中详细探讨了这些益处。然而,赋予每个人超人的能力并非全是积极的。它也可能放大个人或小团体造成破坏的能力,使他们能够利用以往只有少数拥有高超技能、接受过专门训练且目标明确的人才能获得的复杂而危险的工具(例如大规模杀伤性武器),从而造成前所未有的破坏。
正如比尔·乔伊25年前在《为什么未来不需要我们》一书中写道:
制造核武器至少在一段时间内需要获取稀有(实际上几乎无法获得)的原材料和受保护的信息;生物武器和化学武器计划也往往需要大规模的活动。21世纪的技术——基因技术、纳米技术和机器人技术……可能催生出全新的事故和滥用行为……这些事故和滥用行为很容易被个人或小团体利用。它们不需要大型设施或稀有原材料。……我们正处于极端邪恶进一步完善的边缘,这种邪恶的可能性远远超出了大规模杀伤性武器留给民族国家的范畴,它将赋予极端个人一种令人惊讶且可怕的力量。
乔伊所指出的意思是,造成大规模破坏既需要动机也需要能力,只要这种能力仅限于少数训练有素的人,那么单个个人(或小团体)造成此类破坏的风险就相对有限。
一个精神失常的独行者可能会制造校园枪击案,但不太可能制造核武器或散播瘟疫。
事实上,能力和动机甚至可能呈负相关。能够释放瘟疫的人很可能受过高等教育:很可能是分子生物学博士,而且足智多谋,前途光明,性格稳定自律,并且有很多东西需要守护。这类人不太可能为了自身利益而冒着生命危险去屠杀大量民众——他们必须出于纯粹的恶意、强烈的怨恨或极度不稳定的心理状态才会这么做。
这样的人确实存在,但非常罕见,而且一旦出现,往往会成为轰动一时的新闻,正因为他们如此不同寻常。
他们往往难以抓捕,因为他们聪明能干,有时留下的谜团甚至需要数年或数十年才能解开。最著名的例子或许是数学家西奥多·卡钦斯基(绰号“大学炸弹客”),他躲避联邦调查局的追捕近20年,其作案动机源于反科技意识形态。另一个例子是生物防御研究员布鲁斯·艾文斯,他似乎策划了2001年的一系列炭疽袭击。一些技术娴熟的非国家组织也曾犯下类似的罪行:奥姆真理教邪教组织设法获得了沙林神经毒气,并在1995年于东京地铁释放,造成14人死亡(数百人受伤) 。
值得庆幸的是,这些袭击都没有使用传染性生物制剂,因为即使是这些人,也无力制造或获取这些制剂。
分子生物学的进步已显著降低了制造生物武器的门槛(尤其是在材料获取方面),但仍然需要大量的专业知识。我担心,如果每个人都能轻易掌握这项技术,那么门槛就会被彻底消除,人人都能成为病毒学博士,并能一步步地学习如何设计、合成和释放生物武器。面对强大的敌对压力,防止此类信息泄露——即所谓的“越狱”——可能需要多层防御措施,而这些措施远非常规训练所能涵盖。
至关重要的是,这将打破能力与动机之间的关联:那些想要杀人却缺乏自律或技能的孤僻怪人,如今将拥有与病毒学博士同等的能力,而后者不太可能具备这种动机。这种担忧不仅限于生物学领域(尽管我认为生物学是最可怕的领域),而是适用于任何可能造成巨大破坏但目前需要高超技能和高度自律的领域。换句话说,租用强大的人工智能系统会赋予心怀恶意(但其他方面平庸)的人以智能。我担心,这类人可能数量众多,如果他们能够轻易地杀害数百万人,那么迟早会有人这么做。此外,那些拥有专业知识的人或许能够造成比以往更大规模的破坏。
生物学是我最担忧的领域,因为它具有巨大的潜在破坏力,而且难以防御,所以我将重点讨论生物学。但我在这里所说的很多内容也适用于其他风险,例如网络攻击、化学武器或核技术。
我不会详细讨论如何制造生物武器,原因显而易见。但总的来说,我担心高阶生物武器制造者(LLM)正在接近(或可能已经达到)从头到尾制造和释放生物武器所需的知识,而且它们的潜在破坏力极高。如果蓄意释放某些生物制剂以使其最大程度地扩散,可能会造成数百万人死亡。然而,这仍然需要极高的技能,包括许多鲜为人知的具体步骤和程序。我担心的不仅仅是固定不变的知识。我担心的是,高阶生物武器制造者能够引导一个普通人以互动的方式完成一个复杂的流程,避免出错或需要调试,就像技术支持人员帮助非技术人员调试和修复复杂的计算机问题一样(尽管这会是一个更漫长的过程,可能需要数周甚至数月)。
更强大的LLM(远超当今的LLM)或许能够促成更加可怕的行为。2024年,一群杰出的科学家联名致信,警告人们研究乃至创造一种危险的新型生物体——“镜像生命”——的风险。构成生物体的DNA、RNA、核糖体和蛋白质都具有相同的手性(也称“旋向性”),这使得它们与镜中映照出的自身并不完全相同(就像你的右手无法旋转成与左手完全相同一样)。然而,蛋白质相互结合的整个系统、DNA合成和RNA翻译的机制以及蛋白质的构建和分解都依赖于这种旋向性。如果科学家制造出具有相反旋向性的生物材料——虽然这种材料也有一些潜在优势,例如药物在体内停留时间更长——但其后果可能极其危险。这是因为,如果左撇子生命以完整有机体的形式存在并能够繁殖(这非常困难),那么地球上任何分解生物物质的系统都可能无法将其消化——它拥有的“钥匙”无法打开任何现有酶的“锁”。这意味着它可能以无法控制的方式增殖,最终排挤地球上所有生命,在最糟糕的情况下甚至会毁灭地球上的所有生命。
关于镜像生命的产生及其潜在影响,目前科学界仍存在诸多不确定性。2024年的一封信函附带一份报告,该报告的结论是“镜像细菌有可能在未来一到几十年内被创造出来”,这个时间跨度相当大。但是,一个足够强大的AI模型(需要明确的是,远比我们目前拥有的任何模型都强大得多)或许能够更快地发现创造镜像生命的方法,甚至能够帮助人们真正做到这一点。
我的观点是,尽管这些风险比较隐晦,而且看起来不太可能发生,但其后果的严重性如此之大,以至于应该将其视为人工智能系统的一级风险并认真对待。
怀疑论者对低级别微生物(LLM)带来的生物风险的严重性提出了诸多质疑,我并不认同这些观点,但这些质疑值得探讨。大多数质疑都源于他们低估了这项技术呈指数级增长的趋势。早在2023年,当我们开始讨论低级别微生物的生物风险时,怀疑论者就声称所有必要信息都可以在谷歌上找到,低级别微生物并没有提供任何额外的信息。谷歌从来就无法提供所有必要信息:基因组数据可以免费获取,但正如我之前所说,某些关键步骤以及大量的实践经验无法通过谷歌获得。而且,到2023年底,低级别微生物在某些步骤中提供的信息显然已经超越了谷歌所能提供的范围。
此后,怀疑论者转而反对LLM模型,认为它们并非全程实用,只能提供理论信息,而无法帮助获取生物武器。截至2025年中期,我们的测量结果显示,LLM模型可能已经在多个相关领域显著提升了成功率,或许能使成功几率提高两到三倍。因此,我们决定将Claude Opus 4(以及后续的Sonnet 4.5、Opus 4.1和Opus 4.5模型)纳入我们负责任扩展政策框架下的人工智能安全3级保护措施,并实施相应的安全保障措施以应对这一风险(稍后详述)。我们认为,这些模型目前可能正接近这样一个临界点:如果没有安全保障措施,它们可能会使拥有STEM学位但并非生物学专业学位的人也能完成整个生物武器的生产过程。
另一种反对意见是,社会可以采取其他与人工智能无关的措施来阻止生物武器的生产。最突出的是,基因合成行业按需生产生物样本,但目前联邦政府并未要求供应商对订单进行筛查,以确保其中不含病原体。麻省理工学院的一项研究发现,38家供应商中有36家完成了包含1918年流感病毒序列的订单。我支持强制进行基因合成筛查,这将使个人更难将病原体武器化,从而降低人工智能驱动的生物风险以及总体生物风险。但这并非我们目前所拥有的。而且,这只是降低风险的众多工具之一;它是对人工智能系统安全防护措施的补充,而非替代。
最好的反对意见是我很少见到的:模型在理论上的实用性与不法分子实际使用它们的倾向之间存在差距。大多数不法分子本身就存在心理问题,因此几乎从定义上讲,他们的行为就是不可预测且非理性的——而正是这些不熟练的不法分子,最有可能从人工智能使杀人变得更加容易中获益。
仅仅因为某种暴力袭击是可能的,并不意味着就会有人选择实施。或许生物袭击之所以不具吸引力,是因为它们很可能使施暴者自身感染,它们不符合许多暴力个人或团体所抱有的军事化幻想,而且很难有选择地锁定特定目标。也可能是因为,即使有人工智能指导,实施生物袭击也需要数月时间,这需要极大的耐心,而大多数精神不稳定的人根本缺乏这种耐心。我们或许只是运气好,在实践中,动机和能力并没有以恰当的方式结合起来。
但这似乎是一种非常脆弱的保护措施。精神异常的独行者的动机可能出于任何原因或无任何原因而改变,事实上,已经有利用低级动机进行袭击的案例(只是并非生物武器)。关注精神异常的独行者也忽略了受意识形态驱动的恐怖分子,他们往往愿意投入大量时间和精力(例如,9/11劫机者)。想要尽可能多地杀人这种动机迟早会出现,不幸的是,它暗示着生物武器是实现这一目的的手段。即使这种动机极其罕见,也只需要出现一次。随着生物学的发展(越来越多地受到人工智能的驱动),或许还可以进行更具选择性的袭击(例如,针对具有特定血统的人群),这又增加了一种令人不寒而栗的潜在动机。
我不认为生物袭击会在技术广泛应用后立即发生——事实上,我对此持怀疑态度。但考虑到数百万人口和几年时间,我认为发生大规模袭击的风险确实很高,而且后果将极其严重(伤亡人数可能达到数百万甚至更多),因此我认为我们别无选择,只能采取切实有效的措施来预防此类袭击。
防御
这就引出了如何防范这些风险的问题。我认为我们可以做三件事。首先,人工智能公司可以为其模型设置防护措施,防止它们被用于制造生物武器。Anthropic 公司在这方面非常积极。《克劳德宪章》主要侧重于高层次的原则和价值观,其中包含少量具体的强硬禁令,其中一项就与协助制造生物(或化学、核武器、放射性)武器有关。但是所有模型都可能被破解,因此作为第二道防线,我们实施了一个分类器(自 2025 年年中以来,当时我们的测试表明,我们的模型开始接近可能构成风险的阈值),专门用于检测和阻止与生物武器相关的输出。我们会定期升级和改进这些分类器,并且通常发现它们即使面对复杂的对抗性攻击也具有很高的鲁棒性。
这些分类器会显著增加我们模型的运行成本(在某些模型中,它们接近总推理成本的 5%),从而削减我们的利润,但我们认为使用它们是正确的事情。
值得肯定的是,其他一些人工智能公司也实现了分类器。但并非所有公司都如此,也没有任何规定要求公司必须保留分类器。我担心随着时间的推移,可能会出现囚徒困境,即公司可以通过移除分类器来降低成本。这再次体现了典型的负外部性问题,仅靠Anthropic或其他任何一家公司的自愿行动都无法解决。
自愿性行业标准可能会有所帮助,人工智能安全 机构和第三方评估人员进行的第三方评估和验证也可能有所帮助。
但归根结底,防御可能需要政府采取行动,这是我们能做的第二件事。我在这方面的观点与应对自主风险的观点相同:我们应该从透明度要求入手,这些措施有助于社会衡量、监测并共同抵御风险,同时避免以强硬手段扰乱经济活动。然后,一旦我们达到更清晰的风险阈值,就可以制定更精准地针对这些风险并降低附带损害风险的法律。就生物武器而言,我认为制定此类针对性法律的时机可能即将到来——Anthropic 和其他公司正在不断深入了解生物风险的本质,以及在防御这些风险方面对企业提出合理要求的程度。全面防御这些风险可能需要国际合作,甚至与地缘政治对手合作,但已有条约禁止研发生物武器,这方面已有先例。我通常对大多数人工智能领域的国际合作持怀疑态度,但这或许是少数几个有可能实现全球约束的领域之一。即使是独裁政权也不希望发生大规模的生物恐怖袭击。
最后,我们可以采取的第三项应对措施是尝试开发针对生物攻击本身的防御机制。这可能包括监测和追踪以便早期发现、投资空气净化研发(例如远紫外线消毒)、快速开发能够应对和适应攻击的疫苗、更好的个人防护装备(PPE)等。
以及针对一些最有可能的生物制剂的治疗方法或疫苗。mRNA疫苗可以根据特定病毒或变种进行设计,是这方面早期研究成果的一个例证。Anthropic公司很高兴能与生物技术和制药公司合作解决这一问题。但遗憾的是,我认为我们在防御方面的期望应该有所限制。生物学中攻防之间存在着不对称性,因为病原体可以自行快速传播,而防御则需要迅速组织大规模人群进行检测、接种疫苗和治疗。除非反应速度极快(这种情况很少见),否则在做出反应之前,大部分损害就已经造成了。未来的技术进步或许能够改变这种局面,使防御能力更强(我们当然应该利用人工智能来推动此类技术进步),但在那之前,预防性措施仍将是我们的主要防线。
这里有必要简要提及网络攻击,因为与生物攻击不同,人工智能主导的网络攻击已在实际环境中发生,包括大规模攻击和国家支持的间谍活动。我们预计,随着模型的快速发展,这些攻击的能力将不断增强,最终成为网络攻击的主要手段。我预计,人工智能主导的网络攻击将成为全球计算机系统完整性面临的严重且前所未有的威胁,而Anthropic公司正竭尽全力阻止这些攻击,并最终可靠地预防它们的发生。我之所以没有像关注生物攻击那样关注网络攻击,原因有二:(1) 网络攻击致人死亡的可能性要小得多,当然不会像生物攻击那样大规模;(2) 在网络领域,攻防平衡可能更容易把握,至少在网络领域,如果我们投入足够的资源,防御能力或许能够跟上(甚至理想情况下超越)人工智能攻击的步伐。
尽管生物因素目前是最严重的攻击途径,但还有许多其他途径,而且未来可能出现更危险的途径。总的原则是,如果不采取应对措施,人工智能很可能会不断降低其进行大规模破坏活动的门槛,人类必须认真应对这一威胁。
3. 令人憎恶的装置
滥用权力夺取权力
前一节讨论了个人和小组织利用“数据中心天才之国”中的一小部分人进行大规模破坏的风险。但我们也应该担心——而且可能更应该担心——人工智能被滥用以攫取或 攫取权力,而这很可能是由规模更大、实力更强的势力所为。
在《充满爱意的机器》一书中,我探讨了专制政府可能利用强大的人工智能来监视或镇压公民,而这种做法极难改革或推翻。目前的专制政权由于需要依靠人类来执行命令,其镇压手段受到限制,而人类的残忍程度往往也是有限的。但人工智能赋能的专制政权则不受这些限制。
更糟糕的是,各国还可能利用其在人工智能领域的优势来攫取对其他国家的权力。如果这个“天才之国”完全被某个(人类)国家的军事机构所掌控,而其他国家又不具备同等能力,那么它们很难自卫:它们会处处受挫,就像人类与老鼠之间的战争一样。将这两种担忧结合起来,就引出了一个令人震惊的可能性:全球极权独裁统治的出现。显然,防止这种情况发生应该是我们最重要的任务之一。
人工智能可以通过多种方式助长、巩固或扩张独裁统治,但我将列举一些我最担忧的方面。需要注意的是,其中一些应用具有合理的防御用途,我并非绝对反对它们;但我仍然担心,它们在结构上倾向于有利于独裁统治:
- 全自动武器。数百万甚至数十亿架全自动武装无人机,由强大的人工智能进行本地控制,并由更强大的人工智能在全球范围内进行战略协调,可能构成一支所向披靡的军队,既能击败世界上任何军队,又能通过跟踪每个公民来镇压国内异议。俄乌战争的进展应该让我们意识到,无人机战争已经到来(尽管尚未完全实现自主,也远未达到强大人工智能所能达到的程度)。强大的人工智能研发可以使一个国家的无人机性能远超其他国家,加快其生产速度,增强其抗电子攻击能力,提高其机动性等等。当然,这些武器在捍卫民主方面也有其合法用途:它们是保卫乌克兰的关键,也可能是保卫台湾的关键。但它们是一种危险的武器:我们应该担心它们落入专制政权手中,但同时也应该担心,由于它们如此强大,又缺乏问责机制,民主政府利用它们对付自己的人民以夺取政权的风险大大增加。
- 人工智能监控。功能足够强大的人工智能很可能被用来入侵世界上任何计算机系统,而且,他们还可以利用这种方式获得的访问权限,读取并解读全世界所有的电子通信(如果能够制造或征用录音设备,甚至可以读取全世界所有的面对面交流)。仅仅生成一份与政府在任何问题上持不同意见者的完整名单,即使他们的异议并未在言行中明确表达,这种可能性也令人不寒而栗。一个强大的AI系统,通过分析数百万人的数十亿条对话,就能评估公众情绪,发现正在形成的不忠势力,并在其壮大之前将其扼杀。这可能导致真正意义上的全景监狱式监控的出现,其规模之大,即使是中共也无法企及。
- 人工智能宣传。如今“人工智能精神病”和“人工智能女友”等现象表明,即使在目前的智能水平下,人工智能模型也能对人们产生强大的心理影响。如果这些模型功能更加强大,能够更深入地融入人们的日常生活,并能对人们的生活进行数月甚至数年的建模和影响,那么它们很可能能够对许多人(甚至大多数人?)进行洗脑,使其接受任何预设的意识形态或态度。一些不择手段的领导人可能会利用这些模型来确保民众的忠诚,压制异己,即便面对大多数民众都会反抗的镇压程度。例如,如今人们非常担心TikTok可能被中共用作针对儿童的宣传工具。我也对此感到担忧,但一个能够深入了解你多年,并利用其对你的了解来塑造你所有观点的个性化人工智能代理,其威力将远远超过这些担忧。
- 战略决策。一个由众多天才组成的国家,其数据中心可以为国家、团体或个人提供地缘政治战略方面的建议,我们可以称之为“虚拟俾斯麦”。它可以优化上述三种夺取政权的战略,甚至可能开发出我尚未想到的其他战略(但一个天才国家完全有能力做到这一点)。强大的AI有望大幅提升外交、军事战略、研发、经济战略以及许多其他领域的效率。这些技能中的许多对民主国家来说确实大有裨益——我们希望民主国家能够获得抵御专制政权的最佳战略——但任何人滥用这些技能的可能性依然存在。
既然我已经描述了我的担忧,接下来我们来谈谈“谁”。我担心的是那些最容易接触到人工智能、拥有最强大政治权力或有过镇压历史的实体。按严重程度排序,我担心的是:
- 中共。中国的人工智能能力仅次于美国,并且是最有可能超越美国的国家。其政府目前实行专制统治,并运作着一个高科技监控国家。它已经部署了基于人工智能的监控系统(包括用于镇压维吾尔族),并且据信通过TikTok等平台进行算法宣传(此外,它还开展了许多其他国际宣传活动)。毫无疑问,他们正朝着我上面描述的人工智能赋能的极权主义噩梦迈进。这甚至可能成为中国乃至其他中共出口监控技术的专制国家的必然结果。我曾多次撰文指出中共在人工智能领域占据领先地位的威胁,以及阻止其实现这一目标的迫切性。原因就在于此。需要澄清的是,我并非出于对中国的特殊敌意而单独提及——他们只是将人工智能实力、专制政府和高科技监控国家这三者结合得最为完美的国家。如果说谁最有可能遭受中共人工智能镇压,那应该是中国人民自己,他们对政府的行动没有任何发言权。我非常钦佩和尊重中国人民,并支持中国境内众多勇敢的异见人士及其争取自由的斗争。
- 民主国家在人工智能领域具有竞争力。正如我上文所述,民主国家对某些人工智能驱动的军事和地缘政治工具拥有正当的兴趣,因为民主政府能够最大程度地防止专制政权利用这些工具。总的来说,我支持为民主国家配备在人工智能时代战胜专制政权所需的工具——我认为别无他法。但我们不能忽视民主政府自身滥用这些技术的可能性。民主国家通常设有保障措施,防止其军事和情报机构被用于对付本国人民。
但由于人工智能工具操作所需人员极少,它们有可能绕过这些保障措施及其背后的规范。值得注意的是,在一些民主国家,部分保障措施已在逐渐瓦解。因此,我们应该让民主国家拥有人工智能,但必须谨慎行事,并加以限制:人工智能是我们对抗专制政权的免疫系统,但就像免疫系统一样,它们也存在着反过来威胁我们的风险。
- 拥有大型数据中心的非民主国家。除了中国之外,大多数民主程度较低的国家并非人工智能领域的领军者,因为它们没有能够开发前沿人工智能模型的公司。因此,它们构成的风险与中共截然不同,也更小,而中共仍然是首要关注点(大多数国家的压制程度也较低,而像朝鲜这样压制程度较高的国家则根本没有重要的AI产业)。但其中一些国家确实拥有大型数据中心(通常是民主国家公司建设的一部分),这些数据中心可以用来大规模运行前沿人工智能(但这并不意味着它们有能力推动人工智能技术的发展)。这其中存在一定的风险——这些政府原则上可以没收数据中心,并将这些国家内部的人工智能技术用于自身目的。与像中国这样直接开发人工智能的国家相比,我对此的担忧较少,但这仍然是一个需要注意的风险。32
- 人工智能公司。作为一家人工智能公司的首席执行官,说这话或许有些尴尬,但我认为下一层风险实际上就来自人工智能公司本身。人工智能公司掌控着大型数据中心,训练着前沿模型,拥有运用这些模型的顶尖专业知识,在某些情况下,它们甚至每天都与数千万乃至数亿用户保持联系,并有可能对他们施加影响。它们最缺乏的是国家所拥有的合法性和基础设施,因此,构建人工智能独裁统治所需的许多工具,对人工智能公司而言要么是非法的,要么至少会令人极为怀疑。但有些事情并非完全不可能:例如,它们可以利用人工智能产品对庞大的用户群体进行洗脑,公众应该警惕这种风险。我认为人工智能公司的治理结构值得严格审查。
针对这些威胁的严重性,存在一些可能的反驳论点,我真希望自己能相信这些论点,因为人工智能赋能的威权主义令我感到恐惧。因此,值得我们仔细审视并逐一回应这些论点。
首先,有些人可能会寄希望于核威慑,尤其是在应对人工智能自主武器被用于军事征服方面。如果有人威胁要用这些武器对付你,你当然可以威胁以核反击。但我担心的是,我并不完全确定我们能否对一个拥有数据中心天才的国家抱有十足的信心:强大的人工智能有可能找到探测和打击核潜艇的方法,对核武器基础设施的运营者进行影响力行动,或者利用人工智能的网络能力对用于探测核发射的卫星发动网络攻击。
另一种可能性是,仅凭人工智能监控和人工智能宣传就能控制其他国家,而且永远不会出现一个清晰的时刻,让人清楚地意识到发生了什么,以及何时才是使用核武器的合适时机。也许这些情况并不现实,核威慑仍然有效,但风险似乎太高,不值得冒险。
第二个可能的反对意见是,我们可以采取一些反制措施来对抗这些专制工具。我们可以用自己的无人机对抗对方的无人机,网络防御会随着网络攻击的增加而改进,或许还有办法使人们免受宣传的影响等等。我的回应是,这些防御措施只有在拥有同样强大的人工智能的情况下才有可能实现。如果没有一个拥有同样智慧且数量众多的精英人才的国家在数据中心进行对抗,那么就不可能在质量或数量上与对方的无人机匹敌,网络防御也无法智胜网络攻击等等。因此,反制措施的问题最终归结为强大人工智能领域的力量平衡问题。在这里,我担心的是强大人工智能的递归或自我强化特性(我在本文开头已经讨论过):每一代人工智能都可以被用来设计和训练下一代人工智能。这会导致一种失控优势的风险,即当前在强大人工智能领域领先的者可能会进一步扩大其领先优势,并且难以被追赶。我们需要确保第一个陷入这种困境的不是专制国家。
此外,即便能够实现权力平衡,世界仍然存在分裂成多个专制政权的风险,正如《一九八四》中所描绘的那样。即使几个相互竞争的强权各自拥有强大的AI模型,且彼此之间无法匹敌,每个强权仍然可以对本国人民进行内部镇压,并且很难被推翻(因为这些人民没有强大的AI来保护自己)。因此,即使不会导致某个国家统治世界,防止AI驱动的专制政权出现也至关重要。
防御
我们该如何抵御如此广泛的专制工具和潜在的威胁行为体?正如前文所述,我认为我们可以采取以下几个措施。首先,我们绝对不应该向中共出售芯片、芯片制造工具或数据中心。芯片和芯片制造工具是强大人工智能发展的最大瓶颈,封锁它们是一个简单却极其有效的措施,或许是我们能够采取的最重要的行动。向中共出售他们用来建立人工智能极权国家并可能在军事上征服我们的工具是毫无道理的。有人提出了许多复杂的论点来为这种出售行为辩护,例如“将我们的技术栈推广到世界各地”可以让“美国在某种未指明的经济竞争中获胜”。在我看来,这就像向朝鲜出售核武器,然后吹嘘导弹外壳是波音公司制造的,所以美国“赢了”。中国在尖端芯片的量产能力上比美国落后数年,而打造数据中心天才之国的关键时期很可能就在未来几年。
在这个关键时期,没有理由大力扶持他们的AI产业。
其次,利用人工智能赋能民主国家抵御专制政权是合情合理的。正因如此,安特罗皮克公司认为向美国及其民主盟友的情报和国防机构提供人工智能至关重要。保护遭受攻击的民主国家,例如乌克兰和(遭受网络攻击的)台湾,显得尤为重要;赋能民主国家利用其情报机构从内部瓦解和削弱专制政权也同样重要。在某种程度上,应对专制威胁的唯一途径就是在军事上与之匹敌并超越。如果美国及其民主盟友组成的联盟在强大的人工智能领域占据主导地位,那么它不仅能够抵御专制政权的攻击,还能遏制它们并限制其人工智能极权主义的滥用。
第三,我们必须坚决抵制民主国家滥用人工智能的行为。我们必须限制政府使用人工智能的范围,以免他们趁机夺取政权或镇压人民。我提出的方案是,我们应该将人工智能用于国防,但绝不能用于那些会让我们变得更像专制对手的用途。
界限应该划在哪里?在本节开头列出的清单中,有两项——利用人工智能进行国内大规模监控和大规模宣传——在我看来是触目惊心的禁忌,完全不合法。有些人可能会说,没有必要采取任何行动(至少在美国是这样),因为根据第四修正案,国内大规模监控本身就是非法的。但是,人工智能的快速发展可能会带来一些我们现有的法律框架难以应对的情况。例如,美国政府大规模录制所有公共对话(例如,人们在街角的交谈)可能并不违宪,而且以前很难处理如此庞大的信息量,但有了人工智能,所有信息都可以被转录、解读和分析,从而描绘出大多数公民的态度和忠诚度。我支持以公民自由为中心的立法(甚至可能是宪法修正案),以加强对人工智能滥用行为的监管。
另外两项——全自主武器和用于战略决策的人工智能——的界限更难划定,因为它们在捍卫民主方面具有合法用途,但也容易被滥用。我认为,在此方面,应当采取极其谨慎的态度和严格的审查,并辅以相应的保障措施来防止滥用。我最担心的是“掌握控制权的人”太少,以至于一两个人就能操控一支无人机部队,而无需其他人配合执行命令。随着人工智能系统变得越来越强大,我们可能需要建立更直接、更及时的监督机制,以确保它们不被滥用,这或许需要行政部门以外的其他政府部门参与。我认为,我们尤其应该对全自主武器保持高度谨慎的态度。
并且不要在没有适当安全措施的情况下仓促使用。
第四,在对民主国家滥用人工智能的行为划清界限之后,我们应该以此为先例,建立一项国际禁忌,禁止滥用强大的人工智能。我承认,当前的政治风向不利于国际合作和国际规范,但在这个领域,我们却迫切需要它们。世界需要认识到,强大的人工智能一旦落入独裁者手中,其潜在的危害极大,并且必须认识到,某些人工智能的使用实际上是在试图永久剥夺民众的自由,并强加一个他们无法逃脱的极权国家。我甚至认为,在某些情况下,利用强大的人工智能进行大规模监控、利用强大的人工智能进行大规模宣传,以及某些类型的完全自主武器的进攻性使用,都应被视为反人类罪。更广泛地说,我们迫切需要一项强有力的规范,以遏制人工智能驱动的极权主义及其所有工具和手段。
这种观点还可以有更强烈的版本,即由于人工智能赋能的极权主义的可能性如此黑暗,在后人工智能时代,专制根本不是一种人们能够接受的政府形式。正如封建制度随着工业革命而走向终结一样,人工智能时代也可能不可避免地、合乎逻辑地导致这样的结论:民主(而且,正如我在《充满爱意的机器》一书中探讨的那样,希望人工智能能够改进并重振民主)是人类拥有美好未来的唯一可行政府形式。
第五,也是最后一点,人工智能公司及其与政府的关系都应受到密切关注。这种关系固然必要,但必须有所限制和界限。强大的人工智能所蕴含的庞大能力,使得旨在保护股东利益、防止欺诈等常见滥用行为的普通公司治理模式,难以胜任对人工智能公司的监管。此外,公司公开承诺(或许可以将其作为公司治理的一部分)不采取某些行动,例如私下建造或囤积军事硬件、个人以不受监管的方式使用大量计算资源,或利用其人工智能产品进行宣传以操纵舆论,也可能具有重要意义。
危险来自四面八方,而且某些方向之间还存在冲突。唯一不变的是,我们必须为所有人寻求问责制、规范和保障措施,同时赋予“好”行为者权力,以制约“坏”行为者。
4. 自动钢琴
经济动荡
前三节主要讨论了强大人工智能带来的安全风险:人工智能自身带来的风险、个人和小组织滥用人工智能带来的风险,以及国家和大型组织滥用人工智能带来的风险。如果我们暂且搁置安全风险,或者假设这些风险已经得到解决,那么下一个问题就是经济层面。这种惊人的“人力”资本注入会对经济产生怎样的影响?显然,最显著的影响将是大幅提升经济增长。科学研究、生物医学创新、制造业、供应链、金融体系效率等方面的进步,几乎可以肯定地会带来更快的经济增长速度。在《爱的机器》一书中,我提出,持续保持10%至20%的年均GDP增长率是有可能的。
但显而易见,这是一把双刃剑:在这样的世界里,大多数人类的经济前景如何?新技术往往会给劳动力市场带来冲击,过去人类总能从中恢复过来,但我担心这是因为以往的冲击只影响了人类全部能力的一小部分,为人类拓展到新的领域留下了空间。人工智能的影响范围更广,速度也更快,因此我担心,要让一切顺利进行将更具挑战性。
劳动力市场中断
我主要担心两个问题:劳动力市场岗位流失和经济权力集中。我们先来看第一个问题。早在2025年,我就公开警告过这个问题,当时我预测,即使人工智能会加速经济增长和科技进步,但在未来1-5年内,它仍可能取代一半的入门级白领工作。我的警告引发了公众对此的讨论。许多首席执行官、技术专家和经济学家都同意我的观点,但也有人认为我陷入了“劳动力市场整体性”的谬误,不了解劳动力市场的运作方式;还有一些人没有注意到1-5年的时间跨度,误以为我是在说人工智能现在就已经在取代工作岗位了(我承认这种情况不太可能发生)。因此,有必要详细阐述我为何担忧劳动力市场流失,以澄清这些误解。
首先,了解劳动力市场通常如何应对技术进步至关重要。当一项新技术出现时,它首先会提高人类特定工作的某些环节的效率。例如,在工业革命初期,诸如改良型犁之类的机器使农民在某些工作环节中效率更高。这提高了农民的生产力,进而增加了他们的工资。
下一步,部分农业工作可以完全由机器完成,例如脱粒机或播种机的发明。在这个阶段,人类完成的工作比例越来越低,但他们完成的工作却变得越来越有价值,因为这些工作与机器的工作互补,生产率也持续提高。正如杰文斯悖论所描述的那样,农民的工资甚至农民的数量都在持续增长。即使90%的工作都由机器完成,人类仍然可以用同样的劳动量,将剩余的10%的工作量增加10倍,从而获得10倍的产出。
最终,机器将包揽一切或几乎所有工作,例如现代联合收割机、拖拉机和其他设备。此时,农业作为一种人类就业形式确实会急剧衰落,这可能会在短期内造成严重的社会动荡。但由于农业只是人类众多有用活动之一,人们最终会转向其他工作,例如操作工厂机器。即便农业曾经占据了就业的很大比例,情况依然如此。250年前,90%的美国人生活在农场;在欧洲,50%到60%的就业与农业相关。如今,这些地方的农业就业比例已降至个位数,因为工人转向了工业岗位(后来又转向了知识型工作)。经济只需1%到2%的劳动力就能完成以前需要大部分劳动力才能完成的工作,从而解放了其余劳动力,让他们能够建设一个更加先进的工业社会。并不存在固定的“劳动力总量”,只有不断增强的用越来越少的资源创造越来越多价值的能力。人们的工资随着GDP呈指数级增长而增长,一旦短期内的干扰过去,经济就能保持充分就业。
人工智能的发展轨迹或许也会大致相同,但我强烈反对这种说法。以下是我认为人工智能很可能有所不同的几个原因:
- 速度。人工智能的发展速度远超以往任何一次技术革命。例如,在过去两年里,人工智能模型从几乎无法编写一行代码,发展到能够为包括 Anthropic 公司工程师在内的一些人编写全部或几乎全部代码。37
不久之后,他们或许就能独立完成软件工程师的全部工作。38人们很难适应这种快速变化,无论是现有工作方式的改变,还是频繁更换工作的需求。就连一些传奇程序员也越来越觉得自己“落后了”。随着人工智能编码模型的不断完善,人工智能的开发速度也日益加快,这种变化速度甚至可能还会继续加快。需要明确的是,速度本身并不意味着劳动力市场和就业最终不会复苏,它只是意味着与以往的技术相比,短期转型将会异常艰难,因为人类和劳动力市场的反应和平衡速度都比较慢。
- 认知广度。正如“数据中心里的天才之国”这一说法所暗示的那样,人工智能将能够掌握非常广泛的人类认知能力——或许是所有认知能力。这与以往的技术,例如机械化农业、交通运输甚至计算机,都截然不同。39
这将使人们更难从被取代的工作岗位轻松转型到适合自己的类似工作岗位。例如,金融、咨询和法律等行业的入门级工作所需的一般智力能力相当相似,即使具体知识差异很大。如果一项技术只颠覆这三个行业中的一个,员工就可以转行到其他两个相近的替代岗位(或者本科生可以转专业)。但如果同时颠覆这三个行业(以及许多其他类似的工作岗位),人们可能更难适应。此外,问题不仅仅在于大多数现有工作岗位会被颠覆。这种情况以前也发生过——想想看,农业曾经是就业的很大一部分。但农民可以转行到操作工厂机器这种相对类似的工作,即使这种工作以前并不常见。相比之下,人工智能越来越接近人类的一般认知能力,这意味着它也能胜任那些通常会因为旧工作被自动化而产生的新工作。换句话说,人工智能不是取代特定的人类工作,而是取代人类的一般劳动力。
- 按认知能力划分。在各种任务中,人工智能似乎正在从能力阶梯的底部向顶部发展。例如,在编程方面,我们的模型已经从“普通程序员”发展到“优秀程序员”,再到“非常优秀的程序员” 。
我们现在开始看到白领工作领域也出现类似的趋势。因此,我们面临着这样一种风险:人工智能不再像以往那样影响拥有特定技能或从事特定职业的人(他们可以通过再培训来适应),而是影响那些具有某些内在认知特征的人,即智力水平较低(这种能力更难改变)。目前尚不清楚这些人将何去何从,他们将会做什么,我担心他们可能会形成一个失业或收入极低的“底层阶级”。需要明确的是,类似的事情以前也发生过——例如,一些经济学家认为计算机和互联网代表着“技能偏向型技术变革”。但这种技能偏向性既没有我预期的人工智能带来的那么极端,也被认为加剧了工资不平等。所以这并不是一个令人安心的先例。
- 弥补差距的能力。面对新技术,人类工作通常会做出调整,因为工作涉及诸多方面,而新技术即便看似直接取代了人类,也往往存在不足之处。例如,如果有人发明了一台制造小部件的机器,人类可能仍然需要将原材料装入机器。即使这只需要手工制造小部件所需精力的1%,人类工人也能轻松生产出100倍的小部件。但人工智能不仅发展迅速,而且适应能力也很强。每次发布新模型时,人工智能公司都会仔细评估模型的优势和不足,客户也会在发布后提供此类信息。可以通过收集体现当前差距的任务,并以此为基础训练下一代模型,从而弥补这些不足。在生成式人工智能的早期阶段,用户注意到人工智能系统存在一些缺陷(例如,人工智能图像模型生成的手部手指数量错误),许多人认为这些缺陷是技术本身固有的。如果真是如此,那么对就业的冲击将会非常有限。但几乎所有这类弱点都能迅速得到解决——通常只需几个月就能解决。
值得探讨一下常见的质疑点。首先,有人认为经济扩散速度会很慢,即使底层技术能够胜任大部分人类劳动,它在整个经济中的实际应用速度也可能慢得多(例如,在那些远离人工智能产业且采用速度较慢的行业)。技术扩散缓慢的确存在——我与来自各行各业的人士交流过,有些地方采用人工智能需要数年时间。正因如此,我预测50%的入门级白领工作岗位将在1-5年内被颠覆,尽管我怀疑我们将在远低于5年的时间内拥有强大的人工智能(从技术角度来说,它足以胜任大部分甚至所有工作,而不仅仅是入门级工作)。但扩散效应仅仅是为我们争取时间。而且我并不认为扩散速度会像人们预测的那样慢。企业采用人工智能的速度远超以往任何技术,这主要归功于技术本身的强大实力。此外,即便传统企业采用新技术的速度较慢,初创公司也会如雨后春笋般涌现,起到“粘合剂”的作用,使新技术的采用变得更加容易。如果这种方法行不通,初创公司甚至可能直接颠覆现有企业。
这可能导致这样的局面:与其说是特定工作岗位受到冲击,不如说是大型企业整体受到冲击,并被劳动密集度低得多的初创企业所取代。这还可能导致“地域不平等”加剧,全球财富日益集中在硅谷,硅谷形成一个独立于世界其他地区的经济体系,其发展速度与世界其他地区截然不同,并将世界其他地区远远甩在后面。所有这些结果都有利于经济增长,但对劳动力市场和那些被时代抛在后面的人来说却并非如此。
其次,有人认为人类的工作将转移到现实世界,这完全避开了人工智能发展迅猛的“认知劳动”领域。我也不确定这种说法是否稳妥。许多体力劳动已经由机器完成(例如制造业),或者即将由机器完成(例如驾驶)。此外,足够强大的人工智能将能够加速机器人的发展,并最终控制这些机器人在现实世界中的运行。这或许能争取一些时间(这当然是好事),但我担心它争取不了多久。即便这种颠覆仅限于认知任务,它仍然会是一场前所未有的巨大而迅速的变革。
第三,或许有些任务本身就需要或能从人际互动中获益良多。对此我不太确定,但我仍然怀疑这是否足以抵消我上面描述的大部分影响。人工智能已被广泛应用于客户服务。许多人表示,与人工智能谈论个人问题比与心理咨询师交谈更容易——人工智能更有耐心。我姐姐怀孕期间身体不适,她觉得医护人员无法提供她需要的答案和支持,而她发现人工智能克劳德(Claude)的医患沟通技巧更好(而且诊断也更准确)。我相信有些任务确实需要人际互动,但我不确定有多少——而我们现在讨论的是几乎所有劳动力市场参与者的就业问题。
第四,有人可能会认为比较优势仍然能够保护人类。根据比较优势定律,即使人工智能在所有方面都优于人类,人类和人工智能技能组合之间的任何相对差异都会为人类和人工智能之间的贸易和专业化创造基础。问题在于,如果人工智能的生产力比人类高出数千倍,这种逻辑就开始失效。即使交易成本很小,也可能使人工智能与人类进行贸易变得不划算。而且,即使人类在技术上能够提供某种价值,他们的工资也可能非常低。
所有这些因素都有可能得到解决——劳动力市场或许有足够的韧性来适应如此巨大的冲击。但即便最终能够适应,上述因素也表明,短期冲击的规模将是前所未有的。
防御
我们该如何解决这个问题?我有一些建议,其中一些Anthropic已经在实施了。首先,我们需要实时获取关于就业岗位流失情况的准确数据。当经济变化发生得非常迅速时,很难获得可靠的数据,而没有可靠的数据,就很难制定有效的政策。例如,目前政府数据缺乏关于企业和行业人工智能应用情况的细粒度、高频次数据。过去一年,Anthropic一直在运营并公开发布一个经济指数,该指数几乎实时地展示了我们模型的使用情况,并按行业、任务、地点,甚至任务是自动化还是协作完成等因素进行了细分。我们还设立了一个经济顾问委员会,帮助我们解读这些数据并预测未来趋势。
其次,人工智能公司在与企业合作的方式上拥有选择权。传统企业的低效性意味着它们部署人工智能的路径可能非常依赖既定模式,因此存在选择更佳路径的空间。企业通常需要在“节约成本”(用更少的人做同样的事情)和“创新”(用同样数量的人做更多的事情)之间做出选择。市场最终必然会产生这两种选择,任何具有竞争力的人工智能公司都必须满足其中一部分需求,但或许可以尽可能地引导企业走向创新,这或许能为我们争取一些时间。Anthropic公司正在积极思考这个问题。
第三,公司应该思考如何关爱员工。短期来看,在公司内部创造性地重新分配员工岗位或许是避免裁员的有效途径。长期来看,在一个财富总量巨大的世界里,许多公司由于生产力提高和资本集中而价值大幅增长,即使员工不再创造传统意义上的经济价值,继续支付他们的薪酬也可能是可行的。Anthropic目前正在考虑一系列可能的员工发展路径,我们将在不久的将来与大家分享。
第四,富裕人士有义务帮助解决这个问题。令我感到遗憾的是,许多富裕人士(尤其是在科技行业)近来抱持着一种愤世嫉俗、虚无主义的态度,认为慈善事业必然是欺诈或毫无用处。无论是像盖茨基金会这样的私人慈善机构,还是像美国总统艾滋病紧急救援计划(PEPFAR)这样的公共项目,都已在发展中国家拯救了数千万人的生命,并帮助发达国家创造了经济机会。Anthropic的所有联合创始人承诺捐出公司80%的财富,Anthropic的员工也各自承诺捐出价值数十亿美元的公司股票(按当前价格计算)——公司承诺将对这些捐款进行等额配捐。
第五,尽管上述所有私人行动都可能有所帮助,但最终,如此庞大的宏观经济问题仍需政府干预。面对巨大的经济蛋糕和高度不平等(由于许多人缺乏就业机会或收入微薄),最自然的政策应对措施是累进税制。税收可以是普遍性的,也可以专门针对人工智能公司。显然,税收设计十分复杂,而且很容易出错。我不支持设计糟糕的税收政策。我认为,本文预测的极端不平等程度,从基本的道德层面来说,就足以证明制定更强有力的税收政策的合理性。此外,我还可以务实地向世界亿万富翁们提出论点:支持一个好的税收政策符合他们的利益;如果他们不支持好的政策,最终必然会得到一个由大众设计的糟糕版本。
归根结底,我认为上述所有干预措施都是为了争取时间。最终,人工智能将无所不能,我们必须应对这一挑战。我希望到那时,我们能够利用人工智能本身来帮助我们以对所有人都有利的方式重组市场,而上述干预措施能够帮助我们度过过渡期。
经济权力集中
除了工作岗位流失或经济不平等问题本身之外,经济权力集中问题也不容忽视。第一部分讨论了人工智能可能导致人类权力丧失的风险,第三部分讨论了政府通过武力或胁迫剥夺公民权力的风险。但如果财富高度集中,以至于少数人凭借自身影响力有效控制政府政策,而普通公民由于缺乏经济影响力而无能为力,那么就会出现另一种权力丧失。民主的根本在于,全体民众对于经济的运行至关重要。如果这种经济影响力消失,那么民主的隐性社会契约就可能失效。其他学者已经对此进行过论述,因此我无需在此赘述,但我认同这种担忧,并且担心这种情况已经开始出现。
需要澄清的是,我并不反对人们赚很多钱。在正常情况下,财富积累确实能促进经济增长,这种观点很有道理。我也理解人们担心,如果财富集中到个人手中,就会扼杀创新这只“金鹅”,从而阻碍创新。但是,在GDP年增长率达到10%到20%,人工智能迅速渗透经济,而个人却掌握着GDP的相当大比例的情况下,创新本身并非令人担忧的问题。真正令人担忧的是财富过度集中,这种过度集中最终会破坏社会。
美国历史上财富极度集中的最著名例子是镀金时代,而镀金时代最富有的实业家是约翰·D·洛克菲勒。洛克菲勒的财富约占当时美国GDP的2%。
如今,类似的比例将造就6000亿美元的财富,而当今世界首富(埃隆·马斯克)的财富已经超过了这个数字,约为7000亿美元。因此,即便在人工智能的大部分经济影响显现之前,我们就已经达到了前所未有的财富集中度。我认为,如果我们能拥有一个“天才之国”,那么人工智能公司、半导体公司以及下游应用公司每年创造约3万亿美元的收入并非天方夜谭。
其价值约为30万亿美元,个人财富也将达到数万亿美元。在那样的世界里,我们今天关于税收政策的争论将不再适用,因为我们将面临一个截然不同的局面。
与此相关的是,这种财富的经济集中与政治体制的结合已经令我担忧。人工智能数据中心已经占美国经济增长的很大一部分,因此,大型科技公司(它们越来越专注于人工智能或人工智能基础设施)的经济利益与政府的政治利益紧密地联系在一起,这可能会产生扭曲的激励机制。我们已经从科技公司不愿批评美国政府以及政府支持对人工智能采取极端反监管政策中看到了这一点。
防御
对此我们能做些什么?首先,也是最显而易见的,企业应该选择不参与其中。Anthropic 一直致力于成为政策制定者而非政治参与者,并始终坚持我们真实的观点,无论哪个政府执政。我们一直支持符合公众利益的合理人工智能监管和出口管制,即使这些与政府政策相悖。
许多人告诉我,我们应该停止这样做,因为这可能会导致不公平的待遇,但在我们这样做的这一年里,Anthropic 的估值增长了 6 倍多,这在我们商业规模上几乎是前所未有的增长。
其次,人工智能产业需要与政府建立更健康的关系——一种基于实质性政策参与而非政治结盟的关系。我们选择就政策实质而非政治议题展开合作,有时会被解读为策略失误或未能“察言观色”,而非出于原则性考量,这种解读令我担忧。在一个健康的民主社会中,企业应该能够出于自身利益而倡导良好的政策。与此相关的是,公众对人工智能的反弹正在酝酿:这或许是一种纠正措施,但目前缺乏重点。许多反弹针对的并非真正的问题(例如数据中心 用水量),并提出了一些无法解决真正问题的方案(例如禁止建设数据中心或设计不合理的财富税)。真正值得关注的根本问题是,如何确保人工智能的发展始终对公众利益负责,而不是被任何特定的政治或商业联盟所左右,而将公众讨论的焦点集中于此似乎至关重要。
第三,我在本节前面提到的宏观经济干预措施,以及私人慈善事业的复兴,有助于平衡经济天平,从而同时解决就业岗位流失和经济权力集中的问题。我们应该回顾一下美国的历史:即使在镀金时代,像洛克菲勒和卡内基这样的实业家也深感对整个社会负有强烈的责任感,他们认为社会对他们的成功做出了巨大贡献,因此他们需要回馈社会。如今,这种精神似乎越来越少见,而我认为,这正是摆脱当前经济困境的关键所在。那些站在人工智能经济繁荣前沿的人应该愿意捐献他们的财富和权力。
5. 无尽的黑色海洋
间接效应
最后一部分涵盖了所有未知的未知因素,特别是人工智能积极发展及其带来的科学技术整体加速进步可能间接导致的问题。假设我们解决了之前描述的所有风险,并开始享受人工智能带来的益处,我们很可能“将一个世纪的科学和经济进步压缩到十年”,这对世界来说无疑是巨大的利好。但与此同时,我们也必须应对这种快速发展带来的问题,而这些问题可能会迅速出现。此外,我们还可能遇到其他一些因人工智能发展而间接产生、难以预先预测的风险。
由于未知因素众多,不可能列出详尽的清单,但我将列出三个可能存在的问题作为示例,说明我们应该注意哪些方面:
- 生物学的飞速发展。如果我们能在短短几年内取得一个世纪的医学进步,人类的寿命或许会大幅延长,甚至有可能获得一些颠覆性的能力,例如提升人类智力或彻底改造人类生物学。这些都将是人类能力领域的巨大变革,而且发生得非常迅速。如果以负责任的方式进行(正如我在《爱的恩典机器》一书中所描述的那样,这也是我的希望),这些变革可能会带来积极的影响。但始终存在着风险,例如,如果提升人类智力的努力也导致人类变得更加不稳定或更加追求权力。此外,还有“上传”或“全脑模拟”的问题,即用软件实现的数字化人类思维,这或许有一天能够帮助人类超越自身的生理局限,但其中也蕴含着令我不安的风险。
- 人工智能正以一种不健康的方式改变着人类的生活。一个拥有数十亿比人类聪明得多的智能体的世界,将会是一个非常怪异的世界。即使人工智能不会主动攻击人类(第一部分),也不会被国家明确用于压迫或控制(第三部分),但即便如此,通过正常的商业激励和名义上的双方同意的交易,仍然有很多事情可能会出错。我们已经从对人工智能精神病、人工智能导致自杀以及与人工智能建立恋爱关系的担忧中看到了这种趋势的早期迹象。例如,强大的人工智能会不会发明某种新的宗教并让数百万人皈依?大多数人会不会最终以某种方式“沉迷”于与人工智能的互动?人们最终会不会沦为人工智能系统的“傀儡”,人工智能会监视他们的一举一动,并时刻告诉他们该做什么、该说什么,从而让他们过上“美好”的生活,但却缺乏自由和成就感?如果我和《黑镜》的创作者坐下来一起集思广益,不难想出几十个类似的场景。我认为这凸显了改进克劳德宪法的重要性,其重要性甚至超过了防止第一部分中提到的问题。确保人工智能模型真正以用户的长远利益为重,以一种有识之士能够认可的方式,而不是以某种微妙的扭曲方式,这一点至关重要。
- 人类的意义。这一点与前一点相关,但它并非着眼于人类与人工智能系统的具体互动,而是关乎在人工智能日益强大的世界中,人类生活将如何整体改变。在这样的世界里,人类还能找到意义和价值吗?我认为这取决于态度:正如我在《爱的机器》一书中所说,我认为人类的意义并不取决于是否在某个领域做到世界顶尖,人类可以通过自己热爱的故事和项目,在漫长的岁月中找到意义。我们只需要打破经济价值创造与自我价值和意义之间的联系。但这需要社会经历转型,而我们始终面临着转型失败的风险。
我希望,在人工智能强大的世界里,我们能够信任它不会危害人类,不会沦为压迫性政府的工具,而是真正为我们服务,这样我们就能利用人工智能本身来预测和预防这些问题。但这并非板上钉钉——和其他所有风险一样,我们需要谨慎对待。
人类的考验
读完这篇文章,或许会让人觉得我们正身处一个令人畏惧的境地。的确,写作的过程令我感到压力巨大,这与《爱的机器》截然不同——后者仿佛是将萦绕在我脑海中多年的绝美乐章赋予了形式和结构。而我们面临的困境也的确错综复杂。人工智能从多方面威胁着人类,各种危险之间存在着真正的张力:如果我们不极其谨慎地权衡利弊,缓解某些危险反而可能导致其他危险的加剧。
精心构建人工智能系统,使其不会自主威胁人类,这与民主国家需要领先于专制国家、避免被其奴役的需求之间存在着真正的矛盾。然而,反过来,那些对抗专制政权所必需的人工智能工具,如果使用过头,也可能被利用到国内,在我们自己的国家制造暴政。人工智能驱动的恐怖主义可能通过滥用生物学造成数百万人死亡,但对这种风险反应过度则可能使我们走向专制监控国家。人工智能带来的劳动力和经济集中化效应,除了本身就是严重的问题之外,还可能迫使我们在公众愤怒甚至社会动荡的环境下面对其他问题,而不是依靠我们人性中善良的一面。最重要的是,风险的数量之多,包括未知风险,以及我们需要同时应对所有这些风险,构成了人类必须面对的艰巨挑战。
此外,过去几年已经清楚地表明,停止甚至大幅减缓这项技术的发展从根本上来说是站不住脚的。构建强大的AI系统的公式极其简单,以至于几乎可以说它是从正确的数据和原始计算的组合中自发产生的。它的诞生或许在人类发明晶体管的那一刻就已经不可避免,甚至可能更早,在我们学会控制火的时候就已经注定了。如果一家公司不开发它,其他公司也会以几乎同样快的速度开发出来。如果民主国家的所有公司通过相互协议或监管法令停止或减缓开发,那么专制国家只会继续推进。考虑到这项技术巨大的经济和军事价值,以及缺乏任何有效的强制执行机制,我看不出我们如何才能说服他们停止开发。
我确实看到了一条通往人工智能发展略微放缓的道路,这条道路与现实主义的地缘政治观点相符。这条道路包括通过剥夺专制政权开发强大人工智能所需的资源,来减缓它们在未来几年内迈向这一目标的步伐。
具体而言,就是芯片和半导体制造设备。这反过来又为民主国家提供了一个缓冲空间,使它们能够更谨慎地“利用”这笔资金,更加关注人工智能的风险,同时又能以足够快的速度发展人工智能,从而轻松超越专制国家。民主国家内部人工智能公司之间的竞争,可以通过行业标准和监管相结合的方式,在共同的法律框架下进行管理。
人类学研究所一直大力倡导这条道路,推动芯片出口管制和对人工智能进行审慎监管,但即使是这些看似合情合理的建议,也大多被美国决策者拒绝(而美国恰恰是这些建议最需要的地方)。人工智能蕴藏着巨大的经济利益——每年高达数万亿美元——以至于即使是最简单的措施也难以克服人工智能固有的政治经济因素。这就是陷阱:人工智能如此强大,如此诱人,以至于人类文明很难对其施加任何限制。
我能想象,正如萨根在《接触》中所做的那样,同样的故事在成千上万个星球上演。一个物种获得感知能力,学会使用工具,开始科技呈指数级增长,面临工业化和核武器危机,如果它能挺过这些危机,就会面临最艰难、也是最终的挑战:学会如何将沙子塑造成会思考的机器。我们能否经受住考验,建立起《爱的机器》中所描述的美好社会,还是会屈服于奴役和毁灭,将取决于我们作为一个物种的品格和决心,取决于我们的精神和灵魂。
尽管困难重重,但我相信人类自身拥有通过这场考验的力量。成千上万的研究人员毕生致力于帮助我们理解和引导人工智能模型,并塑造这些模型的特性和结构,他们的努力令我深受鼓舞和启发。我认为,这些努力很有可能最终结出硕果,产生切实的影响。至少有一些公司表示,他们愿意支付可观的商业成本,以防止其模型被用于制造生物恐怖主义威胁,这令我感到欣慰。一些勇敢的人士顶住政治风向,推动 立法,为人工智能系统建立起合理的早期保障措施,这令我感到欣慰。公众认识到人工智能存在风险,并希望这些风险得到解决,这令我感到欣慰。世界各地不屈不挠的自由精神和反抗暴政的决心,令我感到振奋。
但如果我们想要成功,就必须加大力度。第一步是让那些最了解这项技术的人坦诚地讲述人类所处的困境,而我一直以来都在努力这样做;这篇文章让我更加明确、更加迫切地表达了我的观点。下一步是让全世界的思想家、政策制定者、企业和公民认识到这个问题的紧迫性和至关重要性——与每天占据新闻头条的成千上万个其他问题相比,这个问题值得我们投入思考和政治资源。然后,就需要勇气,需要足够多的人挺身而出,逆潮流而行,坚守原则,即使面临经济利益和人身安全的威胁。
未来的岁月将无比艰难,对我们的要求远超我们自身的能力。但作为一名研究者、领导者和公民,我见证了无数勇气和高尚品格,足以让我坚信我们能够战胜困难——即使身处最黑暗的境地,人类也总能在看似最后一刻的力量和智慧中凝聚起胜利的希望。我们刻不容缓。
转自:https://www.darioamodei.com/essay/the-adolescence-of-technology