第3章 《导论 再见智人:人类主义的黄昏》:比人类更懂策略 更有知识 更会创作
- 再见智人:技术-政治与后人类境况
- 吴冠军
- 4260字
- 2025-03-25 13:57:34
现在,人们眼里不再只有人。人类主义框架,被尖锐地撕开了一道缺口。
2022年11月,前身为“脸书”的“元”(Meta)在《科学》杂志上发表了一篇题为《在〈外交〉游戏中将诸种语言模型同策略性推理结合的人类水准游戏》的论文。[1]《外交》是由美国玩具公司孩之宝(Hasbro)于20世纪50年代开发的一款七人制经典策略游戏。在对20世纪初欧洲七大国的“角色扮演”过程中,玩家需要与其他选手建立信任、进行谈判和合作,并尽可能多地占领领土。这要求玩家理解他人的观点乃至看破其背后的动机,制定复杂的计划并即时调整,然后应用语言与他人达成合作,最后说服他们建立伙伴关系和联盟等。在游戏时玩家可以遵守或违反对其他参与者的承诺,亦可以私下交流、讨论潜在的协调行动。
“元”的研究人员开发了名为“西塞罗”(Cicero)的人工智能算法模型,并于2022年8月至10月匿名参加了webDi-plomacy.net组织的40场线上《外交》比赛。“西塞罗”的成绩在所有参赛者中高居前10%:它的平均得分为25.8%,是其余82名对手平均得分(12.4%)的两倍多。要知道,《外交》这款游戏完全不同于围棋、国际象棋等游戏,后面这些游戏只需要遵照规则进行,而前者则需要在规则之上同其他玩家进行大量沟通,建立信任(抑或“背后捅刀”)。玩家不仅要懂策略,还需要擅长谈判、说服、结盟、威胁乃至欺骗。人工智能要玩好《外交》,不仅要有强大的策略推理能力,而且要有一流的交流沟通能力。
“西塞罗”算法模型主要由两部分组成,分别是“策略推理”和“自然语言处理”。两者的技术整合,使“西塞罗”能够针对其他玩家的动机进行推理并制定策略,然后使用自然语言同玩家进行交流,形成联盟并协调计划,达成一致以实现共同目标。“西塞罗”会与另一位玩家协商战术计划,向盟友说明自己的意图,讨论游戏中更广泛的战略动态,甚至只是随意进行闲聊——闲聊几乎包括任何人类玩家可能会讨论的内容。在实际的比赛过程中,“西塞罗”的对手们几乎都未能将它与其他人类玩家区分开来(只有一位玩家有所怀疑)。
“西塞罗”使用了此前webDiplomacy.net上四万多场《外交》游戏的数据集进行了预训练,这些数据中还包含玩家之间交流时产生的超过1290万条消息。在达成合作、谈判和协调上,“西塞罗”已经超过绝大多数人类玩家。这意味着人工智能在自然语言处理领域取得了里程碑式的成就,甚至意味着向“通用人工智能”(artificial general intelligence, AGI)的一大迈进。“西塞罗”的成绩标识出,人工智能已经能参与,并且能比绝大多数人类更好地完成以前被视作“政治”的事务。
同样在2022年11月,美国人工智能研究公司OpenAI推出了一个叫作“ChatGPT”的人工智能聊天机器人程序,该程序使用基于“GPT-3.5”架构的大语言模型(large language models, LLMs),经由预训练(pre-training)、监督微调(su-pervised finetuning)、奖励建模(reward modeling)以及强化学习(reinforcement learning)四个阶段来进行训练。[2]尽管聊天机器人的核心功能是模仿人类对话者,但ChatGPT却展示出了令人震撼的智能表现。
首先,ChatGPT具有极其卓越的自然语言能力:它不但可以同人进行对话性的交互,而且能够记住同该用户之前的互动。在连续性的对话中很多用户发现,ChatGPT会承认自己此前回答中的错误,以及指出人类提问时的不正确前提,并拒绝回答不适当的问题。在此基础上,ChatGPT还会编程写代码、模拟Linux系统、写学术概述、写诗和歌词、创作音乐、写剧本、编童话故事……
包括2018年图灵奖得主约书亚·本吉奥在内的人工智能专家认为,ChatGPT事实上已经通过了“图灵测试”。[3]2022年2月成为美国国家工程院院士并坐上世界首富宝座的埃隆·马斯克,使用ChatGPT后在推特上写道,“ChatGPT好到吓人(scary good),我们离危险的强人工智能不远了”[4]。马斯克口中的“强人工智能”(strong artificial intelligence),比“通用人工智能”更进一步:它们有知觉、有自我意识、有推理能力,可以独立思考问题并制定解决问题的最优方案,乃至拥有价值观和世界观体系、具有生存和安全需求。
当代哲学家、认知科学家大卫·查默斯曾谈到一段令他头疼的遭遇。他发现另一位哲学家朋友对他的一篇访谈被学者们广泛引用;但问题是,他没有做过这场访谈。最后查默斯了解到,这是那位哲学家和GPT-3(彼时ChatGPT尚未问世)的对话,前者要求后者用查默斯的方式回答。让查氏惊恐的是,这段访谈完全就像是他自己面对这几个问题时说出来的话,甚至讲得还相当到位,难怪学界同行皆无法分辨。[5]GPT-3阅读和学习了查默斯的思想,它还阅读了许许多多思想家的著作,它知道论争与分歧的焦点在哪里,它知道说哪些话会被认为说到了点子上,甚至会被学术期刊编辑认为值得发表。当然,它的知识面不只在科学哲学领域,它读了许许多多的书、论文,甚至毫不夸张地说,它读了所有值得读的书。对于今天还愿意泡在图书馆啃读大部头著作的学子而言,人工智能的“深度学习”令他们遭受“深度”冲击:就读书而言,谁读得过GPT?[6]
以ChatGPT为代表的生成式人工智能(generative AI)[7],不只是“读书”高手,自身便是“知识”的生产者。ChatG-PT问世后短短数月间,大量人类作者同ChatGPT合写的论文乃至ChatGPT独著的书籍,如雨后春笋般接连问世。[8]生成式人工智能所生产的知识,尚远远不限于此——它已经开启了以牛顿主义范式为地基的现代科学知识之外的另一种全新的知识形态。[9]2023年5月,上海人工智能实验室及其他几家科研机构联合发布全球中期天气预报大模型“风乌”,它将全球气象预报任务建模为一个多模态、多任务的学习进程。基于再分析数据验证表明,“风乌”比传统物理模型的10天预报误差降低了19.4%。[10]2023年7月6日,华为的六位研究人员在《自然》杂志上发表论文《三维神经网络用于精准中期全球天气预报》。该文揭示出,盘古气象大模型预报精度已大幅超过传统数值预报方法,并且将预报速度提高了10000倍以上,实现了全球气象秒级预报。[11]人工智能驱动的科学研究,彻底绕开了科学研究的牛顿主义范式,并形成了一系列革命性的突破。
值得进一步提出的是,这种由人工智能算法驱动的、大数据预训练所生成的知识,并不以客观性与确定性作为内在尺度。那是因为,任何数据(哪怕是关于气象的数据),皆结构性地内嵌人类认知[12];任何大数据算法,皆只能输出概率性的(probabilistic)而非确定性的结果。然而,这类并不自我标榜为客观、确定的知识,却毫不影响其具有科学的质感(如果不是更增添的话)。我们知道,发轫于20世纪初的量子力学,业已激进地瓦解了牛顿主义研究范式,挑战了任何一种标榜客观性与确定性的科学论述。[13]
在摒弃掉客观性与确定性后,由人工智能生产的知识,可以用有效性来进行衡量。在这方面,我们不得不承认,这类知识往往是无理性地有效(unreasonably effective)。[14]为什么“风乌”比传统物理模型的10天预报误差降低了19.4%?我们无法通过既有数学、物理学与大气化学知识来加以解释。至多,我们只能从量子力学那里借来“涌现”(emergence)这个概念,来填在这类知识的有效性黑洞上。[15]这类知识不只是无理性地有效,其生成过程亦是无理性地高效,彻底无法用已有知识加以解释。[16]
这波生成式人工智能的发展,并不只是带来知识生产的革命性突破,其AIGC(AI generated content,人工智能所生成内容)还覆盖极其广泛的内容生产领域——当下,人工智能撰写的论文、剧本、诗词、代码、新闻报道,以及绘画、平面设计、音乐创作、影像创作方面的作品,其质量已不输于人类创作者(如果不是让后者中的绝大多数变成冗余的话)。
实际上,大量当代创作者明里暗里已经开启人工智能“代写”模式。晚近在国内火爆出圈的科幻全域IP《人类发明家:自由灰烬》的创作者Enki曾说道:
在Runway和Stable Diffusion的加持上,《人类发明家》完成了角色的表达、场景的表达、电影海报的表达、logo图标的表达、整个内容总体的相关绘制、NFT的制作、游戏场景的绘制等。这些工作如果以传统的方式是很难一个人完成的,但是由于AI的强大,作者仅仅使用业余的时间,从2022年8月份到12月份,用短短4个月基本完成了所有的内容,这在以前是不敢想像[17]的。[18]
人类创作者,竟越来越深度地依赖人工智能来进行“创作”(有意思的是,他们自我冠名为“人类发明家”)。诚然,这在“以前”——“人类主义”(humanism,汉语学界通常译为“人文主义”)时代——是不敢想像的。
并且,人工智能正在从文本、语音、视觉等单模态智能快速朝着多模态融合的方向迈进;亦即人工智能能够在文字、图像、音乐等多种模态间进行“转化型/生成型”创作。OpenAI于2023年3月14日推出的GPT-4,能够将图像纳入文本性的聊天中,输入图片就能生成解读性文字。Stable Dif-fusion以及风头更劲的Midjourney(于2023年3月14日推出了V5版本),则皆是文本转图像模型,只要输入一段简单的文字描述,它们就可以迅速将其转化为极具创意的图像。[19]Runway则于2023年3月17日推出了一款文本转视频的多模态模型Gen-2,它可以根据一段文字描述自动生成风格迥异的影像作品。也就是说,输入一行字就能获得一部影片,已经不再是天方夜谭。[20]
AIGC,能够进行创意满满的跨媒介多模态创作,而不仅仅是重复性的“创作”(人类创作绝大多数都是此类)。AIGC,指向了“一个好到不可思议的文明”(an impossibly great civili-zation, AIGC)。那么,AIGC是怎么取得这样的突破的?
2012年至今,由杰弗里·辛顿(被誉为“深度学习之父”,与本吉奥、杨立昆共同获得2018年图灵奖)所开启的人工神经网络(artificial neural networks)进入发展的快车道。[21]2017年阿希西·瓦斯瓦尼、诺姆·沙泽尔及其谷歌同事们,提出基于“自注意力”(self-attention)机制的转化器(transformer)模型。[22]2020年乔纳森·侯及其两位伯克利大学同事则提出漫射(diffusion)模型。[23]正是这三个里程碑式的研究突破,导致近乎通用的智能与多模态的AIGC能力得以“涌现”。就人工智能所展现出的强大的内容生成能力而言,其技术内核包括如下三个部分:深度神经网络利用梯度下降从海量的数据中提取特征;转化器模型在不需要标注的情况下,自主提取出信息之间的关联;漫射模型则通过控制增噪/去噪的过程,将文本信息依照现实世界的样子进行具像化的渲染。
我们正在见证:人工智能生成的内容越来越好,“好到吓人”。人工智能的能力越来越强,强到令人“不敢想像”。人工智能之“智”,正在使人(“智人”)变成冗余。
人类正在进入这样一个世界,在这个世界中,人工智能比人类更懂策略,更有知识,并且更会创作。这个世界,诚然是一个“后人类”的世界。2023年5月30日,包括辛顿、本吉奥、谷歌DeepMind首席执行官戴米斯·哈萨比斯、OpenAI首席执行官山姆·奥特曼以及Anthropic首席执行官达里奥·阿莫代伊在内的超过350名人工智能行业研究人员、工程师和首席执行官,联合签署了如下声明,发布在非营利组织“人工智能安全中心”网站上:
降低人工智能带来的灭绝风险,应该同大流行病、核战争等其他社会级规模的风险一起,成为一个全球优先事项。[24]
这些当代人工智能发展的核心贡献者,却恰恰认为自己所取得的成绩很可能会导致人类“灭绝”,并因此坐立不安乃至联合起来公开呼吁。还有什么比这份吊诡的从业者声明更清晰地标识出了我们已身处其中的“后人类境况”?