1.1.3 技术革新:人工智能如何改变世界

人工智能技术近年来取得了快速发展,尤其在弱人工智能领域,不断突破技术瓶颈,出现许多实际可行的解决方案。然而,实现通用人工智能仍面临巨大挑战,需要解决机器学习等核心问题。尽管如此,随着计算能力和算法的进步,以及数据量的爆炸性增长,弱人工智能已在某些领域取代甚至超越人类的工作。

回顾历史,科技发展推动生产力提高,引发行业变革。以蒸汽机为例,詹姆斯·瓦特(James Watt)改良的蒸汽机引发了从手工劳动向动力机器生产的重大转变,这种技术革新提高了生产效率,创造了新的就业机会和财富。

在此之后,蒸汽机还逐渐应用于运输业,催生了蒸汽火车和轮船的发明,使英国商品和技术走向世界。这一技术革新过程表明,行业变革往往源于基础技术的突破,然后逐步渗透到各个行业。

如今,人工智能在算法、算力和大数据的驱动下正经历类似的变革。与蒸汽机一样,人工智能技术的广泛应用将引发行业变革,短期内可能会出现“阵痛”,但长期来看它将会创造更多价值。因此,我们应拥抱变化,积极应对新技术带来的挑战和机遇。

在人工智能技术快速发展的过程中,我们见证了多个领域的技术革新,包括机器学习、知识图谱、自然语言理解、人机交互、计算机视觉、生物特征识别及虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)等。下面重点介绍一些人工智能的革新技术。(注意,某些内容在后面章节会重点讲解,因此下面不再赘述。)

1.知识图谱

知识图谱是计算机专家系统的升级版,它通过节点和边来构建数据结构图,并以结构化的语义知识库形式存在。这种知识库的构建旨在赋予机器对文本背后含义的理解能力,通过对可描述事物的建模,填充其属性并建立与其他事物的联系,从而构建机器的“先验知识”。

案例4 足球明星的知识图谱

假设我们围绕“罗纳尔多·路易斯·纳扎里奥·达·利马”这个实体进行扩展,我们可以得到一个知识图谱,其中包括他的个人资料、职业生涯、成就等信息。在这个知识图谱中,“罗纳尔多·路易斯·纳扎里奥·达·利马”是节点,其他如“世界足球先生”“前巴西职业足球运动员”“世界杯冠军”等都与该节点存在某种关系,这些关系则由边表示。

通过知识图谱,我们能够更全面地了解一个实体的所有信息,从而为后续的推理、分析等提供更全面的数据基础。

2.人机交互

人机交互是人工智能领域的重要技术,旨在实现更加拟人化的交互方式。传统的交互方式依赖外部设备,如键盘、鼠标等;而人工智能领域追求更自然的交互方式,相关交互方式如下。

语音交互:人与机器之间的主要交流方式,包括语音采集、语音识别、语义理解和语音合成等技术。这种交互方式常与自然语言处理技术结合使用,形成更自然的交流体验。

情感交互:旨在使计算机具备类似于人的情感理解和表达能力,通过情感传递,使计算机能够进行更自然、亲切和生动的交互。

体感交互:利用肢体动作与数字设备进行自然交互的方式。与其他交互手段相比,体感交互技术降低了对用户的约束,使交互过程更加自然,目前广泛应用于游戏娱乐、医疗辅助、全自动三维建模和电商购物等领域。

脑机交互:直接实现大脑与外界信息传递的交互方式。虽然脑机交互仍处于初级阶段,但其技术发展潜力巨大,有望在未来实现突破,目前的主要技术瓶颈包括大脑信号采集、大脑信号和机器指令的转换、信号反馈等。

案例5 《阿凡达》中的脑机交互方式

在电影《阿凡达》中,脑机交互被展示为一个科幻的概念。在潘多拉星球上,下身瘫痪的前海军战士杰克·萨利通过一种先进的脑机交互技术,利用意念操控人造的阿凡达去执行各种任务。这种脑机交互技术超越了传统的交互方式,直接将大脑与外部世界相连,通过头部的复杂设备,杰克·萨利的意识被转化为指令,进而控制阿凡达的身体。这种控制方式完全不依赖外围神经和肌肉通道,而是通过解读大脑的神经活动来实现。

3.计算机视觉

计算机视觉是让计算机具备类似于人类的视觉能力,能够提取、处理、理解和分析图像与视频,它主要涉及计算机成像、图像理解和三维视觉等方面,相关介绍如下。

计算机成像:通过探索人眼结构和相机成像原理,计算机成像旨在获得人们期望的图像效果,如绘画、去雾、去噪、暗光增强等,还有各种滤镜和图像融合等应用。

案例6 文心一格的AI绘画功能

使用文心一格这样的AI绘画技术,我们可以利用神经网络和计算机成像技术创作出具有凡·高艺术风格的独特作品,如图1-4所示。文心一格能够深入学习和理解艺术家的绘画风格和技巧,并运用这些元素在全新的图像中创造出令人惊叹的视觉效果。这种AI绘画技术不仅可以帮助我们更好地理解艺术,还可以让更多的人体验创作的乐趣,开启全新的艺术创作方式。

图1-4 文心一格生成的凡·高风格的AI画作

图像理解:计算机将图像转化为像素点和偏移信息,而图像理解则是让计算机系统理解这些信息,理解层次包括浅层(如边缘、特征点、纹理等)、中层(如物体边界、区域等)和高层(如识别、检测、分割、姿态估计、文字说明等),目前已广泛应用于人脸识别、目标检测、图像分割、OCR(Optical Character Recognition,光学字符识别)和行为分析等领域。

案例7 Photoshop的智能抠图功能

图像分割技术是计算机视觉领域中的一个重要分支,其目标是将图像中的各个物体进行有效的分离,以便于后续的分析和处理。在Photoshop中,“删除背景”功能就是利用图像分割技术实现的,它能够快速识别并删除图片中的背景区域,从而实现智能抠图功能,如图1-5所示。图像分割技术的实现主要依赖图像处理和机器学习等技术,通过对大量的图片进行训练和学习,让算法能够自动识别并分割出图像中的物体。

图1-5 Photoshop智能抠图示例

三维视觉:主要研究如何通过视觉获取三维信息,以及如何理解这些信息,可广泛应用于机器人、无人驾驶、智慧工厂、虚拟现实、增强现实等领域。

4.生物特征识别

生物特征识别是利用个体生理或行为特征进行智能身份认证的技术,具有高安全性、便利性和私密性,广泛应用于金融、公共安全、教育、交通等领域。生物特征识别的传统技术包括指纹识别、人脸识别、虹膜识别等,新兴技术则包括静脉识别、声纹识别和步态识别等。生物特征识别的新兴技术相关介绍如下。

静脉识别:通过近红外光线照射手指获取清晰的静脉图像,并提取特征值进行识别,具有活体识别、体内特征不可复制、唯一稳定、不可破解等特点,安全性较高。

声纹识别:根据语音的声纹特征识别说话人,分为说话人辨认和说话人确认两类。不同任务和应用采用不同技术,如缩小刑侦范围时可能需要说话人辨认技术,银行交易时则需要说话人确认技术。

步态识别:通过走路方式识别人的身份,具有非接触远距离、多角度、光照不敏感和不易伪装等优点,在智能视频监控领域具有应用优势。

案例8 机场利用步态识别技术监测和识别可疑人物

机场可以将步态识别技术用于监控摄像头,以监测和识别可疑人物,如图1-6所示。步态识别技术基于每个人独特的生理结构和行走姿态,通过分析体型和行走姿势来识别人的身份和状态。在远距离或复杂场景下,步态是唯一能够清晰成像的人体生物特征,这种技术的物理基础包括身高、头型、腿骨、肌肉、重心和神经灵敏度等个人独特的生理结构信息。

图1-6 步态识别技术应用示例

5.虚拟现实和增强现实

使用虚拟现实(VR)和增强现实(AR)技术,能够在数字化世界中创造出与真实环境高度相似的虚拟环境。通过这些技术,用户可以在特定范围内获得与真实世界相似的视觉、听觉甚至触觉体验。

在虚拟现实中,用户可以完全沉浸在计算机生成的数字化环境中,仿佛置身于一个全新的世界。通过特殊的设备,如VR眼镜和控制器,用户可以与虚拟环境中的对象进行交互,感受仿佛真实的触感和反馈,效果如图1-7所示。虚拟现实技术已经被广泛应用于游戏、电影、教育、医疗和军事等领域,为用户提供前所未有的沉浸式感官体验。

图1-7 VR效果示例

增强现实是一种更为先进的技术,它能够将虚拟世界与现实世界结合。通过特殊的软件和设备,AR技术可以将数字信息、图像和对象叠加显示在用户的真实环境中,创造出一种半真实、半虚拟的“混合体验”。用户可以在现实世界中看到各种虚拟对象,并与它们进行互动,这种技术已经在许多行业中得到应用,如工业设计、零售、旅游和游戏等。

案例9 上汽通用汽车的AR系列产品

上汽通用集团运用AI和AR技术,打造了“AR看车”“AR说明书”等系列产品。用户通过手机扫描车内图标,可以实时获取对应功能介绍、动画演示和视频介绍,甚至错误提醒。这些产品基于训练卷积神经网络的深度学习技术,使用轻量级模型加快推理速度,并增强数据以减小过拟合和加强泛化能力。用户无须选择车型,只需用手机扫一扫,即可通过“AR看车”“AR说明书”等系列产品轻松了解新车细节,如图1-8所示。

图1-8 通过“AR说明书”了解新车细节