Beyond hype and hatred, this article focuses on the way Artificial Intelligence (AI) – actually 深度学习 – is integrated in reality, through sensor and actuator.* Operationalisation demands to develop a different way to look at AI. The resulting understanding allows highlighting the importance of sensor and actuator, the twin interface between AI and its environment. This interface is a potentially disruptive driver for AI.

传感器和执行器,被遗忘的元素

传感器和执行器是人工智能在各个层面发展的关键,包括在实际应用方面。然而,在讨论人工智能的扩展和未来时,这两个元素在大多数时候都被忽略了。这主要是由于这种缺乏关注,接口可能成为破坏性的。事实上,通过传感器和执行器的人工智能方法可能是许多人寻求的非常普遍的繁荣的关键?同时,人工智能的许多子领域也可以从这种进一步的发展中受益。另外,如果不能完全整合这种方法,可能会导致不必要的障碍,包括暂时的破产。

传感器和执行器,人工智能竞赛中的另一个赌注

相关的

人工智能--力量、驱动力和赌注

我们已经审查了作为司机。 大数据, Computing Power – 计算能力 (1)(2), 赢得通往超大规模计算的竞赛, Quantum Information Science – 即将到来的量子计算颠覆 (1), 绘制量子计算的竞赛图。

量子信息科学是非常具有颠覆性的。事实上,极有可能(80%)的是,决定我们未来世界的不仅是人工智能,而是量子-人工智能的出现。请看我们的新栏目,聚焦于 量子化的破坏.

此外,我们看到世界上正在出现三种相互作用的人工智能相关动态。国家的人工智能治理和私人行为者的人工智能管理的双重诞生和传播相互作用,并为人工智能权力的国际竞赛提供了支持,即在全球相对权力分配中如何排名。因此,人工智能越来越多地影响着这种权力的分配(见 新的人工智能世界正在形成).因此,人工智能的驱动力不仅是人工智能扩张背后的力量,也是人工智能竞争中的赌注。同时,公共和私人行为者如何处理这场竞争,由此产生的动力以及随之而来的失败和胜利也塑造了正在形成的新的人工智能世界。

因此,如果传感器和执行器在广泛操作人工智能方面至关重要,那么最好地发展人工智能治理和人工智能管理的能力,以及在人工智能力量的国际竞争中的地位,也很可能取决于对这些传感器和执行器的掌握。

概要

本文使用两个案例研究来逐步解释什么是传感器和执行器。因此,它详细说明了人工智能-代理和其环境之间的双界面。作为结果和第三点,我们强调,人们对人工智能的理解最好是作为一个序列。这种理解使我们能够设想整个经济活动的未来世界。然而,这个世界并非没有危险,我们强调它将需要一种新型的安全。最后,我们将指出,有必要区分人工智能序列所连接的现实类型。

下一篇文章将重点讨论处理人工智能序列及其孪生接口的不同方式,特别是执行器。我们将更多地关注物联网(IoT)、人类本身和自主系统,也就是我们熟知的机器人。同时,我们将进一步探索人工智能创造的新活动。

以不同的眼光看待与AlphaGo的比赛

We shall examine again (Google) DeepMind’s 阿尔法狗这是一个有监督的学习/AI-agent,可以下围棋,并且胜利地开始了当前AI的发展阶段。

回放与AlphaGo的比赛

现在,让我们想象一下,在范辉先生、2015年10月以5比0击败的围棋欧洲冠军AlphaGo和AI-agent (阿尔法狗 网页)。范辉先生,就像现实中发生的那样,首先与人工智能代理AlphaGo对弈。在他面前,我们可以看到一个五番棋(围棋的棋盘名称)。AlphaGo被连接到云端,以获得分布式计算能力,因为它需要大量的计算能力。

Mr Fan Hui starts and makes its first move placing a white stone on the Goban. And then it is the turn of AlphaGo. How will the AI-agent answer? Will it make a typical move or something original? How quickly will it then play? The suspens is immense, and…

什么都没有发生。

什么地方出了问题?

DeepMind的(正确)方法

如果你仔细观看下面展示原始游戏的视频,你会发现,实际上,设置并不完全是我上面描述的那样。还有一些其他的关键因素也存在。如果DeepMind按照我描述的设定让人类和AI-agent面对面,那么他们的实验就会出错。相反,由于他们添加的元素,他们的游戏是成功的。

你可以在视频的1:19处观察到这三个要素,如下面的注释截图所示。

  • 答:一个人类球员
  • B: 一个屏幕
  • C:一个人,桌子上有一个奇怪的装置。
Screenshot of the video Google DeepMind: Ground-breaking AlphaGo masters the game of Go – 1:19

传感器

在我们想象的环境中,我没有创建一个界面来告诉人工智能代理,许先生移动了一块石头,以及哪一块。因此,就人工智能代理而言,没有任何输入。

In DeepMind’s real setting we have the human agent (C). We may surmise that the bizarre device on the table in front of her allows her to enter in the computer for the AI-agent the moves that Mr Fan Hui does throughout the game.

更一般地说,在现实世界和人工智能-代理之间必须存在一个第一输入接口,才能看到它的运作。因此,我们需要传感器。它们将为人工智能感知现实世界。我们还需要以人工智能理解的方式,将传感器捕获的数据传达给人工智能代理。

Let us assume now that we add agent C and its device – i.e. the sensor system – to our setting.

同样,什么也没有发生。

为什么?人工智能代理继续进行并决定其行动。然而,算法的结果仍然在计算机中,作为机器的输出,无论其形式如何。 事实上,在现实世界中没有任何界面可以行动。所需要的是一个执行器。

执行器

与外部世界的接口不仅要产生我们的围棋大师能够理解的每一步棋的输出,而且还要在整个棋局中对他有意义。

仅仅根据棋盘上的坐标得到一块石头的位置是不够的。这样的结果首先要求樊麾先生有很好的可视化和制图能力来翻译棋盘上的这些坐标。其次,它要求我们的围棋冠军有一个真正非常好的记忆。事实上,在几步棋之后,能够想象并记住整个棋局将是一个挑战。

DeepMind实际上使用了所需的执行器,使人类和AI之间的游戏成为可能。

在(B)处,我们有一个显示整个游戏的屏幕。该屏幕也很可能显示人工智能代理每次的行动。然后,在(A),我们有一个人类代理人,他把屏幕上的虚拟游戏转化为现实中的戈班。为了做到这一点,他通过在棋盘上放置相应的石头来复制屏幕上显示的人工智能代理的行动。

注意到这个人(A)的存在是很重要的,尽管这对范辉先生来说可能不是真正必要的,他可以在屏幕前玩。首先,它是一个交流工具,使整个实验对观众来说更充分的理解和有趣。然后,对范辉先生来说,可能更容易在真正的戈壁上玩。从虚拟世界到现实世界的转换是至关重要的。它很可能是真正让人工智能出现和发展的一个重要利害关系。

正如我们上面所举的例子,指定与AI-agent的互动过程,突出了双界面的重要性。

这实际上是DeepMind对其最新人工智能成就之一的构想,我们现在就来谈谈这个问题。

走向看成是一个人

2018年6月,DeepMind解释了它是如何建立一个AI-agent,可以像人类一样感知周围的情况(开放访问; S. M. Ali Eslami et al., “神经性场景表示和渲染", 科学  2018年6月15日。Vol. 360, Issue 6394, pp. 1204-1210, DOI: 10.1126/science.aar6170)。

“For example, when entering a room for the first time, you instantly recognise the items it contains and where they are positioned. If you see three legs of a table, you will infer that there is probably a fourth leg with the same shape and colour hidden from view. Even if you can’t see everything in the room, you’ll likely be able to sketch its layout, or imagine what it looks like from another perspective.” (“神经性场景表示和渲染“, DeepMind website). 

The scientists’ aim was to create an AI-agent with the same capabilities as those of human beings, which they succeeded in doing:

DeepMind uses “sensor and actuator”

对我们来说最有趣的是,我们在第一部分所描述的正是科学家们建立他们的过程和解决人工智能代理的视觉问题的方式。

They taught their AI-agent to take images from the outside world (in that case still a virtual world) – what we called the sensor system – then to convert it through a first deep learning algorithm – the representation network – into a result, an output – the scene representation. The output, at this stage, is meaningful to the AI-agent but not to us. The last step represents what we called the actuator. It is the conversion from an output meaningful to the AI to something meaningful to us, the “prediction”. For this, DeepMind developed a “generation network”, called a “neural renderer”. Indeed, in terms of 3D computer graphics, rendering is the process transforming calculation into an image, the render.

下面的截图显示了工作过程(我在原截图上添加了红色的圆圈和箭头)。

下面的视频展示了整个动态。

为AI-agent的视觉开发自主传感器

In the words of DeepMind’s scientists, the development of the Generative Query Network (GQN) is an effort at creating “a framework within which machines learn to represent scenes using only their own sensors”. Indeed, current artificial vision systems usually use supervised learning. This means that human intervention is necessary to choose and label data. DeepMind’s scientist wanted to overcome as much as possible this type of human involvement.

The experiment here used a “synthetic” environment (Ibid., p5). The next step will need new datasets to allow expansion to “images of naturalistic scenes” (Ibid). Ultimately, we may imagine that the GQN will start with reality, captured by an optical device the AI controls. This implies that the GQN will need to integrate all advances in computer vision. Besides, the sensors of our AI-agent will also have to move through its environment to capture the observations it needs. This may be done, for example, through a network of mobile cameras, such as those being increasingly installed in cities. Drones, also controlled by AI, could possibly supplement the sensing network.

改进AI-agent的视觉执行器

Researchers will also need to improve the actuator (Ibid.). DeepMind’s scientists suggest that advances in generative modeling capabilities, such as those made through generative adversarial networks (GAN) will allow moving towards “naturalistic scene rendering”.

Meanwhile, GANs could lead to important advances in terms, not only of visual expression, but also of “intelligence” of AI-agents.

When GANs train to represent visual outputs, they also seem to develop the capability to group, alone, similar objects linked by what researchers called “concepts” (Karen Hao, “一个神经网络可以学习把它看到的世界组织成概念--就像我们一样", 麻省理工学院技术评论, 10 January 2019). For example, the GAN could “group tree pixels with tree pixels and door pixels with door pixels regardless of how these objects changed color from photo to photo in the training set”… They would also “paint a Georgian-style door on a brick building with Georgian architecture, or a stone door on a Gothic building. It also refused to paint any doors on a piece of sky” (Ibid.) .

在语言研究领域也有类似的动态。

使用虚拟机械臂作为执行器

In a related experiment, DeepMind’s researchers used a deep reinforcement network to control a virtual robotic arm instead of the initial generation network (Ali Eslami et al., Ibid., p.5). The GQN first trained to represent its observations. Then it trained to control the synthetic robotic arm.

In the future, we can imagine a real robotic arm will replace the synthetic one. The final actuator system” will thus become an interface between the virtual world and reality.

人工智能是世界之间的一个序列

现在让我们概括一下我们对传感器和执行器的理解,或者说对AI输入和AI输出的界面的理解。

在现实中插入人工智能意味着把它看成一个序列

我们可以把涉及人工智能代理的过程理解为以下序列。

环境 -> 感知环境(根据任务) ->
做一个任务-->输出一个人工智能可理解的结果-->根据任务和互动的行为者来表达结果

新活动的出现

这个序列以及关于GAN执行器的细节表明,如果想把人工智能完全融入现实,实际上需要不止一个人工智能代理。因此,执行人工智能代理的开发将涉及许多团队和实验室。

设想未来的生产链

因此,在人工智能领域可能会出现新型的经济活动和功能。特别是,我们可以有正确的操作序列的组装。同样,最初设计正确的架构,跨类型的人工智能代理和子领域可能成为一项必要的活动。

To break down the AI integration in sequence allows us starting to understand the chain of production of the future. We can thus imagine the series of economic activities that can and will emerge. These will go far beyond the current emphasis on IT or consumer analytics, what most early adopters of AI appear to favour so far (Deloitte, “企业中的人工智能状况“, 2018).

令人眼花缭乱的可能性倍增

Furthermore, the customisation of the AI sequence could be tailored according to needs. One may imagine that various systems of actuators could be added to a sequence. For example a “scene representation” intelligible to the AI-agent to use our second case study could be expressed as a realistic visual render, as a narrative and as a robotic movement. We are here much closer to the way a sensory stimulation would trigger in us, human beings, a whole possible range of reactions. However, compared with the human world, if one adds the cloud, then the various expressions of the “scene representation” could be located anywhere on earth and in space, according to available communication infrastructure.

所涉及的可能性和组合是惊人的,令人眼花缭乱。我们将在接下来的文章中探讨正在创造的不可思议的可能性。

走向重新定义安全的需要?

改变了我们的现实

就危险而言,如果我们开始只依赖或主要依赖一个由人工智能序列感知、理解、然后表达的世界,那么我们也为改变我们的现实打开了大门,这种改变可能比我们使用自己的感官更容易做到。例如,如果一个人依靠人工智能代理序列来识别和感知离我们所在的地方几英里远的外部世界,那么一个无意的问题或恶意的意图可能意味着我们收到了错误的现实的视觉表现。在没有树的地方可能会设置一棵树。结果是,一辆自驾车,试图避开它,可能会走出道路。在人工智能世界中,用户对现实的这种表达方式的行为是有意义的。然而,在它之外,它将是反复无常的。

演员们可以用一种以前从未想过的方式创造诱饵。想象一下 坚韧行动在第二次世界大战期间,盟军在1944年的入侵地点方面欺骗纳粹的行动,是以多个人工智能序列的力量组织的。

事实上,正是我们的现实,因为我们习惯于看到它通过照片来表达,可能会以一种我们的视觉感官无法直接掌握的方式而变得改变。

破坏了世界网络?

Here we also need to consider the spread of propaganda and of what is now called “Fake News”, and most importantly of of the “Fake Internet” as Max Read masterly explained in “互联网有多少是假的?事实证明,很多都是这样的" (智能化报》杂志, 26 December 2018). Assuming the spread of “Fake Everything” signals established widespread malicious intention, then adding to it the power of AI-agents could break the world-wide-web. The impacts would be immense. To avoid such a disaster, actors will have to devise very strong regulations and to favour and spread new norms.

人工智能完全重新定义了安全可能被破坏的方式,因此必须进行防御。

根据不同的现实情况,整合人工智能代理。虚拟-虚拟和虚拟-物质

从虚拟世界到虚拟世界

When the AI-agent’s environment and the other actors are virtual, then the sequence is – to a point – easier to build. Indeed everything takes place in a world of a unique nature.

然而,恐惧和了解的需要很可能意味着人类会在序列的不同点上想要控制。因此,将虚拟世界转化为至少是人类可以感知的东西的方法可能会被引入。这将提高发展的复杂性。

从虚拟到物质

当环境是真实的,当AI-agent和人类之间发生互动的时候,这个顺序就变得更加复杂。双胞胎界面必须成为两种不同类型的世界--数字和现实--之间的桥梁。

Actually, if we look through these lenses to the deep learning ecosystem and its evolution since 2015, researchers devoted a large part of their initial efforts to create AI-agents able to “do a task” (playing, sorting, labelling, etc.). Meanwhile, scientists have developed ways first to make the real world intelligible to AI-agents. In the meantime, the actuator-systems developed become intelligible to humans but they remain nonetheless mostly virtual.

Lagging behind in expressing the virtual world in the real one – Visual AI-agents

例如,现实世界被转化为数字照片,AI-agent通过深度学习算法识别这些照片。人工智能将以人类理解的方式对它们进行分类或标记。例如,人类很容易理解文字,或显示在屏幕上的图像,这些都是序列中执行器部分的结果。然而,这种输出仍然是虚拟的。如果我们想进一步改进,那么我们必须创造和使用其他设备来加强或缓解从虚拟到现实的界面。物体识别也是以类似的方式进行的。

在与视觉人工智能相关的工作方面,我们可能会想,我们在给人工智能代理提供视觉方面的进展是否比在以对现实世界中的人类足够有用的方式使用这种视觉方面的进展更大。

从虚拟到现实,感应比表达更先进?

A similar process is at work in China with sound recognition (Joseph Hincks, “China Is Creating a Database of Its Citizens’ Voices to Boost its Surveillance Capability: Report"; 时间, 2017年10月23日)。 数据分析也是一种向人工智能代理机构解释的方式,根据各种标准,互联网用户是什么。传感器收集数据,例如从管道(例如(Maria S. Araujo和Daniel S. Davila,"机器学习改善石油和天然气监测",2017年6月9日。 Talking IoT in Energy’;裘-奥夫斯塔斯,"大数据和机器学习用于预测管道的腐蚀情况",2017年6月12日,DNV GL)或来自飞机的飞行,或来自任何实际的东西,都是使世界对具有特定设计的算法的理解的方式。

然而,我们在开发人工智能代理的虚拟世界和人类的现实之间的接口的执行器方面是否取得了类似的进展?或者,是否我们确实改进了整个序列,但进展仍然限于虚拟世界?在所有情况下,在安全、政治和地缘政治方面的影响是什么?

这就是我们接下来要看到的,特别是要看看物联网、机器人和人类,作为人工智能的潜在执行系统。


*Initially, I used the word “expressor” instead of the adequate word, “actuator”. Thanks to Teeteekay Ciar 帮忙找找看。

关于作者:博士 Helene Lavoix伦德博士(国际关系),是红色(团队)分析协会的主任。她的专长是对国家和国际安全问题进行战略预测和预警。她目前的重点是未来的人工智能和量子世界及其安全。

Featured image: U.S. Army graphic by Sonya Beckett, CERDEC NVESD – Public Domain – From By Aris Morris, January 9, 2018, 陆军ALT杂志科学和技术。

由Dr Helene Lavoix (MSc PhD Lond)发布

Helene Lavoix博士伦敦大学博士(国际关系) ,是Red Team Analysis Society的总裁/CEO。她专门研究国际关系、国家和国际安全问题的战略预见和早期预警。她目前的工作重点是乌克兰战争、国际秩序和中国的崛起、行星越轨行为和国际关系、战略预见和预警方法、激进化以及新技术和安全。

加入对话

2 评论

  1. 亲爱的Helene

    谢谢你的这篇非常有趣的文章
    "人工智能的驱动力"

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

本网站使用Akismet来减少垃圾邮件。了解您的评论数据如何被处理

ZH