【自有技术大讲堂】工业场景中的人工智能(AI)
——1——
基于深度学习的人工智能
智能有一个简单的理解就是信息压缩,比如当我们把一斤苹果加上两斤苹果等于三斤苹果,抽象成1+2=3(斤),就经历了一个智能过程,这其中把苹果的信息过滤了。因为我们注意到,一斤XX加上两斤XX等于三斤XX的现象,不止在苹果上出现,还有梨、水等等。然后,我们会尝试把这个规律应用到其他事物上,发现也是合适的,这样就实现了泛化,也就是实现了智能的目的。
深度学习模型(神经网络)在吞食数据的时候似不是囫囵吞枣,或者说单纯记忆数据,而是细嚼慢咽,消化出了自己的领悟,也就是说,它有很好的泛化能力。它甚至能自发生成对事物的分层解析,类似于我们的大脑结构。
什么是深度学习的泛化能力奇异现象呢?如果开会的时候,我们手里只有一张纸,那么对于讲者的话,我们只能做笔记。但如果有一只录音笔,我们就会录音。甚至有手机的话,我们会把整个过程拍下视频。从纸到录音笔到手机,它们的容量是逐渐增大的,同时记录的信息压缩程度就越小。对比深度学习,在如此大的容量之下,却能自发形成有序的结构,而不是单纯记忆数据,着实令人困惑。科学家猜想,神经网络的优化过程存在自发的随机性,这会使得数据复杂性增大,从而使其容量相对减小。
但这种随机性的本质是什么?至今没有得到回答。幸运的是,这没有阻碍深度学习的应用。现在人脸识别、语音识别等应用已经走入了我们的日常生活,我们甚至习以为常。
然而一旦出了问题,它所展现出来的缺点,总是让人跳脚和手足无措,无论是被看不见的东西误导(对抗攻击),还是说出“太阳有三只眼睛”(缺乏常识)等等。令人不禁怀疑,这给深度学习带来不确定性和不可解释性。
其实,深度学习的这种不确定性和不可解释性,或许也来自于其巨大的复杂性。“虽然都会因为问题复杂度增加而使数学变得复杂,但深度神经网络的数学表达式之复杂程度(非线性激活函数和线性函数的多重复合),以及其中的变量和参数的数目之巨大,远远不是一个物理公式可比的,而且前者的表达式里的每个参数(包括每个神经元的权重),都没有对应的可解释的意义,没法描述这些参数的变化对神经网络输出结果的影响,这也是深度学习的不可解释性的主要原因之一。不像物理公式那样,其中的每个变量和系数都有物理意义,并且可以解释其中每个量的大小变化对公式计算结果的影响。”李纯明表示。

罗杰波认为,深度学习在应用落地上还有很大的空间,但大多局限于感知层面,“我们下一步需要在认知、决策层面上努力”。要实现这一点,或许得在理论上取得突破。
感知结合认知是实现智能的关键,然而对于智能这个概念,其实还并没有一个明确的数学定义,因此也尚未有理论去对此进行量化研究,深度学习理论主要集中在已有算法的改进和理解上。因此,AI的理论和实验之间,似乎存在对话的隔阂。
尤其是在解释的层面,AI的可解释性研究大部分集中于复杂模型,而理论层面的解释型研究则经常选择在应用中非典型的模型。
——2——
工业场景的AI解决“猫识别”问题了吗?
“猫识别”问题是一个经典的AI问题,吴恩达2011年在谷歌开发的“猫识别”系统让深度学习声名远播。如今吴恩达在《深度学习》课程中,也会经常以“猫识别”问题为例子介绍神经网络的基本原理。
当时这个“猫识别”系统的训练和现在无异,系统在输入了数百万张猫脸图片后,就能识别一张图片是不是猫。
后来很多新的图像识别模型都没有走出这个“暴力训练”的框架,而只是在探索如何更加高效地进行识别。
那么反过来,人类也是以这种方式进行视觉识别的吗?比如,在对于这只动物,你认为它是什么呢?
其实,这是一只长得像狗的猫。

不对,说错了。这是一只长得像猫的狗。
正确答案倒不重要,问题是光看照片,是不是两种说法都能够接受?
实际上,关于视觉识别这个问题,人工智能领域有一个长期的争论:识别究竟是目标问题,还是场景问题?
目标问题也就是打标签,就像上述的猫识别系统和手写数字识别系统,对一张图片,打上“是XX、不是XX”的标签就行。
场景问题则不满足于打标签,而是要先回答:我们要识别的对象,和周围环境是什么关系?对这个问题的回答,决定了该对象应该打上什么标签。
比如对于上图中的“猫狗”,我们最终要判断它是猫还是狗,可以在现实中接触它,用你的双手捧起它的两只前爪,看它是摇尾巴,还是挠你一脸。也就是说,我们要通过获得识别对象和其他对象(比如人)之间的交互信息,来判断对象的类别。当然,如果照片中刚好有它跑去追飞盘或者趴在猫抓板上的信息,就不用冒这个险了。
如今的深度学习,在某种程度上,可以基于场景去进行视觉识别,比如它也可以基于狗的图片中的草坪,帮助判断图片中的对象更可能是狗。但它不能给出这种关系判断的显式依据。同时,这种语境判断甚至会给模型带来问题,比如如果模型看到的训练数据中,狗总是在草坪里出现,那么深度学习就会把草坪的存在当成狗出现的依据。这也是深度学习一直被诟病的捷径学习问题。
所以,场景不是简单地通过增加输入信息就能解决。归根结底,识别不是简单的感知问题,而是感知、常识和目的融合的结果,深度学习只学会了感知,上述的“猫狗”识别还需要结合常识。
那么,目的要如何理解呢?简单来说就是,“拿着锤子,看啥都是钉子。”
如下图所示,我敢打赌你是第一次见到这种“东西”,通过常识你可以大致判断这可以作为椅子,因为你可以坐上去,并放松全身肌肉。但如果你不是想坐着看电视,而是在玩躲猫猫呢?这时它就是很好的防护罩了。还有,如果你要搬家,这是不错的临时容器。

一般情况下,当一个物体存在二义性的时候,就需要依靠场景识别,而不止是目标识别。所以,深度学习并没有解决AI最基本的识别问题。为什么我们还没有放弃它?
是深度学习的无限潜力,让我们舍不得放弃。
通用近似定理表明,单一隐藏层、无限宽的前馈神经网络,可以逼近任意的函数(完备的表达能力)。也就是说,如果任意的问题都可以转化为一个函数问题,深度学习可以解决任何问题。
那么,只要有大数据、大模型和大算力,未来我们就能利用深度学习实现通用人工智能?
的确,支持这条路线的学者不少,比如获得2018年图灵奖的深度学习“三巨头”,都对此坚信不疑。他们也认为,如今人们一直强调的常识,或者认知智能,也可以用深度学习来实现。

不考虑效率的话,这一说法没有问题。但同样,采用更加暴力的进化算法也能实现通用人工智能,DeepMind近期还专门发表一篇论文,讲述其如何设想利用强化学习来实现通用人工智能。
奥地利-捷克实验物理学家和哲学家恩斯特·马赫曾经提出,“思维经济是科学的主要任务”,思维经济原则就是“事实的经济陈述”。我们应该追求尽可能简洁高效的科学方法,这种思想其实和上述智能的简单定义(信息压缩,而且是尽可能压缩)也很相似,不够高效的智能算法算不上智能。如果深度学习在某一任务上不如其他方法,就不应该采用它。

也许有人在沉醉“深度学习/进化算法/强化学习就是通用人工智能”这样简单的描述,而没有考虑到暴力堆叠数据和算力带来的复杂性。当然,只要能产出有影响力的论文,喊喊口号不是问题。
那么,我们还有其他的候选吗?也就是拥有完备表达能力的其他架构体系?
实际上,在理论表达能力方面,SVM也可以实现任意的非线性变换,从而拥有和深度学习相同的表达能力,但它的优化非常困难(近似能力差),并且不适用于大数据训练。
图神经网络近年来受到热捧,但基于论文”How powerful are graph neural networks?“中的讨论,已有理论证明它的表达能力有一个确定的上界。有很多人在努力寻求改进的方法,以提高它的表达能力,并卓有成效,但仍然未能与深度学习匹敌。
其实除了表达能力,深度学习会得到重用,还有优化简单、认知门槛低、硬件支持、环境支持(数据)等等原因,可谓天时地利人和。
在这样的背景下,深度学习必然不会被断然放弃,人们也在尝试“深度学习+”的妥协路线,比如深度学习+传统机器学习、深度学习+人工编程等等。
在深度学习的框架内,感知和认知究竟有没有绝对的边界,不少学者试图通过打开深度学习这个庞大无边的黑盒子,去找寻线索。
——4——
语言和逻辑的源头
打开黑盒子,其实就是研究深度学习的可解释性。
在深度学习领域,已经有了基于类似思想的工作。论文“Mining Object Parts from CNNs via Active Question-Answering”描述了一种基于人机交互来提取目标检测CNN的模型解释的方法。

在交互中,比如对一张马的图片输入,计算机会不断重复问人类,现在的检测结果正确吗?人类根据情况提供5种不同的回答:
(1)边框正确;
(2)边框不正确,但提供了正确的参考模板(其他马的图片的检测结果);
(3)边框不正确,参考模板也不对;
(4)应该采用新的模板;
(5)目标不存在于图片中。
如果收到答案 2-4,计算机会要求人类对目标部分进行重新注释。在答案3的情况下,计算机会要求人们重新指定模板,以及确定物体是否翻转。
基于这些信息,计算机就能构建起模型的“知识图谱”——AOG(与或图),AOG 有四层,它们对从语义部分、部分模板、潜在模式到 CNN 单元的清晰语义层次进行编码。如此,计算机就能逐步构建起输出结果和CNN神经元之间的关系。并且,计算机问的越多,AOG包含的知识就越丰富。
这种提取方法偏向于逻辑,那么语言解释要如何提取呢?在提炼语言解释的过程中,其需要借用现实的隐喻来表达。
在著名语言学家乔治·莱考夫的经典著作《我们赖以生存的隐喻》中就提到,人类是没有办法直接表述抽象概念的,必须借用隐喻。比如“我们在危机的包围中生存下来”这句话,就借用了“包围”的现实本体,比如一个羊圈,作为隐喻来表达“我们”和“危机”之间的关系,即它们是一种“找不到突破口”的关系。人类在理解这句话的时候,脑海里隐含地存在类似羊圈的本体形象,如果不刻意去深究,平常不会意识到。
这如何对神经网络的可解释性以启发呢?目前在多模态学习中,已经初有成效,但尚未有非常可靠的结果。还有另外一种方案就是,不解释。
不解释的意思就是,我们不去寻求对神经网络的解释,神经网络既然是个黑盒子,那就乖乖当个黑盒子。
——5——
高视科技对人工智能技术的研究
高视科技定位为基于AI的工业视觉整体解决方案提供商,已形成较为完善的“工业AI智能机器视觉应用技术与产品体系”,为工业行业提供AOI智能检测整体解决方案、标准化AI机器视觉深度学习开发平台、工业缺陷标准化数据库服务、嵌入式机器视觉模块化产品及终端自动化设备。

Ø 多渠道大量收集样本:正常品、机检不良品、漏检不良品等;
Ø 系统将自动挑选合理的样本(也可人工干预),在线更新分类器,使其越来越好。

作为国内为数不多的,在AI四大模型类别都有工业落地经验的公司,高视科技在:分类、分割、检测、无监督学习四大模型领域,都有完整的知识产权,并可以跨平台部署,具有大数据深度学习+小样本迁移学习系统。
注:本文部分节选于AI科技评论《锁死AI基础研究的两个智子是什么?》
