【自有技术大讲堂】工业场景中的人工智能（AI）

网站首页 ꄲ 行业信息 ꄲ 【自有技术大讲堂】工业场景中的人工智能（AI）

——1——

基于深度学习的人工智能

智能有一个简单的理解就是信息压缩，比如当我们把一斤苹果加上两斤苹果等于三斤苹果，抽象成1+2=3（斤），就经历了一个智能过程，这其中把苹果的信息过滤了。因为我们注意到，一斤XX加上两斤XX等于三斤XX的现象，不止在苹果上出现，还有梨、水等等。然后，我们会尝试把这个规律应用到其他事物上，发现也是合适的，这样就实现了泛化，也就是实现了智能的目的。

深度学习模型（神经网络）在吞食数据的时候似不是囫囵吞枣，或者说单纯记忆数据，而是细嚼慢咽，消化出了自己的领悟，也就是说，它有很好的泛化能力。它甚至能自发生成对事物的分层解析，类似于我们的大脑结构。

什么是深度学习的泛化能力奇异现象呢？如果开会的时候，我们手里只有一张纸，那么对于讲者的话，我们只能做笔记。但如果有一只录音笔，我们就会录音。甚至有手机的话，我们会把整个过程拍下视频。从纸到录音笔到手机，它们的容量是逐渐增大的，同时记录的信息压缩程度就越小。对比深度学习，在如此大的容量之下，却能自发形成有序的结构，而不是单纯记忆数据，着实令人困惑。科学家猜想，神经网络的优化过程存在自发的随机性，这会使得数据复杂性增大，从而使其容量相对减小。

但这种随机性的本质是什么？至今没有得到回答。幸运的是，这没有阻碍深度学习的应用。现在人脸识别、语音识别等应用已经走入了我们的日常生活，我们甚至习以为常。

然而一旦出了问题，它所展现出来的缺点，总是让人跳脚和手足无措，无论是被看不见的东西误导（对抗攻击），还是说出“太阳有三只眼睛”（缺乏常识）等等。令人不禁怀疑，这给深度学习带来不确定性和不可解释性。

其实，深度学习的这种不确定性和不可解释性，或许也来自于其巨大的复杂性。“虽然都会因为问题复杂度增加而使数学变得复杂，但深度神经网络的数学表达式之复杂程度（非线性激活函数和线性函数的多重复合），以及其中的变量和参数的数目之巨大，远远不是一个物理公式可比的，而且前者的表达式里的每个参数（包括每个神经元的权重），都没有对应的可解释的意义，没法描述这些参数的变化对神经网络输出结果的影响，这也是深度学习的不可解释性的主要原因之一。不像物理公式那样，其中的每个变量和系数都有物理意义，并且可以解释其中每个量的大小变化对公式计算结果的影响。”李纯明表示。

罗杰波认为，深度学习在应用落地上还有很大的空间，但大多局限于感知层面，“我们下一步需要在认知、决策层面上努力”。要实现这一点，或许得在理论上取得突破。

感知结合认知是实现智能的关键，然而对于智能这个概念，其实还并没有一个明确的数学定义，因此也尚未有理论去对此进行量化研究，深度学习理论主要集中在已有算法的改进和理解上。因此，AI的理论和实验之间，似乎存在对话的隔阂。

尤其是在解释的层面，AI的可解释性研究大部分集中于复杂模型，而理论层面的解释型研究则经常选择在应用中非典型的模型。

——2——

工业场景的AI解决“猫识别”问题了吗？

“猫识别”问题是一个经典的AI问题，吴恩达2011年在谷歌开发的“猫识别”系统让深度学习声名远播。如今吴恩达在《深度学习》课程中，也会经常以“猫识别”问题为例子介绍神经网络的基本原理。

当时这个“猫识别”系统的训练和现在无异，系统在输入了数百万张猫脸图片后，就能识别一张图片是不是猫。

后来很多新的图像识别模型都没有走出这个“暴力训练”的框架，而只是在探索如何更加高效地进行识别。

那么反过来，人类也是以这种方式进行视觉识别的吗？比如，在对于这只动物，你认为它是什么呢？

其实，这是一只长得像狗的猫。

不对，说错了。这是一只长得像猫的狗。

正确答案倒不重要，问题是光看照片，是不是两种说法都能够接受？

实际上，关于视觉识别这个问题，人工智能领域有一个长期的争论：识别究竟是目标问题，还是场景问题？

目标问题也就是打标签，就像上述的猫识别系统和手写数字识别系统，对一张图片，打上“是XX、不是XX”的标签就行。

场景问题则不满足于打标签，而是要先回答：我们要识别的对象，和周围环境是什么关系？对这个问题的回答，决定了该对象应该打上什么标签。

比如对于上图中的“猫狗”，我们最终要判断它是猫还是狗，可以在现实中接触它，用你的双手捧起它的两只前爪，看它是摇尾巴，还是挠你一脸。也就是说，我们要通过获得识别对象和其他对象（比如人）之间的交互信息，来判断对象的类别。当然，如果照片中刚好有它跑去追飞盘或者趴在猫抓板上的信息，就不用冒这个险了。

如今的深度学习，在某种程度上，可以基于场景去进行视觉识别，比如它也可以基于狗的图片中的草坪，帮助判断图片中的对象更可能是狗。但它不能给出这种关系判断的显式依据。同时，这种语境判断甚至会给模型带来问题，比如如果模型看到的训练数据中，狗总是在草坪里出现，那么深度学习就会把草坪的存在当成狗出现的依据。这也是深度学习一直被诟病的捷径学习问题。

所以，场景不是简单地通过增加输入信息就能解决。归根结底，识别不是简单的感知问题，而是感知、常识和目的融合的结果，深度学习只学会了感知，上述的“猫狗”识别还需要结合常识。

那么，目的要如何理解呢？简单来说就是，“拿着锤子，看啥都是钉子。”

如下图所示，我敢打赌你是第一次见到这种“东西”，通过常识你可以大致判断这可以作为椅子，因为你可以坐上去，并放松全身肌肉。但如果你不是想坐着看电视，而是在玩躲猫猫呢？这时它就是很好的防护罩了。还有，如果你要搬家，这是不错的临时容器。

一般情况下，当一个物体存在二义性的时候，就需要依靠场景识别，而不止是目标识别。所以，深度学习并没有解决AI最基本的识别问题。为什么我们还没有放弃它？

——3——

深度学习——无所不能的黑盒子

是深度学习的无限潜力，让我们舍不得放弃。

通用近似定理表明，单一隐藏层、无限宽的前馈神经网络，可以逼近任意的函数（完备的表达能力）。也就是说，如果任意的问题都可以转化为一个函数问题，深度学习可以解决任何问题。

那么，只要有大数据、大模型和大算力，未来我们就能利用深度学习实现通用人工智能？

的确，支持这条路线的学者不少，比如获得2018年图灵奖的深度学习“三巨头”，都对此坚信不疑。他们也认为，如今人们一直强调的常识，或者认知智能，也可以用深度学习来实现。

不考虑效率的话，这一说法没有问题。但同样，采用更加暴力的进化算法也能实现通用人工智能，DeepMind近期还专门发表一篇论文，讲述其如何设想利用强化学习来实现通用人工智能。

奥地利-捷克实验物理学家和哲学家恩斯特·马赫曾经提出，“思维经济是科学的主要任务”，思维经济原则就是“事实的经济陈述”。我们应该追求尽可能简洁高效的科学方法，这种思想其实和上述智能的简单定义（信息压缩，而且是尽可能压缩）也很相似，不够高效的智能算法算不上智能。如果深度学习在某一任务上不如其他方法，就不应该采用它。

也许有人在沉醉“深度学习/进化算法/强化学习就是通用人工智能”这样简单的描述，而没有考虑到暴力堆叠数据和算力带来的复杂性。当然，只要能产出有影响力的论文，喊喊口号不是问题。

那么，我们还有其他的候选吗？也就是拥有完备表达能力的其他架构体系？

实际上，在理论表达能力方面，SVM也可以实现任意的非线性变换，从而拥有和深度学习相同的表达能力，但它的优化非常困难（近似能力差），并且不适用于大数据训练。

图神经网络近年来受到热捧，但基于论文”How powerful are graph neural networks？“中的讨论，已有理论证明它的表达能力有一个确定的上界。有很多人在努力寻求改进的方法，以提高它的表达能力，并卓有成效，但仍然未能与深度学习匹敌。

其实除了表达能力，深度学习会得到重用，还有优化简单、认知门槛低、硬件支持、环境支持（数据）等等原因，可谓天时地利人和。

在这样的背景下，深度学习必然不会被断然放弃，人们也在尝试“深度学习+”的妥协路线，比如深度学习+传统机器学习、深度学习+人工编程等等。

在深度学习的框架内，感知和认知究竟有没有绝对的边界，不少学者试图通过打开深度学习这个庞大无边的黑盒子，去找寻线索。

——4——

语言和逻辑的源头

打开黑盒子，其实就是研究深度学习的可解释性。

在深度学习领域，已经有了基于类似思想的工作。论文“Mining Object Parts from CNNs via Active Question-Answering”描述了一种基于人机交互来提取目标检测CNN的模型解释的方法。

在交互中，比如对一张马的图片输入，计算机会不断重复问人类，现在的检测结果正确吗？人类根据情况提供5种不同的回答：

（1）边框正确；

（2）边框不正确，但提供了正确的参考模板（其他马的图片的检测结果）；

（3）边框不正确，参考模板也不对；

（4）应该采用新的模板；

（5）目标不存在于图片中。

如果收到答案 2-4，计算机会要求人类对目标部分进行重新注释。在答案3的情况下，计算机会要求人们重新指定模板，以及确定物体是否翻转。

基于这些信息，计算机就能构建起模型的“知识图谱”——AOG（与或图），AOG 有四层，它们对从语义部分、部分模板、潜在模式到 CNN 单元的清晰语义层次进行编码。如此，计算机就能逐步构建起输出结果和CNN神经元之间的关系。并且，计算机问的越多，AOG包含的知识就越丰富。

这种提取方法偏向于逻辑，那么语言解释要如何提取呢？在提炼语言解释的过程中，其需要借用现实的隐喻来表达。

在著名语言学家乔治·莱考夫的经典著作《我们赖以生存的隐喻》中就提到，人类是没有办法直接表述抽象概念的，必须借用隐喻。比如“我们在危机的包围中生存下来”这句话，就借用了“包围”的现实本体，比如一个羊圈，作为隐喻来表达“我们”和“危机”之间的关系，即它们是一种“找不到突破口”的关系。人类在理解这句话的时候，脑海里隐含地存在类似羊圈的本体形象，如果不刻意去深究，平常不会意识到。

这如何对神经网络的可解释性以启发呢？目前在多模态学习中，已经初有成效，但尚未有非常可靠的结果。还有另外一种方案就是，不解释。

不解释的意思就是，我们不去寻求对神经网络的解释，神经网络既然是个黑盒子，那就乖乖当个黑盒子。

——5——

高视科技对人工智能技术的研究

高视科技定位为基于AI的工业视觉整体解决方案提供商，已形成较为完善的“工业AI智能机器视觉应用技术与产品体系”，为工业行业提供AOI智能检测整体解决方案、标准化AI机器视觉深度学习开发平台、工业缺陷标准化数据库服务、嵌入式机器视觉模块化产品及终端自动化设备。

Ø 多渠道大量收集样本：正常品、机检不良品、漏检不良品等；

Ø 系统将自动挑选合理的样本（也可人工干预），在线更新分类器，使其越来越好。

作为国内为数不多的，在AI四大模型类别都有工业落地经验的公司，高视科技在：分类、分割、检测、无监督学习四大模型领域，都有完整的知识产权，并可以跨平台部署，具有大数据深度学习+小样本迁移学习系统。

注：本文部分节选于AI科技评论《锁死AI基础研究的两个智子是什么？》

2021年8月31日 10:22

ꂃ上一篇：无

ꁹ下一篇：无

Twitter

新浪微博

百度新首页

Facebook

微信

分享到

　　高视科技（苏州）股份有限公司是一家专业从事工业AI智能机器视觉应用系统解决方案研发的国家级高新技术企业，是行业领先的商用显示模组（OLED\MINILED\MICRO-LED\LCD等）、锂电池及新能源制程设备、半导体等领域全自动化AOI检测以及工业机器视觉应用系统与标准化开发平台供应商。为中国图像图形学会视觉检测分会会员单位、中国自动化学会战略合作单位、深圳市平板显示行业协会十佳优秀会员单位、广东省高成长企业、粤港澳大湾区人工智能30强企业。截至目前，公司已形成较为完善的工业AI智能机器视觉应用技术与产品体系，为工业行业提供AOI智能检测整体解决方案、标准化AI机器视觉深度学习开发平台、工业缺陷标准化数据库服务、嵌入式机器视觉模块化产品及终端自动化设备。

公司在北京、南京、苏州及惠州设立研发中心，拥有一支行业资深的专业研发团队，研发人员占比超过80%，为广东工业大学博士后创新实践基地、南昌大学工学硕士授予点及教育部厦门大学卓越工程师实习基地，具备较强的软硬件系统研发与产学研商业转化实力，为行业客户提供高水准产品与服务。

公司秉承敬业诚信、合作创新、成长共赢的核心价值观。以技术研发为核心，以客户需求为导向，争做智能机器视觉专家，助力产业升级。致力于成为智能机器视觉领域，受人尊敬的领先企业。

高视简介

客服电话

服务时间

微信二维码

【自有技术大讲堂】工业场景中的人工智能（AI）