首页|新闻|图片|评论|财经|共青团|大思政|青年电视|青年之声|法治|教育|中青校园|励志|文化|军事|体育|地方|娱乐|ENGLISH
首页>>新闻 > 即时新闻 >>  正文

揭秘"图像识别"的工作原理

发稿时间:2017-08-02 06:28:42 来源: 山西日报 中国青年网

  对人类来说,描述我们眼睛所看到的事物,即“视觉世界”是一件微不足道的事情,然而对计算机来说,识别人类的“对象”却是相当困难的。

  能解决这一问题可以带来非常高的收益。“图像识别”技术,更宽泛地说是“计算机视觉”技术,是许多新兴技术的基础。无人驾驶汽车、面部识别软件、监测流水线缺陷和违规的“智能工厂”、保险公司用来处理和分类索赔照片的自动化软件……这些高科技都离不开“图像识别”。

  科学家是如何解决这一挑战的呢?

  学会“看”是一项高难度、高成本的任务

  理论上我们可以用常规的神经网络来进行图像分析,但在实际操作中,从计算角度看,使用这种方法的成本非常高。举例来说,一个常规的神经网络,就算是处理一个非常小的图像,假设是30×30像素图像,仍需要900个数据输入和五十多万个参数。这样的处理加工对一个相对强大的机器来说还是可行的;但是,如果需要处理更大的图像,机器所需的数据输入和参数数量会增加到难以想象的地步。

  真正的解决方案——卷积

  幸运的是,我们发现,只要在神经网络的结构方式上做一个小小的改变,就能使大图像的处理更具可操作性。改造后的神经网络被称作“卷积神经网络”,也叫CNNs或ConvNets。

  在任何一张图像中,接近度与相似度的关联性都是非常强的。准确地说,“卷积神经网络”就是利用了这一原理。具体而言就是,在一张图像中的两个相邻像素,比图像中两个分开的像素更具有关联性。但是,在一个常规的神经网络中,每个像素都被连接到了单独的神经元。这样一来,计算负担自然加重了,而加重的计算负担实际上是在削弱网络的准确程度。

  卷积网络通过削减许多不必要的连接来解决这一问题。运用科技术语来说就是,“卷积网络”按照关联程度筛选不必要的连接,进而使图像处理过程在计算上更具有可操作性。“卷积网络”有意地限制了连接,让一个神经元只接受来自之前图层的小分段的输入(假设是3×3或5×5像素),避免了过重的计算负担。

  “卷积神经网络”的内在秘密

  “卷积神经网络”究竟是如何筛选出不必要的连接的呢?秘密就在于两个新添的新型图层——卷积层和汇聚层。我们通过一个案例来判断照片中是否有“奶奶”这一对象,把“卷积神经网络”的操作进行分解,逐一描述。

  卷积层

  1.首先,我们会将奶奶的照片分解成一些3×3像素、重叠着的拼接图块。

  2.然后,我们把每一个图块运行于一个简单的、单层的神经网络,保持权衡不变。这一操作会使我们的拼接图块变成一个图组。由于我们一开始就将原始图像分解成了小的图像,所以,用于图像处理的神经网络也是比较好操作的。

  3.接下来,我们将会把这些输出值排列在图组中,用数字表示照片中各个区域的内容,数轴分别代表高度、宽度和颜色。那么,我们就得到了每一个图块的三维数值表达。

  汇聚层

  “汇聚层”是将这个三维(或是四维)图组的空间维度与采样函数结合起来,输出一个仅包含了图像中相对重要的部分的联合数组。这一联合数组不仅能使计算负担最小化,还能有效避免过度拟合的问题。

  最后,我们会把从“汇聚层”中得出的采样数组作为常规的、全方位连接的神经网络来使用。通过卷积和汇聚,我们大幅度地缩减了输入的数量,正常普通网络完全能够处理。

  以上只是对“卷积神经网络”工作过程的简单描述,现实中,其工作过程是更加复杂的。另外,跟我们这里的案例不同,现实中的“卷积神经网络”处理的内容一般包含了上百个,甚至上千个标签。

  张卫伟整理

责任编辑:千帆
 
热门排行
热 图