DILinAV(1):基于离散图模型的人工视觉简介

| 研究学术  | 计算机视觉 

本文内容主要来自M. Nikos Paragios和M. Pawan Kumar的课程《Discrete Inference & Learning in Artificial Vision》的第1节“Introduction to artificial vision with discrete graphical models”。

人工视觉

人工视觉(AV,artificial vision)的目的和人类视觉系统非常相似。人工视觉非常复杂,尽管过去30年取得了很多进展,但发展水平仍相当于5岁的小孩。面临的困难从如下三方面来看:

  • 输入阶段:多种多样的传感器,获得图像的形式和质量不同,有的采集深度信息,有的纪录运动信息。这些信息融合起来并不容易。
  • 处理阶段:即使使用非常强大的电脑,也只能达到人脑的很小部分能力。
  • 数学推理:我们并不清楚人类理解环境的方法,因此无法通过学习人类视觉系统重现这一过程。我们通过数学方法解决问题,但通常难以定义合适的模型、目标函数,也难以找到最优解。

Artificial Vision Paradigm

人工视觉处理问题的主要方式是逆向建模(inverse modeling)。从观察开始,也就是通过不同传感器获取图像。给定待解决的问题,将问题参数化,如果能估计参数,就能得出视觉感知任务的答案。其难点在于,问题在高维空间,通常没有直接的解析解。

通过心脏CT扫描图,可评估心脏病发作风险。行脏的左心室将携带氧的血药泵到全身。评估心脏病发作风险的方法是测量心动周期(cardiac cycle)心脏收缩和扩张间的差异。也就是比较心室的最大体积和最小体积之差。如果差异在$20\%$,就可能不会发生问题。如果差异变得越来越小,心脏就可能出问题。内科医生希望通过人工视觉自动测量这种差异。通过在心室上选择一些控制点,可以得到心室的模型。目标函数就是优化控制点的位置。

人工视觉面临的四大挑战:

  1. 维度问题:在模型的表现力和复杂性间折中;
  2. 非线性问题:模型参数和结果之间的非线性;
  3. 非凸问题:目标函数在高位非凸空间,存在许多局部最优解,但难以得到最优解;
  4. 非模块化问题:老方法难以直接用于新问题,以上问题会重现。

Relationship with other fields

人工视觉包含了计算机视觉、机器视觉和图像处理。

离散模型

\[ \mathcal G = \left(\mathcal X, \mathcal E \right), \]

离散人工视觉(discrete artificial vision)采用图模型。图包含3个元素:

  1. 顶点(node):待估计的变量,$\mathcal X$;
  2. 邻域系统(neighborhood system):变量或参数间的关系,$\mathcal E$;
  3. 标签(label):离散变量,待估计变量的取值,$\mathcal L$。

Graph Model

在离散人工视觉中,每个模型都包含一个图。首先确定顶点和它们之间的连接关系,然后为模型分配数据。通过能量方程的最优化估计变量的值。这种能量通常包含两部分,

\[ \min_{x_p}\sum_{p\in\mathcal X}\left(\Theta_p\left(x_p\right) + \Theta_{pq}\left(x_p, x_q\right)\right)。 \]

第一项称为单一项(singular term),评估所有给定的变量和标签。第二项称为成对项(pairwise term),评估顶点之间的一致性(consistency)。在计算机视觉中,通常采用马尔可夫随机场(MRF,markov random field)进行最优化。

离散人工视觉还采用另一种高阶模型

\[ \mathcal G = \left(\mathcal X, \mathcal C \right), \]

其中$\mathcal C$表示超边或团(hyperedege/clique),邻域推广为超团。高阶能量最小化问题表示为

\[ \min_{x_p}\sum_{p\in\mathcal X}\left(\Theta_p\left(x_p\right) + \Theta_{c}\left(x_p,\cdots ,x_q\right)\right)。 \]

应用实例

在介绍了几本概念后,分三部分展示一些具体应用实例。

低级视觉(low level vision)

低级视觉的主要应用包括:盲图像反卷积(blind image deconvolution)、图像修复(image inpainting)……

图模型元素对应的内容:

  • 变量:像素;
  • 标签:亮度值;
  • 图连接:成对连接。

一、盲图像反卷积

低级视觉是非常活跃的研究领域,去噪(denoising)是其中比较简单的例子。目前已经有很多高效的去噪算法,此处从人工视觉的角度,展示一个更有趣也是更具挑战性的问题。

Blurred image generation process

对象或相机的运动都会导致图像的模糊。盲图像反卷积能消除运动导致的模糊。产生模糊图像,相当于清晰图像被卷积核模糊了,卷积核与相机和对象的运动有关。用数学模型表示,卷积核与噪声劣化了图像

\[ \mathbf I = \mathbf x \otimes \mathbf k + \mathbf n \]

$\mathbf I$表示看到的模糊图像,$\mathbf k$表示模糊核,$\mathbf n$表示噪声,只有$\mathbf I$已知。盲图像反卷积是在给定$\mathbf I$时计算$\mathbf x$和$\mathbf k$。

High-level idea: how to reduce ill-posedness?

图:$\bar{\mathbf x}$表示对$\mathbf x$采用15色量化的结果,$\bar{\mathbf x}$和${\mathbf x}$得到的模糊图像差不多。

假设图像就是图,像素对应于顶点。为每个顶点分配一个标签,标签表示重构回图像的值。由于不知道卷积核与噪声模型,问题非常复杂。通过量化降低图像质量,卷积核表现的行为也差不多,但问题复杂度降低了。卷积核与运动相关,千差万别,通常的方法是对卷积核施加限制条件。[1]中的方法同时得到卷积核与无噪声图像。

二、图像补全

Image Inpainting

图:图像修复。填充左图移除人的部分,得到完整漂亮的全图。

Image Completion

图:纹理合成。给定左图的一小块纹理样本,生成任意大小的纹理图。

Image Completion Problem

图:图像补全问题

图像补全问题模型:

  • 标签$\mathcal L$:所有从源区域$\mathcal S$来的$w\times h$块;
  • MRF顶点:和目标区域相交区域的点,也就是将用新值取代的像素;
  • $\Theta_p\left(x_p\right)$:块$x_p$和$p$附近区域的一致性;
  • $\Theta_{pq}\left(x_p, x_q\right)$:块$x_p$和$x_q$与它们重叠区域的相似性。

中级视觉(middle level vision)

中级视觉不仅包含了图像修复,还包含了对图片内容推断,其内容包含:目标分割(object segmentation)、光流估计(optical flow estimation)、变形融合(deformable fusion)、图匹配(graph matching)……

图模型元素对应的内容:

  • 变量:控制点;
  • 标签:2D/3D位置;
  • 图连接:成对连接/高阶项。

一、图像分割

图像分割是指从给定图像中提取特定区域。

Human Heart

个体差异、背景复杂、低对比度、噪声等因素使心脏姿态不变性分割[2]极具挑战性。人体解剖结构差异大,大小、形状都可能不同,一种简单的方法是采用高阶几何(higher-order geometry)描述。若通过点集确定表面,任何点对具有不变性。也就是即使移动,它们之间的相对关系也不变。但缩放就不能保持点对的关系。最好的方法是采用高阶几何。

pose-invariant-heart-model

图:形状表达。

pose-invariant-heart-model

图:姿态不变性。

考虑任意三点,姿态不变性是指任何应用到这三点的变换都会保持他们之间角度。对象采用三元组(triplet)建模,任何几何变换都会保留它们之间的角度,这称之为姿态不变(pose-invariant)模型。一旦从数据中学到了这种模型,就可以用它和图像中获取的新信息比较,得到最佳分割图(segmentation map)。这可用概率的方式将几何学信息和图像信息结合。代价函数将增加第三项,称其为超团项,优化点在几何形状中的位置以及点在图像中的位置。统计形状先验(statistical shape prior)的局部约束为$P_{(i,j,k)}(\alpha,\beta)$,全局形状约束为$P(X)={1\over Z}\prod_{c\in C}P_c(\alpha,\beta)$。

二、配准/光流估计

brain-registration-example

图:大脑配准图。红色表示差异大。

配准在生物医学图像中极其重要。在将两个部件组合在一起,以及处理组织的形变都需要用到。图像配准可定义为最优化问题

\[ T^\ast = \arg\min_T\phi(I, J\circ T), \]

$I$和$J$分别表示目标图像和源图像,变换$T$定义为

\[ T(\mathbf x) = \mathbf x + D(\mathbf x), \]

图像度量

\[ \phi : (I,J)\mapsto\mathbb R \]

图或者网格,作为参数空间。经过网格变形,通过图像之间相似性,判断几何形变是否满足要求。这种方案在光流估计和视频分析中也常用到。用图定义该优化问题,顶点对应形变,标签表示位移量,为每个顶点分配形变。采用图模型,可以高效便捷的求解该问题。MRF模型可表示为

\[ E_{\mathrm{mrf}}(\mathbf l) = \sum_{p\in G}V_p(l_p)+\sum_{(p,q)\in N}V_{pq}(l_p,l_q), \]

单一项为

\[ V_p(l_p)=\int_\Omega\hat\eta(\mathbf x)\left(I(\mathbf x)-J\left(\mathbf x + \mathbf d^{l_p}\right)\right)^2d\mathbf x, \]

成对项为

\[ V_{pq}(l_p,l_q)=\lambda\left\|\mathbf d^{l_p}-\mathbf d^{l_q}\right\|。 \]

三、图匹配

graph-matching-demo

图匹配[3]类似于配准,其目的在于确定两个表面间的对应关系。由于表面之间的形变可能非常大,该问题非常复杂。

高级视觉(high level vision)

高级视觉可用于提取对象的几何关系,比如从3位对象的二维图像中提取深度信息。高级视觉内容包括提取视角不变的2.5维/3维(view-Point invariant 2.5D-3D)信息/ 大规模形状语法解析(large-scale parsing with shape grammars)……

图模型元素对应的内容:

  • 变量:控制点;
  • 标签:2D/3D位移;
  • 图连接:成对连接/高阶项。

一、提取层次信息

2.5D Layered Modeling

直接从单张图像提取3维信息太困难。2.5维信息不要求准确的深度信息,只需要对象之间的前后层次关系。

首先建立对象的二维形状模型,比如上图中的汽车建模,使得它可以在平面内执行移动、旋转、伸缩变换。然后为其分配图像标签(基于对象的信息)。

二、形状语法解析[4]

Image-based Modeling of Architecture using Shape Grammars

小结

通过采用训练数据集,图模型效率较高。离散图模型是应对人工视觉四大挑战的理想解决方案。

参考资料

  1. [1]N. Komodakis and N. Paragios, “MRF-based blind image deconvolution,” in Computer Vision–ACCV 2012, Springer, 2013, pp. 361–374.
  2. [2]B. Xiang, C. Wang, J.-F. Deux, A. Rahmouni, and N. Paragios, “3d cardiac segmentation with pose-invariant higher-order mrfs,” in Biomedical Imaging (ISBI), 2012 9th IEEE International Symposium on, 2012, pp. 1425–1428.
  3. [3]Y. Zeng, C. Wang, Y. Wang, X. Gu, D. Samaras, and N. Paragios, “Dense non-rigid surface registration using high-order graph matching,” in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010, pp. 382–389.
  4. [4]P. Koutsourakis, L. Simon, O. Teboul, G. Tziritas, and N. Paragios, “Single view reconstruction using shape grammars for urban environments,” in Computer Vision, 2009 IEEE 12th International Conference on, 2009, pp. 1795–1802.


打赏作者


上一篇:Single Image Haze Removal Using Dark Channel Prior     下一篇:DILinAV(2):重参数化与动态规划