Tracking-Learning-Detection

2015-05-10 | 研究学术 | 文献阅读计算机视觉机器学习应用

本文研究在视频流中长效跟踪（long-term tracking）未知目标。目标通过它在单帧中的位置和大小定义。接下来每帧中的任务是确定目标的位置和大小，或者指出该目标不存在。我们提出了一种新的跟踪框架（TLD），明确的将长效跟踪任务分解为跟踪、学习和检测。跟踪器一帧接一帧地跟踪目标。检测器定位到目前为止发现的所有目标，并在必要时校正跟踪器。学习过程估计检测器的误差，并更新检测器避免将来重现误差。我们研究如何确定检测器的误差，并从误差中学习。我们开发了一种新的学习方法（P-N学习），它通过一对“专家”估计误差：（i）P专家估计漏检（missed detection），（ii）N专家估计错检（false alarm）。学习过程建模成一个离散动态系统（discrete dynamical system），并且找到了确保学习提升的条件。我们描述了TLD框架的实时实现和P-N学习过程。我们进行了一次全面的量化评估，表明了我们的方法比最先进的方法有显著的提升。

1 引言

考虑手持摄像机采集的视频流，各种目标在摄像机的视场中进出。当单帧中感兴趣目标由边界框（bounding box）给定时，在以后每帧，我们的任务是自动确定该目标的边界框或指出该目标消失了。视频流按帧率处理，并且处理过程将会无限长。我们称这样的任务为长效跟踪。

为了实现长效跟踪，很多问题需要解决。关键问题是当目标在摄像机视场重现时检测到该目标。目标的外观可能发生变化，这一事实导致目标的外观和初始帧不相关，这加剧了问题的难度。其次，成功的长效跟踪需要处理尺度和光照变化、杂乱的背景、部分遮挡，以及实时处理。

长效跟踪既可从跟踪也可从检测的角度入手。跟踪算法估计目标的运动。跟踪器只需初始化，就能快速工作并产生平滑的轨迹。另一方面，运行时它们会累积误差（漂移），当目标从摄像机视野消失时，跟踪通常会失败。研究跟踪的目的在于开发更鲁棒的跟踪器，可以跟踪得更长。失败后的（post-failure）行为没被直接处理。基于检测的算法，在每帧中独立的估计目标的位置。检测器不会漂移，如果目标从摄像机视野消失时也不会失败。然而，它们需要离线训练过程，因此无法应用于未知目标。

我们研究的出发点基于一个被认可的事实，这就是单独的跟踪或检测都不能完成长效跟踪任务。然而，如果它们同时工作，可从对方受益。跟踪器可为检测器提供弱标记的训练数据，因此在运行时能提升检测器。检测器能重初始化跟踪器，因此能把跟踪器的失败最小化。

本文的首要贡献是设计了一个新的框架（TLD），它将长效跟踪任务分解为3个子任务：跟踪、学习和检测。每个子任务通过单个模块完成，每个模块同时工作。跟踪器一帧接一帧的跟踪目标。检测器定位到目前为止发现的所有目标，并在必要时校正跟踪器。学习过程估计检测器的误差，并更新检测器避免将来重现误差。

虽然存在大量的跟踪器和检测器，但我们还没发现有何学习方法能适用于TLD框架。该学习方法需满足：

处理任意复杂的视频流，其中跟踪失败频繁；
若视频不包含相关信息，也从不劣化检测器；
操作的时实性。

为应对所有这些挑战，我们依靠视频中包含的各种信息源。例如，考虑单帧中表示目标位置的单个块（patch）。该块不仅表明了目标的外观，还确定了其周围的块，这些块确定了背景的形式。在跟踪该块时，可以看到同一目标的不同外观，以及背景的不同形式。这和标准的机器学习方法不同，在那里单个样本认为独立于其它样本[2]。这就提出了有趣的问题——如何在学习中有效的利用视频中的信息。

本文的第二个贡献是称为P-N学习的新学习模式。在视频的每帧中评估检测器。通过两种类型的“专家”分析它的响应：（i）P专家识别漏检，（ii）N专家识别错检。误差估计强化了检测器的训练集，检测器被重训练以避免将来重现这些误差。正如其它任何方法，P-N专家自己也要犯错。然而，如果专家出错的概率限定在某个确定的范围（可解析定量的确定），通过错误的相互弥补可实现稳定的学习。

第三个贡献是实现。我们展示了基于TLD框架和P-N学习如何构建一个实时的长效跟踪系统。该系统实时跟踪、学习和检测视频流中的目标。

第四个贡献是在基准数据集上全面评估最先进的方法，我们的算法在上面取得了最好的性能（saturated performance）。因此，我们收集和标注了更具挑战性的新数据集，我们的算法在上面比最先进的方法有显著的提升。

Given a single bounding box defining the object location and extent in the initial frame (LEFT), our system tracks, learns and detects the object in real-time. The red dot indicates that the object is not visible.

图 1：初始帧给定由边界框确定的目标的位置和尺寸（左），我们的系统实时跟踪、学习和检测目标。红点表示无标不可见。

本文其余内容组织如下：

第2节综述了长效跟踪的相关工作；
第3节介绍了TLD框架；
第4节提出了P-N学习；
第5节讨论了TLD的实现；
第6节进行了大量的对比试验；
本文以对未来工作的贡献（contribution）和建议作为结束。

2 相关工作

本节综述了与我们系统各模块相关的方法。第2.1节综述了目标跟踪，侧重于能在线学习的鲁棒跟踪器。第2.2节讨论了目标检测。最后，第2.3节综述了训练目标检测器的机器学习方法。

2.1 目标跟踪

目标跟踪的任务是估计目标的运动。跟踪器通常认为目标在整个视频序列中都存在。在实际中，有多种表示目标的方法：点[3][4][5]、关节模型[6][7][8]、轮廓[9][10][11][12]或者光流[13][14][15]。在这里，我们专注利用几何形状表示目标的方法。它们的运动通过连续帧估计，也就是帧到帧的跟踪。在这种情况下，模板跟踪是最直接的方法。目标用目标模板（图像块、彩色直方图）描述。运动定义为最小化目标模板和候选块之间误配的一种变换。模板跟踪可按固定的方式（当目标模板不发生变化时）实现[16]，也可按自适应的方式（当目标模版从前一帧抽取时）实现[3][4]。固定和自适应模板跟踪相结合的方法[17][18][19]以及识别模板可靠部分的方法[20][21]已经被提出来了。由于模板只表示单一的外观，它们只具备有限的建模能力。为了对更多外观变化建模，提出了生成模型（generative model）。生成模型既可以离线构建[22]，也可以在运行时建立[23][24]。生成的跟踪器只对目标的外观建模，因此在杂乱的背景中经常失败。为了缓解这一问题，最近提出的跟踪器也对目标运动的环境建模。有两种环境建模的方法经常被用到：

第一种，在环境中搜寻支持目标（supporting object），通过感兴趣的目标（object of interest）校正其运动[25][26]。当感兴趣的目标从摄像机视野中消失或经历复杂的变化时，这些支持目标对跟踪有帮助。
第二种，环境被当成跟踪器应区别开的负类（negative class）。

构建判别式跟踪器（discriminative tracker）的常用方法是建立二分类器，通过它表示目标和背景之间的决策边界。固定的判别式跟踪器[27]在跟踪之前训练目标分类器，它的应用局限于目标已知。自适应的判别式跟踪器[28][29][30][31]在跟踪过程中建立分类器，其本质阶段在于更新：当前位置邻近区域用于采样正的训练样本，远离当前位置的区域用于采样负样本，每一帧的这些样本用于更新分类器。有证据表明这种更新策略能对付外观显著变化、短时遮挡（short-term occlusion）以及杂乱背景。然而，若目标离开场景的时间比预期长，这些方法也受漂移（drift）之害并且会失败。为了解决这些问题，通过在首帧训练辅助分类器[32]或训练一对不相关的分类器[33][34]，约束跟踪分类器的更新。

2.2 目标检测

目标检测的任务是在输入图像中定位目标。目标的定义是多样的。它可以是单个实例或一整类对象。目标检测通常基于图像局部特征[35]或者滑动窗口[36]。基于特征方法按如下流程：（i）特征检测；（ii）特征识别；（iii）模型拟合。面[35][37]或完整的三维模型[38]常被使用。这些算法达到了成熟水平，即使在低性能设备上也能实时运行[39]，此外还能检测大量的目标[40][41]。它们主要的长处也是局限性就是检测图像的特征，并且需要事先知道目标的几何尺寸。滑动窗口方法[36]利用不同尺寸的窗口扫描图像，判断每个窗口中的块是否包含感兴趣的目标。对于QVGA格式的帧，每帧大约需要计算50000个块。为了达到实时的性能，滑动窗口检测器采用所谓的级联结构[36]。基于背景的概率比目标大得多的这一事实，分类器分为许多级，每级都能提早拒绝背景块，因此能减少平均需要计算的级数。训练这样的检测器通常需要大量的训练样本，并且在训练阶段需要大量计算以精确表示目标和背景之间的判别边界。另一种方法是将目标建模成大量的模板。在这种情况下，学习涉及的是只再增加一个模版[42]。

2.3 机器学习

目标检测器通常是在假定所有训练样本都被标注时被训练的。因为我们希望从单个标注的样本和视频流中训练检测器，这个假定对我们的情况来说太强了。这个问题可被归结为半监督学习[43][44]，它同时使用标注的和未标注的数据。这些方法通常假定数据是独立同分布的，具备某些特性，例如未标注的样本在特征空间形成“自然的”聚类。过去已提出了许多基于类似假设的算法，包括期望最大化（EM）、自学习（self-learning）和协同训练（co-training）。

期望最大化是找出未标注数据模型参数估计值的常规方法。EM是迭代过程，在二分类问题中，交替估计未标注数据的软标签（soft-label）并训练分类器。EM算法成功用在了文本分类[45]和目标分类的学习过程[46]。EM算法基于低密度分离（low density separation）假设[43]，也就是类别被完全分开。EM有时认为是“软”版本的自学习[44]。

自学习从已标注训练集中训练初始分类器开始，然后用未标注数据评估分类器。那些拥有最可信的分类器响应的样本被加入训练集，分类器被重新训练。这是一个迭代过程。自学习被用于人眼检测[47]。然而，观察发现，当未标注数据通过独立性度量而非分类器置信度选择时，检测器提升更大。这表明目标检测不满足低密度分离假设，其它方法可能工作得更好。

协同训练[2]是一种学习方法，它基于不相关的分类器可以相互交替训练的思想。为了创建这些不相关的分类器，协同训练认为存在两个不相关的特征空间。通过在标注数据上训练两个不同的分类器初始化学习过程。然后两个分类器都在未标注数据上进行评估。在迭代过程，从一个分类器得到的可信的标记样本用于强化第二个分类器的训练集，反之亦然。协同训练处理不相关模态的问题效果最好，比如文本分类[2]（文本与超链接）或生物特征识别系统[48]（外观和声音）。在视觉目标检测中，协同训练已经成功用于监控中的车辆检测[49]和移动目标识别[50]。由于样本（图像块）从单模态中采样，我们认为协同训练是次优（suboptimal）的目标检测方法。从单模态中提取的特征可能是相关的，因此违背了协同训练的假设。

2.4 最相关方法

许多方法在某种程度上结合了跟踪、学习和检测。在论文[51]中，离线训练的检测器用于验证跟踪器的输出轨迹，如果轨迹是无效的，通过彻底的图像搜索寻找目标。其它方法将粒子滤波[10]框架整合到检测器。这些方法已经用于在低帧率视频中跟踪脸[52]、跟踪多个曲棍球运动员[53]和跟踪行人[54][55]。与我们的方法不同，这些方法依靠离线训练好的检测器，在运行时其属性不改变。自适应判别式跟踪器[30][31][32][33][34]也拥有跟踪、学习和检测的能力。这些方法利用在线学习的检测器实现跟踪，检测器将目标从背景中提取出来。也就是说，单一的过程同时实现跟踪和检测。这不同于我们的方法，其跟踪和检测是不相关的过程，它们之间通过学习交换信息。通过保持跟踪和检测分离，我们的方法不必在其模块的跟踪和检测能力上作出妥协。

3 跟踪－学习－检测

The block diagram of the TLD framework

图 2: TLD框架的框图

TLD是一种针对视频流中长效跟踪未知目标的框架。它的框图如上图所示。该框架模块具有的特点如下：

跟踪器基于帧与帧之间的运动有限且目标可见的假设，估计连续帧之间目标的运动。如果目标跑出摄像机视野，跟踪器可能失败且不可恢复。
检测器认为每帧都是独立的，进行全图扫描，定位过去已发现过和学习过的全部目标。与其它任何检测器一样，检测器会犯两种错误：纳伪（false positive）和弃真（false negative）。
学习过程关注跟踪器和检测器的性能，估计检测器的误差，生成训练样本以避免未来犯这些错误。学习模块认为跟踪器和检测器都可能失败。凭借学习过程，检测器推广到更多的目标外观，同时区分背景。

4 P-N学习

本节探讨TLD框架的学习模块。该模块的目标是通过在线处理视频流提高目标检测器的性能。在视频流的每帧中，我们期望评估目前的检测器，发现它的误差，更新它以避免重现误差。P-N学习的核心思想是能通过两种类型的“专家”发现检测器的误差。P专家只辨别弃真，N专家只辨别纳伪。两种类型的专家自己都要犯错误，然而，它们之间的独立性使得它们之间能相互补偿。

第4.1节将P-N学习表述为半监督学习方法。第4.2节将P-N学习建模为离散动态系统，找到通过学习确保提升检测器性能的条件。第4.3节对合成生成的专家进行了几次试验。最后，第4.4节通过P-N学习从视频中训练目标检测器，得到了能实际使用的专家。

4.1 形式化

令$x$是特征空间$\mathcal X$中的一个样本，$y$是标签空间$\mathcal Y=\{-1, 1\}$中的一个标签。样本集$X$称为未标注集，$Y$称为标签集，$L=\{(x, y)\}$称为标注集。P-N学习过程的输入是标注集$L_l$和未标注集$X_u$，其中$l\ll u$。P-N学习的任务是从标注集$L_l$学习分类器$f: \mathcal X\to\mathcal Y$，并通过未标注集$X_u$提升（bootstrap）其性能。分类器$f$是来自$\Theta$参数化的函数系$\mathcal F$的函数。函数系$\mathcal F$受制于实现，在训练中保持不变，因此训练就是估计参数$\Theta$。

The block diagram of the P-N learning.

图 3: TLD框架的框图

如上图所示，P-N学习由4部分组成：

需要学习的分类器；
训练集——标注的训练样本集合；
监督训练——从训练集训练分类器的方法；
P-N专家——在训练过程中产生正负训练样本的函数。

训练过程通过向训练集插入标注集$L$进行初始化。然后，将训练集传给训练分类器的监督学习，也就是估计初始化参数$\Theta^0$。然后，学习过程通过迭代自举（iterative bootstrapping）进行处理。在第$k$轮迭代中，上轮迭代训练的分类器对整个未标注集合分类，对所有的$x_u\in X_u$有$y_u^k=f\left(x_u|\Theta^{k-1}\right)$。评估错分样本的P-N专家对分类进行分析。这些样本改变标签后加入到训练集。重新训练分类器结束迭代，也就是估计$\Theta^k$。迭代不断进行，直到收敛或者满足其它终止条件。

P-N学习的关键部分是估计分类器误差。其核心思想是将估计纳伪和估计弃真分开。由于这个原因，未标注集通过目前分类结果被分为两部分，每部分由独立的专家分析：

P专家分析分类为负的样本，估计弃真的样本并将它们按正标签加入训练集。在第$k$轮迭代中，P专家输出$n^+(k)$个正样本。
N专家分析分类为正的样本，估计纳伪的样本并将它们按负标签加入训练集。在第$k$轮迭代中，N专家输出$n^-(k)$个负样本。

P专家增强分类器的泛化力（generality）。N专家增强分类器的辨别力（discriminability）。

与监督自举法的关系 将P-N学习放到更广泛的背景中，我们假设集合$X_u$的标签已知。基于该假设，很容易识别错分的样本，将它们按正确的标签加入到训练集。该策略通常称之为（监督）自举法[56]。采用监督自举训练的分类器关注判别边界，效果通常优于随机采样训练集训练的分类器[56]。同样的，关注判别边界的思想是P-N学习的基础，不同的是集合$X_u$的标签未知。因此，P-N学习可视为标准自举法推广到未标注的情形，未知标签通过P-N专家估计。如同其它方法，P-N专家也会错误估计标签而犯错。这些误差通过训练传播，在接下来的章节中将会对其进行理论分析。

4.2 稳定性

本节分析P-N学习在分类器性能方面的影响。我们假定一个抽象分类器（例如，最近邻），它的性能在$X_u$上度量。分类器对未标记集随机初始分类，然后纠正P-N专家返回样本的分类。为了分析的目的，我们假定$X_u$的标签已知。这将使我们能测量分类器和P-N专家的误差。该分类器的性能将通过纳伪的数量$\alpha(k)$和弃真的数量$\beta(k)$进行刻画，$k$表示训练的迭代次数。

在第$k$次迭代中，P专家输出$n_c^+(k)$个正确的正样本（真实的正）和$n_f^+(k)$个错误的正样本（真实的负），它迫使分类器改变$n^+(k)=n_c^+(k)+n_f^+(k)$个负分类的样本为正。同样的，N专家输出$n_c^-(k)$个正确的负样本和$n_f^-(k)$个错误的负样本，它迫使分类器改变$n^-(k)=n_c^-(k)+n_f^-(k)$个正分类的样本为负。因此，在下一轮迭代中，分类器纳伪和弃真的误差为：

\begin{align} \label{eq:1a} \alpha(k+1) &= \alpha(k)-n_c^-(k)+n_f^+(k)\\ \label{eq:1b} \beta(k+1) &= \beta(k)-n_c^+(k)+n_f^-(k)。 \end{align}

公式\eqref{eq:1a}表明，当$n_c^-(k)>n_f^+(k)$时纳伪的数量$\alpha(k)$将减少，也就是，重新被正确标记为负样本的数量要多于重新被错误标记为正样本的数量。同样地，当$n_c^+(k)>n_f^-(k)$时弃真的数量$\beta(k)$将减少。

质量度量 为了分析P-N学习的收敛性，需要定义一个模型，建立P-N专家的质量与每轮迭代输出正负样本的绝对数量之间的关系。P-N专家的质量通过4个质量度量描述：

P精度——正标签的可靠性，也就是，正确的正样本数量除以P专家输出的所有正样本数量，$P^+=n_c^+/\left(n_c^++n_f^+\right)$。
P召回率——认定为弃真的误差所占百分比，也就是，正确的正样本数量除以分类器输出的所有弃真的样本数量，$R^+=n_c^+/\beta$。
N精度——负标签的可靠性，也就是，正确的负样本数量除以N专家输出的所有负样本数量，$P^-=n_c^-/\left(n_c^-+n_f^-\right)$。
N召回率——识别为纳伪的误差所占百分比，也就是，正确的负样本数量除以分类器输出的所有纳伪的样本数量，$R^-=n_c^-/\alpha$。

当这些度量给定时，在第$k$轮迭代，P-N专家输出的正确和错误样本的数量有如下形式：

\begin{align} \label{eq:2a} n_c^+ = R^+\beta(k),\quad &n_f^+(k)={(1-P^+)\over P^+}R^+\beta(k) \\ \label{eq:2b} n_c^- = R^-\alpha(k),\quad &n_f^-(k)={(1-P^-)\over P^-}R^-\alpha(k)。 \end{align}

结合公式\eqref{eq:1a}、\eqref{eq:1b}、\eqref{eq:2a}和\eqref{eq:2b}，我们可得如下等式：

\begin{align} \label{eq:3a} \alpha(k+1) &= (1-R^-)\alpha(k)+{(1-P^+)\over P^+}R^+\beta(k) \\ \label{eq:3b} \beta(k+1) &= {(1-P^-)\over P^-}R^-\alpha(k)+(1-R^+)\beta(k)。 \end{align}

定义了状态向量$\vec{x}(k)=\left[\alpha(k)\quad\beta(k)\right]^\top$和一个$2\times 2$的矩阵$\mathbf M$

\begin{equation} \begin{bmatrix} 1-R^-\quad &{(1-P^+)\over P^+}R^+ \\ {(1-P^-)\over P^-}R^-\quad &1-R^+\quad
\end{bmatrix} \end{equation}

之后，等式可重写为

\begin{equation} \vec{x}(k+1)=\mathbf M\vec{x}(k)。 \end{equation}

这是一个符合离散动态系统的递归等式。该系统展示了分类器的误差（编码为系统状态）如何从P-N学习的一次迭代传播到另一次。我们的目标是揭示在何种条件下系统误差会降低。

Evolution of errors during P-N learning

图 4: P-N学习过程中，矩阵$\mathbf M$不同特征值时的误差评估。误差减小（左）、保持不变（中）、增加（右）。

基于动态系统建立的良好理论[57][58]，若转移矩阵（transition matrix）$\mathbf M$的两个特征值$\lambda_1$、$\lambda_2$都小于1，状态向量$\vec{x}$将收敛到0。注意，该矩阵$\mathbf M$是度量专家质量的函数。因此，若质量度量已知，就可以确定学习的稳定性。与两个特征值都小于1的矩阵$\mathbf M$对应的专家称之为误差消除（error-canceling）。上图展示了当$\lambda_1＝0$和（i）$\lambda_2<1$，（ii）$\lambda_2=1$，（iii）$\lambda_2>1$时，分类器误差的演变。

在以上分析中，假设质量度量为常数，并且类别是可分的。在实际中，不可能确定分类器的所有误差。因此，训练不会收敛到误差少的（error-less）分类器，但可能稳定在某个水平。当质量度量可变时，$\mathbf M$的特征值小于1的那些迭代会提升性能。

4.3 仿真专家的试验

在本实验中，利用仿真P-N专家从真实视频序列训练分类器。我们的目的在于通过专家质量度量的函数分析学习性能。

在车辆视频序列上进行分析（图12）。在视频序列的第1帧，我们利用初始块的仿射形变（affine warp）和第1帧的背景训练随机森林分类器。接着，我们跑通1轮视频序列。在每帧中，评估分类器，仿真专家确定误差，更新分类器。每次更新后，在整个视频序列上评估分类器，利用f度量测量其性能。性能图示为已处理帧的数目和P-N专家质量的函数。

P-N专家通过4个质量度量刻画，$P^+$、$R^+$、$P^-$和$R^-$。为了约简该四维空间，参数设置为$P^+=R^+=P^-=R^-=1-\epsilon$，其中$\epsilon$表示专家的误差。转移矩阵变为了$\mathbf M=\epsilon\mathbf 1$，其中$\mathbf 1$是所有元素为$1$的$2\times 2$矩阵。该矩阵的特征值$\lambda_1=0$、$\lambda_2=2\epsilon$。因此，当$\epsilon<0.5$时，P-N学习将提升性能。误差在$\epsilon=0:0.9$范围内变动。

专家按如下方式仿真。在第$k$帧，分类器弃真的数目为$\beta(k)$。P专家重标记其中的$n_c^+(k)=(1-\epsilon)\beta(k)$个为正，这就得到$R^+=1-\epsilon$。为了仿真要求的精度$P^+=1-\epsilon$，P专家重标注额外的$n_f^+(k)=\epsilon\beta(k)$个背景样本为正。因此，在第$k$轮迭代，重标记为正的样本数量为$n^+=n_c^+(k)+n_f^+(k)=\beta(k)$。按同样的方式产生N专家。

Performance of a detector as a function of the number of processed frames. The detectors were trained by synthetic P-N experts with certain level of error. The classifier is improved up to error 50% (BLACK), higher error degrades it (RED).

图 5: 检测器性能视为处理帧数目的函数。检测器通过某个误差水平的人工合成P-N专家训练。The classifier is improved up to error 50% (BLACK), higher error degrades it (RED).

上图描绘了检测器的性能作为已处理帧数目的函数（某个误差等级的人工合成P-N专家训练出检测器。高达50%的误差也提高了分类器性能［黑色］，更高的误差劣化分类器［红色］）。注意，当$\epsilon<0.5$时，检测器的性能随着更多的训练数据而提升。在$\epsilon=0.5$时，虽然该视频中性能有提升，但通常会得到不稳定的结果。增加噪声等级会进一步导致分类器性能骤然恶化。这些结果符合P-N学习理论。

4.4 真实专家的设计

本节利用P-N学习，从标注的一帧和视频流训练目标检测器。检测器由一个二分类器和扫描窗口构成，训练样本就是图像块。标注的样本$X_l$从标注的帧中提取。未标注的样本$X_u$从视频流中提取。

P-N学习通过称之为初始检测器（inital detector）的监督训练初始化。在每帧，P-N学习执行以下步骤：

在当前帧评估检测器；
通过P-N专家估计检测器误差；
通过专家输出的标注样本更新检测器。

在学习结束时得到的检测器称之为最终检测器（final detector）。

Illustration of a scanning grid and corresponding volume of labels.

图 6：扫描网格和相应的标签序列。红点对应着正标签。

上图(a)展示了视频流中扫描网格覆盖的3帧。网格中的每个边界框确定一个图像块，它的标签由上图(b,c)中的彩色点表示（红点表示正标签）。每个基于扫描窗口的检测器都认为图像块是独立的。因此，单一帧中存在$2^N$个可能的标签组合，其中$N$是网格中边界框的数目。上图(b)展示了一种标记方式。标记表明目标在单一帧中出现在了几个位置，并且运动在时间上不连续。如此标记方式不大可能正确。另一方面，如果检测器输出结果如上图(c)所示，由于目标在每帧中出现在一个位置，并且检测到的位置按时间构成了轨迹，这种标记方式是合理的。也就是说，块的标签是相关的。我们将该属性称为结构（structure）。P-N专家的核心思想是利用数据中的结构确定检测器的误差。

P专家利用视频中的时间结构，认为目标沿轨迹运动。P专家记住了目标在前一帧的位置，利用帧到帧的跟踪器估计当前帧目标的位置。若检测器将当前位置标记为负（也就是，犯了弃真错误），P专家生产一个正样本。

N专家利用视频中的空间结构，认为目标只能出现在一个位置。N专家分析当前帧检测器的所有响应、跟踪器的响应，选出最可信的一个位置。那些与最可信块不重叠的块标记为负。最可信块重新初始化跟踪器的位置。

Illustration of the examples output by the P-N experts.

图 7：P-N专家的输出示例。第三行展示了误差补偿。

上图展示了一个三帧的序列，被学习的目标是黄色边界框中的车辆。车辆一帧接一帧地被跟踪。跟踪器表示了P专家输出正的训练样本。注意，由于目标的遮挡，P专家在$t+2$时刻输出了错误的正样本。N专家确定最可信的块（图中红星标注），并将其它检测结果标注为负。注意，N专家不仅将另一车辆区分开了，此外还纠正了P专家在$t+2$时刻犯的错（第3行展示了误差补偿）。

5 TLD的实现

5.1 预备知识

5.2 目标模型

5.3 目标检测器

5.4 跟踪器

5.5 集成器

5.6 学习模块

6 量化评估

6.1 对比之一：CoGD

6.2 对比之二：Prost

6.3 TLD数据库

6.4 目标检测器的提升

6.5 对比之三：TLD数据库

Snapshots from the introduced TLD dataset.

图 12：所介绍的TLD数据集快照

结论

局限性与工作展望

致谢

参考资料

[1]Z. Kalal, K. Mikolajczyk, and J. Matas, “Tracking-learning-detection,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 7, pp. 1409–1422, 2012.
[2]A. Blum and T. Mitchell, “Combining labeled and unlabeled data with co-training,” in Proceedings of the eleventh annual conference on Computational learning theory, 1998, pp. 92–100.
[3]B. D. Lucas, T. Kanade, and others, “An iterative image registration technique with an application to stereo vision,” in IJCAI, 1981, vol. 81, pp. 674–679.
[4]J. Shi and C. Tomasi, “Good features to track,” in Computer Vision and Pattern Recognition, 1994. Proceedings CVPR’94., 1994 IEEE Computer Society Conference on, 1994, pp. 593–600.
[5]P. Sand and S. Teller, “Particle video: Long-range motion estimation using point trajectories,” International Journal of Computer Vision, vol. 80, no. 1, pp. 72–91, 2008.
[6]L. Wang, W. Hu, and T. Tan, “Recent developments in human motion analysis,” Pattern recognition, vol. 36, no. 3, pp. 585–601, 2003.
[7]D. Ramanan, D. A. Forsyth, and A. Zisserman, “Tracking people by learning their appearance,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 29, no. 1, pp. 65–81, 2007.
[8]P. Buehler, M. Everingham, D. P. Huttenlocher, and A. Zisserman, “Long term arm and hand tracking for continuous sign language TV broadcasts,” in Proceedings of the 19th British Machine Vision Conference, 2008, pp. 1105–1114.
[9]S. Birchfield, “Elliptical head tracking using intensity gradients and color histograms,” in Computer Vision and Pattern Recognition, 1998. Proceedings. 1998 IEEE Computer Society Conference on, 1998, pp. 232–237.
[10]M. Isard and A. Blake, “Condensation—conditional density propagation for visual tracking,” International journal of computer vision, vol. 29, no. 1, pp. 5–28, 1998.
[11]C. Bibby and I. Reid, “Robust real-time visual tracking using pixel-wise posteriors,” in Computer Vision–ECCV 2008, Springer, 2008, pp. 831–844.
[12]C. Bibby and I. Reid, “Real-time tracking of multiple occluding objects using level sets,” in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010, pp. 1307–1314.
[13]B. K. Horn and B. G. Schunck, “Determining optical flow,” in 1981 Technical Symposium East, 1981, pp. 319–331.
[14]T. Brox, A. Bruhn, N. Papenberg, and J. Weickert, “High accuracy optical flow estimation based on a theory for warping,” in Computer Vision-ECCV 2004, Springer, 2004, pp. 25–36.
[15]J. L. Barron, D. J. Fleet, and S. S. Beauchemin, “Performance of optical flow techniques,” International journal of computer vision, vol. 12, no. 1, pp. 43–77, 1994.
[16]D. Comaniciu, V. Ramesh, and P. Meer, “Kernel-based object tracking,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 25, no. 5, pp. 564–577, 2003.
[17]I. Matthews, T. Ishikawa, and S. Baker, “The template update problem,” IEEE transactions on pattern analysis and machine intelligence, vol. 26, no. 6, pp. 810–815, 2004.
[18]N. D. H. Dowson and R. Bowden, “Simultaneous modeling and tracking (smat) of feature sets,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 2005, vol. 2, pp. 99–105.
[19]A. Rahimi, L.-P. Morency, and T. Darrell, “Reducing drift in differential tracking,” Computer Vision and Image Understanding, vol. 109, no. 2, pp. 97–111, 2008.
[20]A. D. Jepson, D. J. Fleet, and T. F. El-Maraghi, “Robust online appearance models for visual tracking,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 25, no. 10, pp. 1296–1311, 2003.
[21]A. Adam, E. Rivlin, and I. Shimshoni, “Robust fragments-based tracking using the integral histogram,” in Computer vision and pattern recognition, 2006 IEEE Computer Society Conference on, 2006, vol. 1, pp. 798–805.
[22]M. J. Black and A. D. Jepson, “Eigentracking: Robust matching and tracking of articulated objects using a view-based representation,” International Journal of Computer Vision, vol. 26, no. 1, pp. 63–84, 1998.
[23]D. A. Ross, J. Lim, R.-S. Lin, and M.-H. Yang, “Incremental learning for robust visual tracking,” International Journal of Computer Vision, vol. 77, no. 1-3, pp. 125–141, 2008.
[24]J. Kwon and K. M. Lee, “Visual tracking decomposition,” in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010, pp. 1269–1276.
[25]M. Yang, Y. Wu, and G. Hua, “Context-aware visual tracking,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 31, no. 7, pp. 1195–1209, 2009.
[26]H. Grabner, J. Matas, L. Van Gool, and P. Cattin, “Tracking the invisible: Learning where the object might be,” in Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, 2010, pp. 1285–1292.
[27]S. Avidan, “Support vector tracking,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 26, no. 8, pp. 1064–1072, 2004.
[28]R. T. Collins, Y. Liu, and M. Leordeanu, “Online selection of discriminative tracking features,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 27, no. 10, pp. 1631–1643, 2005.
[29]S. Avidan, “Ensemble tracking,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 29, no. 2, pp. 261–271, 2007.
[30]H. Grabner and H. Bischof, “On-line boosting and vision,” in Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 2006, vol. 1, pp. 260–267.
[31]B. Babenko, M.-H. Yang, and S. Belongie, “Visual tracking with online multiple instance learning,” in Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, 2009, pp. 983–990.
[32]H. Grabner, C. Leistner, and H. Bischof, “Semi-supervised on-line boosting for robust tracking,” in Computer Vision–ECCV 2008, Springer, 2008, pp. 234–247.
[33]F. Tang, S. Brennan, Q. Zhao, and H. Tao, “Co-tracking using semi-supervised support vector machines,” in Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on, 2007, pp. 1–8.
[34]Q. Yu, T. B. Dinh, and G. Medioni, “Online tracking and reacquisition using co-trained generative and discriminative trackers,” in Computer Vision–ECCV 2008, Springer, 2008, pp. 678–691.
[35]D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International journal of computer vision, vol. 60, no. 2, pp. 91–110, 2004.
[36]P. Viola and M. Jones, “Rapid object detection using a boosted cascade of simple features,” in Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, 2001, vol. 1, pp. I–511.
[37]V. Lepetit, P. Lagger, and P. Fua, “Randomized trees for real-time keypoint recognition,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 2005, vol. 2, pp. 775–781.
[38]L. Vacchetti, V. Lepetit, and P. Fua, “Stable real-time 3d tracking using online and offline information,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 26, no. 10, pp. 1385–1391, 2004.
[39]S. Taylor and T. Drummond, “Multiple target localisation at over 100 fps,” 2009.
[40]J. Pilet and H. Saito, “Virtually augmenting hundreds of real pictures: An approach based on learning, retrieval, and tracking,” in Virtual Reality Conference (VR), 2010 IEEE, 2010, pp. 71–78.
[41]S. Obdrzalek and J. Matas, “Sub-linear Indexing for Large Scale Object Recognition.,” in BMVC, 2005, pp. 1–10.
[42]S. Hinterstoisser, O. Kutter, N. Navab, P. Fua, and V. Lepetit, “Real-time learning of accurate patch rectification,” in Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, 2009, pp. 2945–2952.
[43]O. Chapelle, B. Schölkopf, A. Zien, and others, Semi-supervised learning. MIT press Cambridge, 2006.
[44]X. Zhu and A. B. Goldberg, “Introduction to semi-supervised learning,” Synthesis lectures on artificial intelligence and machine learning, vol. 3, no. 1, pp. 1–130, 2009.
[45]K. Nigam, A. K. McCallum, S. Thrun, and T. Mitchell, “Text classification from labeled and unlabeled documents using EM,” Machine learning, vol. 39, no. 2-3, pp. 103–134, 2000.
[46]R. Fergus, P. Perona, and A. Zisserman, “Object class recognition by unsupervised scale-invariant learning,” in Computer Vision and Pattern Recognition, 2003. Proceedings. 2003 IEEE Computer Society Conference on, 2003, vol. 2, pp. II–264.
[47]C. Rosenberg, M. Hebert, and H. Schneiderman, “Semi-supervised self-training of object detection models,” 2005.
[48]N. Poh, R. Wong, J. Kittler, and F. Roli, “Challenges and research directions for adaptive biometric recognition systems,” in Advances in Biometrics, Springer, 2009, pp. 753–764.
[49]A. Levin, P. Viola, and Y. Freund, “Unsupervised improvement of visual detectors using cotraining,” in Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, 2003, pp. 626–633.
[50]O. Javed, S. Ali, and M. Shah, “Online detection and classification of moving objects using progressively improving detectors,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, 2005, vol. 1, pp. 696–701.
[51]O. Williams, A. Blake, and R. Cipolla, “Sparse bayesian learning for efficient visual tracking,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 27, no. 8, pp. 1292–1304, 2005.
[52]Y. Li, H. Ai, T. Yamashita, S. Lao, and M. Kawade, “Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 30, no. 10, pp. 1728–1740, 2008.
[53]K. Okuma, A. Taleghani, N. De Freitas, J. J. Little, and D. G. Lowe, “A boosted particle filter: Multitarget detection and tracking,” in Computer Vision-ECCV 2004, Springer, 2004, pp. 28–39.
[54]B. Leibe, K. Schindler, and L. Van Gool, “Coupled detection and trajectory estimation for multi-object tracking,” in Computer Vision, 2007. ICCV 2007. IEEE 11th International Conference on, 2007, pp. 1–8.
[55]M. D. Breitenstein, F. Reichlin, B. Leibe, E. Koller-Meier, and L. Van Gool, “Robust tracking-by-detection using a detector confidence particle filter,” in Computer Vision, 2009 IEEE 12th International Conference on, 2009, pp. 1515–1522.
[56]K.-K. Sung and T. Poggio, “Example-based learning for view-based human face detection,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 20, no. 1, pp. 39–51, 1998.
[57]K. Zhou, J. C. Doyle, K. Glover, and others, Robust and optimal control, vol. 40. Prentice hall New Jersey, 1996.
[58]K. Ogata, Modern control engineering. Prentice-Hall Englewood Cliffs, 2009.