# Tracking-Learning-Detection

## 1 引言

1. 处理任意复杂的视频流，其中跟踪失败频繁；
2. 若视频不包含相关信息，也从不劣化检测器；
3. 操作的时实性。

## 2 相关工作

### 2.1 目标跟踪

• 第一种，在环境中搜寻支持目标（supporting object），通过感兴趣的目标（object of interest）校正其运动[25][26]。当感兴趣的目标从摄像机视野中消失或经历复杂的变化时，这些支持目标对跟踪有帮助。
• 第二种，环境被当成跟踪器应区别开的负类（negative class）。

## 3 跟踪－学习－检测

TLD是一种针对视频流中长效跟踪未知目标的框架。它的框图如上图所示。该框架模块具有的特点如下：

• 跟踪器基于帧与帧之间的运动有限且目标可见的假设，估计连续帧之间目标的运动。如果目标跑出摄像机视野，跟踪器可能失败且不可恢复。
• 检测器认为每帧都是独立的，进行全图扫描，定位过去已发现过和学习过的全部目标。与其它任何检测器一样，检测器会犯两种错误：纳伪（false positive）和弃真（false negative）。
• 学习过程关注跟踪器和检测器的性能，估计检测器的误差，生成训练样本以避免未来犯这些错误。学习模块认为跟踪器和检测器都可能失败。凭借学习过程，检测器推广到更多的目标外观，同时区分背景。

## 4 P-N学习

### 4.1 形式化

1. 需要学习的分类器；
2. 训练集——标注的训练样本集合；
3. 监督训练——从训练集训练分类器的方法；
4. P-N专家——在训练过程中产生正负训练样本的函数。

P-N学习的关键部分是估计分类器误差。其核心思想是将估计纳伪和估计弃真分开。由于这个原因，未标注集通过目前分类结果被分为两部分，每部分由独立的专家分析：

• P专家分析分类为负的样本，估计弃真的样本并将它们按正标签加入训练集。在第$k$轮迭代中，P专家输出$n^+(k)$个正样本。
• N专家分析分类为正的样本，估计纳伪的样本并将它们按负标签加入训练集。在第$k$轮迭代中，N专家输出$n^-(k)$个负样本。

P专家增强分类器的泛化力（generality）。N专家增强分类器的辨别力（discriminability）。

### 4.2 稳定性

\begin{align} \label{eq:1a} \alpha(k+1) &= \alpha(k)-n_c^-(k)+n_f^+(k)\\ \label{eq:1b} \beta(k+1) &= \beta(k)-n_c^+(k)+n_f^-(k)。 \end{align}

1. P精度——正标签的可靠性，也就是，正确的正样本数量除以P专家输出的所有正样本数量，$P^+=n_c^+/\left(n_c^++n_f^+\right)$。
2. P召回率——认定为弃真的误差所占百分比，也就是，正确的正样本数量除以分类器输出的所有弃真的样本数量，$R^+=n_c^+/\beta$。
3. N精度——负标签的可靠性，也就是，正确的负样本数量除以N专家输出的所有负样本数量，$P^-=n_c^-/\left(n_c^-+n_f^-\right)$。
4. N召回率——识别为纳伪的误差所占百分比，也就是，正确的负样本数量除以分类器输出的所有纳伪的样本数量，$R^-=n_c^-/\alpha$。

\begin{align} \label{eq:2a} n_c^+ = R^+\beta(k),\quad &n_f^+(k)={(1-P^+)\over P^+}R^+\beta(k) \\ \label{eq:2b} n_c^- = R^-\alpha(k),\quad &n_f^-(k)={(1-P^-)\over P^-}R^-\alpha(k)。 \end{align}

\begin{align} \label{eq:3a} \alpha(k+1) &= (1-R^-)\alpha(k)+{(1-P^+)\over P^+}R^+\beta(k) \\ \label{eq:3b} \beta(k+1) &= {(1-P^-)\over P^-}R^-\alpha(k)+(1-R^+)\beta(k)。 \end{align}

\end{bmatrix}

$$\vec{x}(k+1)=\mathbf M\vec{x}(k)。$$

### 4.3 仿真专家的试验

P-N专家通过4个质量度量刻画，$P^+$、$R^+$、$P^-$和$R^-$。为了约简该四维空间，参数设置为$P^+=R^+=P^-=R^-=1-\epsilon$，其中$\epsilon$表示专家的误差。转移矩阵变为了$\mathbf M=\epsilon\mathbf 1$，其中$\mathbf 1$是所有元素为$1$的$2\times 2$矩阵。该矩阵的特征值$\lambda_1=0$、$\lambda_2=2\epsilon$。因此，当$\epsilon<0.5$时，P-N学习将提升性能。误差在$\epsilon=0:0.9$范围内变动。

### 4.4 真实专家的设计

P-N学习通过称之为初始检测器（inital detector）的监督训练初始化。在每帧，P-N学习执行以下步骤：

1. 在当前帧评估检测器；
2. 通过P-N专家估计检测器误差；
3. 通过专家输出的标注样本更新检测器。

P专家利用视频中的时间结构，认为目标沿轨迹运动。P专家记住了目标在前一帧的位置，利用帧到帧的跟踪器估计当前帧目标的位置。若检测器将当前位置标记为负（也就是，犯了弃真错误），P专家生产一个正样本。

N专家利用视频中的空间结构，认为目标只能出现在一个位置。N专家分析当前帧检测器的所有响应、跟踪器的响应，选出最可信的一个位置。那些与最可信块不重叠的块标记为负。最可信块重新初始化跟踪器的位置。

