无先验候选框的人头检测算法

第一章绪论

1.1研究背景和意义

近年来，人工智能与计算机视觉技术作为人工智能领域中的重要一部分，已取得了较大的进步。计算机视觉的目标是为了让机器和人类一样拥有视觉，对目标进行跟踪、识别、分析、处理。计算机视觉技术源于80年代的神经网络技术，而近两年的发展真正地实现大规模商业化落地，背后驱动这项人工智能技术的突飞猛进源于芯片技术发展带来的计算能力指数级提升，互联网和物联网技术发展提供了海量的数据，深度学习技术开源推动算法的快速工程化与迭代升级。

目标检测是计算机视觉和数字图像处理的一个重要分支，广泛应用于航空航天、工业检测、智能视频监控、机器人导航等领域，通过减少对人力资本的消耗提高生产力，具有重要的现实意义。因此，目标检测也就成为了近年来计算机视觉理论和应用的研究热点，是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展。

2019年末爆发的新型冠状病毒在全球蔓延，人群越密集，传播越严重。避免人群聚集是隔离病毒的有效手段。同样，国内外的大型活动中频发严重踩踏事件，如2015年上海外滩踩踏事件，已达到了我国规定的重大伤亡事故级别。热门景区、车站，公共交通和室内人群密集场景如图1.1所示。

图1.1（图）人群密集场景

因此，人群计数问题的研究也越来越紧迫，若能通过技术准确估计当前场景的人群密度，并安排相应的安保措施，可以有效减少或避免此类事件的发生。实时密集人群检测技术是预警防控领域的一项重要技术，也是计算机视觉目标检测技术的重要应用。

传统的检测算法在人群检测与计数方面仍有不足。早期的人群研究主要聚焦于基于检测的方法。^[1]使用一个滑动窗口检测器来检测场景中人群，并统计相应的人数。基于检测的方法主要分为两大类，一种是基于整体的检测，另一种是基于部分身体的检测。基于整体的检测方法 ^[2,3,4,5]，是典型的传统方法，主要训练一个分类器，利用从行人全身提取的小波，HOG，边缘等特征去检测行人。主要学习算法有SVM, boosting和随机森林等方法。基于整体检测的方法主要适用于稀疏的人群计数，随着人群密度的提升，人与人之间的遮挡变得越来越严重。所以，基于部分身体检测的方法，也被用来处理人群计数问题 ^{[6, 7]} 。它主要通过检测身体的部分结构，例如头，肩膀等去统计人群的数量。这种方法比基于整体的检测方法在效果上有略微的提升。基于身体特征检测的算法，没有将人的总数信息考虑进去，且很难处理人群之间严重的遮挡问题。

基于回归的方法逐渐被用来解决人群计数的问题。基于回归的方法，主要思想是通过学习一种特征到人群数量的映射^{[8, 9, 10]}。这类方法步骤主要分为两步，第一步提取低级的特征，例如前景特征，边缘特征，纹理和梯度特征；第二步是学习一个回归模型，例如线性回归，分段线性回归，岭回归和高斯过程回归等方法学习一个低级特征到人群数的映射关系。但是由于其检测步骤过多，导致其检测速度相对较慢，最多只能达到接近实时的速度。

不同于传统的基于检测和回归的方法，对于图像中密集人群区域，利用预测密度图(Density Map)的方法得到了更好的预测结果。由于图像中人群密度分布极不均匀，研究人员利用多阵列(Multi-Column)的卷积神经网络(Convolutional Neural Network，CNN)来实现提取不同尺度的人头特征。基于人群密度的检测算法不能提供每个行人的位置和大小信息

基于先验候选框的检测算法，为了更好地匹配每个位置多个尺度的目标物体，需要在图片中预设大量的先验候选框，并且需要根据实验对这些候选框的宽高比、尺度等超参数进行大量的实验来得到最优的组合参数。大量先验候选框的计算，需要GPU等高能耗的硬件设施来运行，不能应用于实时监测。

因此本文选用了无候选框的检测算法将目标检测问题变成了关键点估计问题。基于关键点检测，它分为两类：基于角点（corner）的方法和基于中心（center）的方法。Law 和 Deng 提出 CornerNet^[12]是基于关键点检测中的经典架构，它会预测左上角和右下角的热图，并用特征嵌入将其合在。但CornerNet还需要经过一个关键点grouping阶段，这会降低算法整体速度，无法做到实时。CenterNet^[13]后续结合了中心点和角点，仅提取每个目标的中心点，无需后处理。CenterNet网络模型设计简化，运行速度较高，因此大幅度提升了性能，满足了实时性的要求。

以CenterNet的基于关键点的人头检测算法，能够精简网络结构，降低设备要求且达到理想的速度，最后结合人数信息对检测结果进行一些调整，完成检测并得到计数结果。

1.2主要难点与工作

在研究人群检测的实际检测场景中（如图1.2所示），无论是提取多尺度特征还是逐步细化密度图，目前最困难的问题仍然是1）在人群密集的区域，如何让模型更精细的区分出人的特征（如人头重叠）；2）如何教会模型“聚焦”，即在一幅人群密度分布广泛的图像中对较小尺度的局部特征能“看”得更清晰；3）计算成本大，运算设备要求高，无法满足实时性需求。

图1.2（略）人流密集场景-大学课堂教室

在监控系统中，摄像头的位置普遍较高，一般都是对监控区域由上向下进行拍摄，获得的人头形状是类圆形。人头类圆形状、颜色单一等特征，相对人体其他部分比较固定，并且发生遮挡可能性较小，所以本文采用人头检测技术应用到人数统计中。
针对当前检测算法对尺寸相对较小物体和遮挡情况严重，检测精度低和算法计算成本大的问题，本文的算法以CenterNet的基于关键点的人头检测为主，结合人数信息对检测结果进行一些调整，并通过轻量化的网络使得在CPU上依然保持较快的速度。

1.3论文结构

本文提出的无先验候选框的人头检测算法将通过五章进行详细的阐述，各章的组织安排如下：

第一章是绪论部分。本章主要介绍了近年来计算机视觉中对目标检测算法的迫切需求和研究意义，简述了现有的检测算法的核心思想，另外列举了包括理论研究和实际应用中的主要难点。同时，简要地总结了本篇论文的主要创新点和研究成果。最后的小节说明了本论文的全局章节安排。

第二章首先简单回顾了深度学习CNN网络，然后重点分析介绍了一些具有代表性的目标检测算法及相关内容，分别介绍了滑动窗口、区域深度卷积网络和端到端神经网络等目标检测思想的实现细节。

第三章详细叙述本文提出以CenterNet的基于关键点的无先验候选框的人头检测算法方法。为了解决实时性问题，结合人数信息对检测结果进行一些调整，并轻量化网络结构。

第四章首先介绍了学术界常用的测试算法性能的公共数据集，然后在目标检测常用的数据集和进行了验证实验。最终在检测准确率和速度几乎不受影响的情况下，大幅度地提高了检测精度。最后，利用目标检测算法分析工具全面地分析本文所提出检测算法的优点和不足。

第五章是总结与未来工作。本章总结了所提出的一系列新方法，并根据前文对的这些新方法的详细分析，提出了未来进一步工作的预期规划方案。

第二章相关算法

2.1深度学习CNN网络

近年来，神经网络的深度和神经元的复杂度随着算法的进步而不断增加^[¹⁵^]，提取的特征也更加鲁棒。其它的改进方法，如：新的激活函数^[¹⁶^]、批量归一化^[¹⁷^]、改进神经元^[¹⁸^]等，进一步提高了网络的泛化能力。

卷积神经网络（Convolutional Neural Network，CNN）是一种前馈型的神经网络，其在大型图像处理方面有出色的表现，目前已经被大范围使用到图像分类、定位等领域中。相比于其他神经网络结构，卷积神经网络需要的参数相对较少，使的其能够广泛应用。卷积神经网络是目前深度学习技术领域中非常具有代表性的神经网络之一，在图像分析和处理领域取得了众多突破性的进展，在学术界常用的标准图像标注集ImageNet上，基于卷积神经网络取得了很多成就，包括图像特征提取分类、场景识别等。卷积神经网络相较于传统的图像处理算法的优点之一在于避免了对图像复杂的前期预处理过程，尤其是人工参与图像预处理过程，卷积神经网络可以直接输入原始图像进行一系列工作，至今己经广泛应用于各类图像相关的应用中。

接下来，本文简单介绍几个神经网络框架，包括AlexNet^[19]、VGG^[20]、RestNet^[21]和MobileNet^[22]。

2.1.1AlexNet

随着技术的进步和发展，计算机的算力越来越强大，尤其是在GPU并行计算能力的推动下，复杂神经网络的计算也变得更加容易实施。另一方面，互联网上涌现出越来越多的数据，极大的丰富了数据库。同时也有越来越多的研究人员开始专门针对神经网络做算法和模型的优化，Alex Krizhevsky等人在2012年提出了AlexNet，并应用在大尺寸图片数据集ImageNet上，获得了2012年ImageNet比赛冠军(ImageNet Large Scale Visual Recognition Challenge，ILSVRC）。这一成果极大的激发了业界对神经网络的兴趣，开创了使用深度神经网络解决图像问题的途径，随后也在这一领域涌现出越来越多的优秀工作。

图 2.1（略） AlexNet网络结构

AlexNet是在LeNet的基础上加深了网络的结构，如图2.4所示，学习更丰富更高维的图像特征。AlexNet的特点：

更深的网络结构
使用层叠的卷积层，即卷积层+卷积层+池化层来提取图像的特征
使用Dropout抑制过拟合
使用数据增强Data Augmentation抑制过拟合
使用Relu替换之前的sigmoid的作为激活函数
多GPU训练

2.1.2VGG

Simonyan和Zisserman于2014年提出了VGG网络结构，是当前最流行的卷积神经网络之一，由于其结构简单、应用性极强而深受广受研究者欢迎。该网络是在ILSVRC 2014上的相关工作，主要工作是证明了增加网络的深度能够在一定程度上影响网络最终的性能。VGG有两种结构，分别是VGG16和VGG19，两者并没有本质上的区别，只是网络深度不一样。

VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，7x7，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。

在VGG中，使用了3个3x3卷积核来代替7x7卷积核，使用了2个3x3卷积核来代替5*5卷积核，这样做的主要目的是在保证具有相同感知野的条件下，提升了网络的深度，在一定程度上提升了神经网络的效果。

VGG网络结构如下图2.2所示,与AlexNet网络相比，VGG网络在池化层之间叠加了更多的卷积层。

图2.2（略） VGG网络结构

2.1.3ResNet

ResNet（Residual Neural Network）在2015年由微软研究院的Kaiming He等人提出，通过使用ResNet Unit成功训练出了152层的神经网络，并在ILSVRC2015比赛中取得冠军，在top5上的错误率为3.57%，同时参数量比VGGNet低，效果非常突出。ResNet的结构可以极快的加速神经网络的训练，模型的准确率也有比较大的提升。同时ResNet的推广性非常好，可以直接用于InceptionNet网络。

ResNet的主要思想是在网络中增加了直连通道，即Highway Network的思想。此前的网络结构是性能输入做一个非线性变换，而Highway Network则允许保留之前网络层的一定比例的输出。ResNet的思想和Highway Network的思想也非常类似，允许原始输入信息直接传到后面的层中，如图2.3所示。

图2.3（略） ResNet的残差模块

这一层的神经网络可以不用学习整个的输出，而是学习上一个网络输出的残差，因此ResNet又叫做残差网络。

传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练。ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。

2.1.4MobileNet

在实际中应用CNN受限于硬件运算能力与存储（比如几乎不可能在ARM芯片上跑ResNet-152），而MobileNet能在算法层面有效的压缩存储和计算量的方法。

Mobilenet是Google于2017年发布的网络架构，旨在充分利用移动设备和嵌入式应用的有限的资源，有效地最大化模型的准确性，以满足有限资源下的各种应用案例。Mobilenet也可以像其他流行模型（如VGG，ResNet）一样用于分类、检测、嵌入和分割等任务提取图像卷积特征。

MobileNet引入了传统网络中原先采用的group思想，即限制滤波器的卷积计算只针对特定的group中的输入，从而大大降低了卷积计算量，提升了移动端前向计算的速度。Mobilenet核心是把卷积拆分为Depthwise和Pointwise两部分,其结构如图2.4所示。

图2.4（略） MobileNet网络结构

MobileNet的卷积单元如上图所示，每个卷积操作后都接着一个BN操作和ReLU操作。在MobileNet中，由于3x3卷积核只应用在depthwise convolution中，因此95%的计算量都集中在pointwise convolution 中的1x1卷积中。而对于caffe等采用矩阵运算GEMM实现卷积的深度学习框架，1x1卷积无需进行im2col操作，因此可以直接利用矩阵运算加速库进行快速计算，从而提升了计算效率。

图2.5（略） MobileNet模型架构

2.2目标检测方法

目标检测算法经历了很长的发展历程，其中有许多经典算法在实际应用中得到了广泛的应用。检测算法的发展过程可以分为三个阶段：滑动窗口、区域卷积网络、端到端网络。接下来的章节我们将介绍每个阶段的具体算法。

2.2.1滑动窗口

滑动窗口方法是传统目标检测方法中最知名的方法之一。由于其计算方式简单，得到了很广泛的应用。传统的滑动窗口方法基本流程如下：

使用不同尺度的滑动窗口在图像上滑动，窗口所在位置作为预选区域；

从当前预选区域图像上提取如Haar、HOG、LBP^[xx]等一类或者多类特征；

使用Adaboost^[XX]或SVM 等分类算法对该预选区域进行分类，判断是否包含感兴趣的目标物体。

最典型的滑动窗口算法是Deformable Part Model（DPM）算法。DPM算法是一个非常成功的算法，曾经连续赢得PASCAL VOC 07、08、09年的冠军。DPM算法是一种基于HOG特征的检测算法的拓展方法，主体思路基本保持一致。DPM算法的主要思想如下：

物体都是由不同的部分组成的，由于物体的各种姿态、外观等外界因素导致物体整体的视觉效果不一样，但是大部分的梯度变化实际上不大，因此可以训练针对不同部分的检测模块；

一个物体中，不同的部分之间实际上是存在天然的拓扑结构的关系，比如人的脑袋大部分情况都位于身体的上面，车轮大部分情况下都在地面上等等。这些不同的部分之间的距离和位置关系符合标准的分布；

有了各个部件和相互之间的位置关系，就可以将不同的位置关系对目标物体的贡献转化为一个权重，最后由加权和判断该窗口是否包含需要检测的目标。

首先计算窗口的DPM特征，提取方法见2.3.3节。然后训练SVM得到物体的梯度模型。对于每个预选区域，用训练好的梯度模型进行匹配。如果梯度模型与区域匹配，则认为当前区域包含目标物体。若不匹配则窗口滑动到下一个位置。

2.2.2基于候选框算法

两阶段（2-stage）检测模型

两阶段模型因其对图片的两阶段处理得名，也称为基于区域（Region-based）的方法。主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；

RCNN

传统的计算机视觉方法常用精心设计的手工特征(如SIFT, HOG)描述图像，而深度学习的方法则倡导习得特征，从图像分类任务的经验来看，CNN网络自动习得的特征取得的效果已经超出了手工设计的特征。本篇在局部区域应用卷积网络，以发挥卷积网络学习高质量特征的能力。

图2.6（略） R-CNN网络结构

R-CNN将检测抽象为两个过程，一是基于图片提出若干可能包含物体的区域（即图片的局部裁剪，被称为Region Proposal），文中使用的是Selective Search算法；二是在提出的这些区域上运行当时表现最好的分类网络（AlexNet），得到每个区域内物体的类别。R-CNN将检测任务转化为区域上的分类任务，是深度学习方法在检测任务上的试水。但模型本身存在的问题也很多，如需要训练三个不同的模型（proposal, classification, regression）、重复计算过多导致的性能问题等。

Faster-RCNN

R-CNN是Faster R-CNN的启发版本，采用 Selective Search算法来提取(propose)可能的 RoIs(regions of interest) 区域，然后对每个提取区域采用标准 CNN 进行分类。

2015年提出的Fast R-CNN是R-CNN的改进，其采用兴趣区域池化(Region of Interest Pooling，RoI Pooling) 来共享计算量较大的部分，提高模型的效率，是第一个完全可微分的模型，如图2.7所示。Faster R-CNN是2-stage方法的奠基性工作，提出的RPN网络取代

Selective Search算法使得检测任务可以由神经网络端到端地完成。Faster R-CNN跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，而在精度方面达到最佳。

图2.7 （略）Faster R-CNN 结构

Faster R-CNN 第一步是采用基于分类任务的 CNN 模型作为特征提取器。Faster R-CNN 最早是采用在 ImageNet训练的ZF和VGG，其后出现了很多其它权重不同的网络。Faster R-CNN的成功之处在于用RPN网络完成了检测任务的"深度化"。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用（YOLO v2等）。这项工作奠定了"RPN+RCNN"的两阶段方法元结构，影响了大部分后续工作。

单阶段（1-stage）检测模型

其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快，但是均匀的密集采样的一个重要缺点是训练比较困难，这主要是因为正样本与负样本（背景）极其不均衡（参见Focal Loss），导致模型准确度稍低。

YOLO

YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。YOLO的主要优点是快，且全局处理使得背景错误相对少，相比基于局部（区域）的方法，如Fast RCNN。
泛化性能好，在艺术作品上做检测时，YOLO表现比Fast R-CNN好。

图2.8（略） YOLO网络结构

YOLO的工作流程如下：

1.准备数据：将图片缩放，划分为等分的网格，每个网格按跟Ground Truth的IoU分配到所要预测的样本。

2.卷积网络：由GoogLeNet更改而来，每个网格对每个类别预测一个条件概率值，并在网格基础上生成B个box，每个box预测五个回归值，四个表征位置，第五个表征这个box含有物体（注意不是某一类物体）的概率和位置的准确程度（由IoU表示）。测试时，分数计算如下图

2.9所示：

图2.9（略） YOLO卷积网络不同类别的分数计算

等式左边第一项由网格预测，后两项由每个box预测，以条件概率的方式得到每个box含有不同类别物体的分数。因而，卷积网络共输出的预测值个数为S×S×(B×5+C)，其中S为网格数，B为每个网格生成box个数，C为类别数。

3.后处理：使用NMS（Non-Maximum Suppression，非极大抑制）过滤得到最后的预测框。

YOLO提出了单阶段的新思路，相比两阶段方法，其速度优势明显，实时的特性令人印象深刻。但YOLO本身也存在一些问题，如划分网格较为粗糙，每个网格生成的box个数等限制了对小尺度物体和相近物体的检测。

SSD

SSD是单阶段模型早期的集大成者，达到跟接近两阶段模型精度的同时，拥有比两阶段模型快一个数量级的速度。后续的单阶段模型工作大多基于SSD改进展开。

SSD和Yolo一样都是采用一个CNN网络来进行检测，但是却采用了多尺度的特征图，其基本架构如图2.10所示。SSD核心设计理念总结为以下三点：

图2.10 （略）SSD基本框架

（1）采用多尺度特征图用于检测

所谓多尺度采用大小不同的特征图，CNN网络一般前面的特征图比较大，后面会逐渐采用stride=2的卷积或者pool来降低特征图大小，这正如图3所示，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标，如图4所示，8x8的特征图可以划分更多的单元，但是其每个单元的先验框尺度比较小。

图2.11（略）不同尺度的特征图

（2）采用卷积进行检测

与Yolo最后采用全连接层不同，SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状为m*n*p 的特征图，只需要采用 3*3*p 这样比较小的卷积核得到检测值。

（3）设置先验框

在Yolo中，每个单元预测多个边界框，但是其都是相对这个单元本身（正方块），但是真实目标的形状是多变的，Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念，每个单元设置尺度或者长宽比不同的先验框，预测的边界框（bounding boxes）是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异，如图5所示，可以看到每个单元使用了4个不同的先验框，图片中猫和狗分别采用最适合它们形状的先验框来进行训练，后面会详细讲解训练过程中的先验框匹配原则。

2.2.3无先验候选框的算法

基于关键点检测，它分为两类：基于角点（corner）的方法和基于中心（center）的方法。基于角点的方法通过合并从特征图中学得的角点对，来预测边界框。这种算法无需设计锚点，从而成为生成高质量候选框的更高效方法。Law 和 Deng 提出 CornerNet，直接基于角点建模类别信息。CornerNet 使用新型特征嵌入方法和角点池化层（corner pooling layer）建模左上角点和右下角点的信息，从而准确匹配属于同一对象的关键点。该方法在公开基准上获得了当前最优结果。基于中心的方法在特征图的每个位置上预测它成为对象中心的概率，且在没有锚点先验的情况下直接恢复宽度和高度。Duan 等人提出了 CenterNet，它结合了基于中心的方法和基于角点的方法。CenterNet首先通过角点对预测边界框，然后预测初始预测的中心概率，来筛除易分负样本。相比基线，CenterNet 的性能获得了显著提升。

1.CornerNet

CornerNet利用一对角点（左上角和右下角）来确定目标，算法对目标的边缘信息很敏感，同时不知道哪组角点构成目标，所以经常产生一些错误的bbox，很多错误可以通过简单的补充信息过滤掉（比如宽高比）。考虑到如果bbox与gt有很高的IoU，那么中心区域的关键点的类别与之类别相同的概率会很大，反之亦然。在推理过程中，在将候选区生成为一对角关键点之后，通过检查同一类的中心关键点是否位于其中心区域来确定是否为目标。

2.CenterNet

CenterNet由中科院、牛津大学和华为诺亚方舟实验室联合提出，发展了以CornerNet为代表的基于关键点的目标检测方法。其主要思想在于，利用关键点的三元组（中心点、左上角点和右下角点）来确定一个目标，有效利用了目标内部信息。为了更好地提取中心点和角点特征，作者提出了center pooling和cascade corner pooling。CenterNet在MS COCO数据集上的AP高达47%，大幅领先于其他SOTA算法。

CenterNet使用CornerNet作为baseline。CornerNet生成两个热图：左上角的热图和右下角的热图。热图表示不同类别的关键点的位置，并为每个关键点分配一个信任评分。此外，它还预测每个角点的embedding和offsets。embedding用于识别两个角点是否来自同一个对象。offsets学习将角点从heatmap重新映射到输入图像。为了生成目标的bbox，根据置信得分选取top-k的左上角点和右下角点，利用它们的embedding向量的距离来确定角点对是否来自同一目标（如果距离小于阈值则生成bbox），产生的bbox的置信分是角点对的平均分。

图2.12 CenterNet的网络结构

2.3人群计数方法

在上个章节讨论了传统的人群技术方法，这个小节我们讨论几种深度学习驱动的人群计数方法。不同于传统的基于检测和回归的方法，对于图像中密集人群区域，利用预测密度图(Density Map)的方法得到了更好的预测结果。由于图像中人群密度分布极不均匀，研究人员利用多阵列(Multi-column)的卷积神经网络(Convolutional Neural Network，CNN)来实现提取不同尺度的人头特征。

MCNN(CVPR 2016)如图2.13所示，利用3个具有不同卷积核大小的网络来分别提取人群图像的特征，最后将3个尺度的特征通过1×1卷积来融合。这类利用多个网络的模型具有较多的参数，计算量大，无法进行实时的人群计数预测。而且多阵列的网络并不能如所描述的一般，提取不同的人头特征。有很多低效的分支结构。

图2.13（略） MCNN网络结构

CP-CNN(CVPR 2017)如图2.14所示，通过提取图像的全局和局部语义信息来加强对密度图对约束。图2.14中绿色子网络表示对整张输入图像做特征提取并分类（类别为作者分好的密度等级，即当前输入图像属于哪个密度等级），并将分类结果张成一个与密度特征具有相同高和宽的图像（全局上下文）；蓝色子网络对原图中割出的patch做同样的操作，得到局部上下文。最终将全局和局部上下文特征与原图产生的密度图（黄色部分）在通道维度拼接（concate）。该方法的初衷是为了考虑一幅图像中人群的全局密度和局部密度信息，最后对整个特征做约束，使得网络对任何一张图像都自适应的学到相应密度等级的特征。

图2.14（略） CP-CNN

Switch-CNN(CVPR 2017) 如图2.15所示，同样使用了三个子网络和分类的思想，让不同密度等级的patch通过相应的子网络，则所有patch被更准确地预测，最终，所有patch的准确预测构成了原图准确的人群估计。作者在训练过程中用到了预训练的技术，首先使用所有训练数据对所有网络做了预训练，然后将每个patch通过分类网络决定进一步输入到哪个子网络。该模型存在与MCNN同样的问题，即“到底应该选择几个子网络？”。但该方法通过网络学习来确定patch输入的路径，给patch做分类还是比较新颖的idea。

图2.15（略） Switch-CNN

CSRNet(CVPR2018)如图2.16所示，摒弃了Multi-column框架，并在其论文中说明了Multi-Column相对于Single-Column的优势并不大。CSRNet利用预训练的VGG16网络，后接空洞卷积(Dilated Convolution)得到了state-of-the-art的结果。对比了空洞卷积和非空洞卷积的区别，空洞卷积更容易得到人头的边缘信息，这也是该模型能得到较高精度的重要原因。

图2.16（略） CSRNet网络结构

ic-CNN(ECC V2018)如图2.17所示，这个模型采取的思路是将得到的密度图由低分辨率(Low Resolution, LR)密度图逐步细化到高分辨率(High Resolution, HR)密度图，网络结构比较清晰，这是个可扩展到模型，即根据需要，网络可以随分辨率到提高而扩展。本方法的灵感来自于图像生成领域，这种由低分辨率到高分辨率的逐步生成，在图像生成领域相当常见。

图2.17（略） ic-CNN网络结构

SANet(ECCV 2018)如图2.18所示，该方法同样考虑要提取每个图像的多个尺度的人头信息，但并不采取类似MCNN的多阵列网络结构，其使用了类似于Inception架构的模块，在每个卷积层都同时使用不同大小的卷积核，最后通过反卷积得到最终的密度图。

图2.18（略） SANet

2.4相关数据集

数据集在算法研究中起到非常重要的作用。由于目标检测数据的标注成本太高，公开的目标检测数据集较少。仅有的一些知名的数据集被大部分研究者所接受，作为衡量目标检测算法的标准数据集。下面介绍几个主要的数据集。

ImageNet（目标识别）

ImageNet是目前世界上最大的图像数据库之一。以ImageNet中的图像数据为基础的大规模图像识别挑战赛（Large Scale Visual Recognition Challenge）自2010年开始举办以来，逐渐成为计算机视觉发展的重要推动者，也是最近的深度学习热潮的关键驱动力之一。2017年是该项挑战赛举办了最后一届比赛，在这段时间里，目标检测一直是挑战赛任务之一。该挑战赛在比赛中提供了超过100万张标注数据用于算法的训练和测试。

COCO（目标检测）

MS COCO的全称是Microsoft Common Objects in Context，起源于微软于2014年出资标注的Microsoft COCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。

COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标，328,000影像和2,500,000个label。目前为止有语义分割的最大数据集，提供的类别有80 类，有超过33 万张图片，其中20 万张有标注，整个数据集中个体的数目超过150 万个。

PASCAL VOC（目标检测）

PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，从2005年到2012年每年都会举行一场图像识别challenge。此数据集可以用于图像分类、目标检测、图像分割。

BrainWash（人头计数）

BrainWash数据集是一个密集人头检测数据集，拍摄的是在一个咖啡馆里出现的人群，然后对这群人进行标注而得到的数据集。包含三个部分，训练集：10769张图像81975个人头，验证集：500张图像3318个人头。测试集：500张图像5007个人头。本文只讨论它的训练集。

SCUT_Head（人头检测）

SCUT-HEAD是一个大规模的头部检测数据集，包括4405个图像和111251个头部。数据集由Part A和Part B两部分组成。PartA和Part B有训练和测试两部分，数据集遵循Pascal VOC标准。该数据集用xmin、ymin、xmax和ymax坐标标记了每个可见的头部，并确保注释覆盖整个头部，包括被阻塞的部分，但没有额外的背景。

PartA包括2000张从一所大学教室监控录像中采集的图像，其中有67321个头部被标注。PartA有1500张图片可用于训练，500张用于测试。由于大学的教室通常看起来很相似，且人的姿态变化较小，所以我们会仔细选择有代表性的图像来获得方差，减少相似度。PartA人数直方图如下2.19所示。

图2.19（略） PartA人数直方图

PartB包含2405幅图像，其中43940个头部有标注。PartB的1905张图片可用于训练，500张用于测试。图片是从互联网上抓取的。数据集中还提供了图像的url。有代表性的图像和注释以及人数直方图如下2.20所示。

图2.20 PartB人数直方图

本文使用SCUT-HEAD Part A训练集训练网络，在Part B测试集上验证检测结果。

第三章无先验候选框的人头检测

本文提出以CenterNet的基于关键点的人头检测方法。利用关键点的三元组（中心点、左上角点和右下角点）来确定一个目标，使网络花费了很小的代价便具备了感知物体内部信息的能力，有效利用了目标内部信，从而能有效抑制误检息。采用无先验候选框的人头检测算法，进行更有针对性的精准的人头检测，快速完成愈加精准的人群计数。

3.1×××问题描述

(* *)

3.1.1××××××

×××××××^[5] (* 引用参考文献5 *)
××××××××。

3.1.2××××××

第四章实验结果与分析

4.1评价标准

4.1.1区域重叠率

介绍目标检测算法时，无论是区域推荐、区域匹配，还是在算法的量化评价中，都需要涉及到区域重叠率的计算。公认的重叠率计算方式是采用杰卡德相似系数，也称为交并比（IOU）。杰卡德相似系数的计算公式为：
(4-1)略

目标检测的数据通常用包围盒来标注，标注方式见2.2.2小节。因此，包围盒重叠率的计算公式也需要对应的变换。假设包围盒的标注采用左上和右下顶点坐标的形式，则相对应的重叠率计算公式变换为：
(4-2)略

如果两个方形包围盒之间有相交区域，那么相交区域一定也是一个矩形区域。因此，要计算相交区域的面积，只需要求出相交区域的宽度和高度即可。上式中前两个方程分别计算相交区域的宽度和高度。最后一个方程通过计算交并比得到两个包围盒的重叠率。

4.1.2平均精度均值

平均精度均值（mean average precision），简称mAP，是衡量目标检测算法通用的量化指标。本小节会详细介绍mAP的计算过程以及其作为评价标准的合理性。mAP可以分为三个部分来理解，分别是：P、AP、mAP，下文将逐一进行介绍。

P，即准确率(Precision)，是常用的评价指标之一，与其类似的还有召回率(Recall)。准确率和召回率的定义如下：

通常情况下召回率和准确率是相反关系。在算法不变的情况下，提高准确率的情况下必然会造成召回率的下降；类似的，召回率的提高也会造成准确率的降低。为了保证算法在各种条件要求下的鲁棒性，我们通常取多个召回率情况下的准确率均值，即精度均值（AP）来协调这种矛盾关系。另外，由于目标检测算法通常有多个目标类别，因此需要将各类别的精度均值再求平均值得到平均精度均值，即mAP。计算公式如下：
(4-3) (4-4) ............略

其中，表示在召回率为时，类别的准确率；表示类别的精度均值AP。通过对所有类别的AP求均值，得到最终的mAP。相比于准确率、召回率等单点值的局限性，mAP考虑了各种影响因素，是一个综合性的衡量标准。然而mAP只是从准确率的角度衡量目标检测算法，在实际应用中通常要考虑到算法的运行速度。因此在比较算法效率的时候通常也会考虑算法的FPS（帧每秒）。

第五章总结与展望

概述该算法实现了人头检测，使用关键点三元组（左上，右下，中心点）来确定一个目标。。
提出不足与改进。

参考文献

Pedestrian detection:An evaluation of the state of the art.
Histograms of oriented gradients for humandetection
Pedestrian detection incrowded scenes
Monocular pedestrian detection: Survey and experiments.
Pedestrian detection via classification on riemannian manifolds.
Object detection with discriminatively trained part-based models.
Detection and tracking of multiple, partially occluded humans by bayesian combination of edgelet based part detectors.
Bayesian poisson regression for crowd counting
Crowd counting using multiple local features
Feature mining for localized crowd counting.
Reducing the Dimensionality of Data with Neural Networks

原创论文网

论文分类

| 论文推荐