图像检测

two stage
one stage
squeeze and excitation network

图像检测，分类并找出具体位置，传统的做法为HOG+SVM或类似，人为提取特征并训练，检测时由于图片大小不一，需要多尺度检测，对重叠区域再作处理，如扩大。图像的复杂性在于不同光照，颜色北京，深度学习图像检测成为主流。

two stage

候选区域+深度学习，包括R-CNN,Fast R-CNN,Faster R-CNN

R-CNN由三个步骤组成，Selective Search + CNN + SVM,找到的最好的一篇中文翻译就是这个, Selective Search选出越2k个候选框，CNN提取特征，SVM分类, bounding box regression，需要理解图像识别是针对候选框进行，可以识别一幅图像上的多个物体。

Fast R-CNN之前有SPPnet,ZFnet，解决的问题是一次性提取候选框的特征，输入图像大小可以不一，多任务训练，SVD分解简化连接层运算量。具体可以参考上一个链接的同作者的另一篇文章。顺便膜拜一下，互联网的世界里到处都是绝世高手。

Faster R-CNN进一步解决候选框的生成，用RPN（Region Proposal Network）网络生成。

one stage

yolo v1,v2,v3和ssd

yolo没有region proposal，计算量降低，但准确度降低

ssd采用fpn(特征金字塔)的思想。

retinanet采用focal loss损失函数，形式简单，但体现了对目标识别准确率低的最根本原因的认识。

detectron是facebook开源的目标检测库，基于python和caffe2，实现了大部分目标检测算法。

squeeze and excitation network

学习通道间的关系，关注有用特征抑制无用特征(重要的通道赋予大的权重)

图像检测

two stage

one stage

squeeze and excitation network

Comments