Sliding Shapes for 3D Object Detection in Depth Images论文解读

现在整理论文的要求按照大师姐给的模板进行,也就是分成以下几点进行总结。

贡献点(文章的创新点)

使用cad模型从不同角度渲染得到点云图集,为每一个点云图训练一个svm,将同一个类的所有svm组合起来,当做这一类的分类器。也就是有一个svm认为为正样本就可以。

图片1

处理数据类型(针对的数据是网格、点云或者是二维多视角图像等),是否数据校正(数据是同一姿态,还是不同姿态)

训练:训练的时候用的是CAD模型,对每一个CAD取不一样的方向,大小,位置和摄像机的角度等,再对这些CAD从不同的角度进行渲染得到点云。假设cad是在重力方向,所以绕着z轴旋转。

测试:局部搜索(假设一个SVM的数据是CAD在某一个位置渲染得到的,测试的时候窗口也只在这个位置附近进行滑动),排除一些空框和用CAD模型的边界来取代实际的边界。

网络结构(构架,损失函数等)

传统方法没有什么架构。这里介绍一下它的特征子,由四个特征子组装成了一个特征。将3维空间分成0.1米宽的cell,在每一个cell上提取特征和滑动。

图片2

Point density feature 点密度特征,考虑到总体的点和cell内各个部分之间密度的关系

3D shape feature cell内再划分成多个体素,考虑体素内的形状特征

3D normal feature 法线特征,数数的方式

Truncated Signed Distance Function (TSDF) 判断这个cell是在表面之后还是表面之前

一个点云被分成很多cell,在每一个cell上执行这些特征。

之后用聚类的方式,将每一种类型的特征聚成成五十类,每一个cell的一个特征可以表示为五十维,分别是到这些聚类中心的距离,也就是每一个cell有两百个维的特征。

训练时候的特征应该也是这么提的,不过没有看到详细说明

训练方式(交替迭代方式训练,多步训练,还是整体训练)

训练SVM:使用某一个CAD的某一个视角的点云作为正样本,负样本为数据集里随便选的,用了hard negative mining。

数据集(数据集的名称,包含的模型类别和数目),和结果

RMRC dataset ,五个类,chair, toilet, bed, sofa, and table ,500个当训练,574当测试。

PASCAL VOC 这是2D的检测数据集

图片3

代码(运行的框架,代码的语言)

代码语言是用matlab写的

改进点(文章中自己总结的可能的下一步方向,和自己想可能的方向)

现在的主要限制是缺少数据集。下一步方向计划从二维检测中学习,从数据中自动学习特征,和利用三维信息的上下文信息。

一些相关文档下载

论文下载

PPT下载

附加说明