通知:此推文有12篇论文速递信息,涉及目标检测、实例分割、特征描述、姿态估计和GAN等方向。
PS:由于今天小编出差,坐8个多小时的高铁,所以整理文章较为匆忙,推送时间较晚,还请见谅。
[1]《ST-GAN: Spatial Transformer Generative Adversarial Networks for Image Compositing》
Accepted to CVPR 2018
Abstract:论文解决了寻找对前景物体的真实几何校正的问题,使得它在合成到背景图像时看起来很自然。为了实现这一目标,论文提出一种新型的生成对抗网络(GAN)架构,该架构利用空间变换器网络(STN)作为发生器,我们称之为空间变换器GAN(ST-GAN)。ST-GAN通过在几何扭曲参数空间中操作寻求图像真实感。
Homepage:https://chenhsuanlin.bitbucket.io/spatial-transformer-GAN/
GitHub:https://github.com/chenhsuanlin/spatial-transformer-GAN
arXiv:https://arxiv.org/abs/1803.01837
[2]《A generalized parametric 3D shape representation for articulated pose estimation》
Abstract:论文提出一种新的参数3D形状表示法,称为广义高斯模型 (G-SoG),特别适用于articulated objects的姿态估计。与原来的高斯模型(SOG)相比,G-SoG可处理各向同性和各向异性高斯模型,从而导致更灵活和适应性的形状表示,但更少的各向异性高斯模型参与。通过在树状结构骨架模型中嵌入G-SoG,以表示铰接对象,可以开发铰接形状模板。我们进一步推导出一个可微相似函数(模板)和(观测数据),可以优化分析,以有效的姿态估计。在一个标准的人体姿态估计数据集上的实验结果表明,与使用更复杂形状模型的新算法相比,在原有的测试中,验证了论文提出算法的有效性和优越性。
arXiv:https://arxiv.org/abs/1803.01780
[3]《Using Visual Saliency to Improve Human Detection with Convolutional Networks》
Submitted to MBCC Workshop in Conjuction with CVPR-2018
Abstract:论文介绍一种基于视觉显著性的方法来检测人类。使用深层多层网络,与输入图像相乘并输入卷积神经网络(CNN),我们可以找到具有人类图像的显著图。 为了检测目的,我们对准备好的两个具有挑战性的数据集Penn-Fudan和TudBrussels Benchmark进行了训练。训练结束后,网络学习人体的中高级特征。论文展示所提算法对PennFudan数据集的任务和报告最新性能的有效性,检测准确率为91.4%,在TudBrussels基准测试中实现53%的平均错过率。
arXiv:https://arxiv.org/abs/1803.01687
[4]《Affine Differential Invariants for Invariant Feature Point Detection》
Abstract:图像特征点被检测为局部最大化检测器函数的像素,两个常用的例子是(欧几里德)图像梯度和Harris-Stephens角点检测器。 这些特征检测器的一个主要限制是它们只是欧几里得不变的。在这项工作中,论文介绍了基于差分不变量的2D仿射不变图像特征点检测器的应用,通过移动帧的等变方法导出。 还计算三维图像体的基本同仿射差分不变量。
arXiv:https://arxiv.org/abs/1803.01669
[5]《AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation》
CVPR 2018
Abstract:受监督的深度学习方法对于单眼深度估计的任务已经显示出有前景的结果;但是获得基础事实是昂贵的,并且容易产生噪音和不准确性。尽管合成数据集已被用于规避上述问题,但由于固有的域转移,所得模型不能很好地推广到自然场景。近来针对域自适应的对抗方法在减轻源域和目标域之间的差异方面表现良好。但是这些方法大多局限于分类设置,对于完全卷积体系结构并不能很好地扩展。在这项工作中,我们提出了AdaDepth - 一种无监督的域适应策略,用于单眼深度估计的逐像素回归任务。所提出的方法没有上述限制,通过a)对抗性学习和b)在适应的目标表示上明确地施加内容一致性。我们的无监督方法与其他已建立的深度估计方法相竞争,并在半监督环境下实现最新的结果。
注:哇,又是一篇从单目图像估计深度方向的论文!先Mark!
arXiv:https://arxiv.org/abs/1803.01599
[6]《Predicting Out-of-View Feature Points for Model-Based Camera Pose Estimation》
Submitted to IROS 2018
Abstract:论文出了一种新颖的框架,它使用深度学习来预测输入图像中的视点外(Out-of-View)的对象特征点。该系统是在考虑到基于模型的跟踪的情况下开发的,特别是在自动检测机器人的情况下,只有局部视图可用。通过在网络训练期间对特征点标签应用缩放来启用视野外预测。这与经常性的神经网络架构相结合,旨在为输入图像的空间范围提供具有丰富特征信息的最终预测层。为了展示这些视野预测的多功能性,我们描述了如何将它们集成到粒子滤波跟踪器和基于优化的跟踪器中。为了评估我们的工作,我们将我们的框架与仅预测图像内部点的框架进行了比较。我们表明,随着视图中物体的数量减少,能够在图像边界外进行预测,从而增加了对最终姿态估计的鲁棒性。
arXiv:https://arxiv.org/abs/1803.01577
[7]《Local Distance Metric Learning for Nearest Neighbor Algorithm》
Abstract:距离度量学习是提高最近邻分类器性能的成功方法。但是,在大多数情况下,数据分布不符合常规形式,并可能在特征空间的不同部分发生变化。为此,本文提出了一种新的局部距离度量学习方法,即本地马氏距离学习(LMDL),以提高最近邻分类器的性能。 LMDL考虑邻域影响,并针对一组缩减的输入样本学习多个距离度量。缩减集被称为试图尽可能保留局部区分性信息的原型。所提出的LMDL可以很容易地核化,这在高度非线性数据的情况下是非常理想的。所提出的方法的质量和效率通过在各种数据集上的一组不同的实验来评估,并且所获得的结果显示LDML以及核化版本优于其他相关的最新技术方法。
注:机器学习->NN算法->Local Distance Metric Learning,可以说很基础创新了!
arXiv:https://arxiv.org/abs/1803.01562
[8]《Beyond Context: Exploring Semantic Similarity for Tiny Face Detection》
Abstract:微小的人脸(Tiny Face)检测旨在于杂乱的场景中找到具有不同尺度,可能有遮挡的人脸。 由于微型面上的可用信息非常少,仅仅基于微小边界框或其上下文中呈现的信息来检测它们是不够的。 在本文中,我们建议利用每幅图像中所有预测目标之间的语义相似度来增强当前的人脸检测器。 为此,我们提出了一种新的框架,将语义相似度建模为度量学习方案中的成对约束,然后利用图切割技术利用语义相似度来优化我们的预测。 在三个广泛使用的基准数据集上进行的实验证明,通过应用这个想法获得的技术水平得到了改善。
arXiv:https://arxiv.org/abs/1803.01555
注:此处无图,手动滑稽...
[9]《Relocalization, Global Optimization and Map Merging for Monocular Visual-Inertial SLAM》
Abstract:由一个摄像头和一个低成本惯性测量单元(IMU)组成的单目视觉 - 惯性系统(VINS)是实现精确6-DOF状态估计的流行方法。但是,这种局部准确的视觉惯性测距法容易出现漂移,无法提供绝对的姿态估计。利用历史信息重新定位和纠正漂移已成为一个热门话题。在本文中,我们提出了一个单目视觉惯性SLAM系统,它可以重新定位摄像机并获得先前建立的地图中的绝对姿态。然后执行四自由度姿态图优化以校正漂移并实现全局一致。 4自由度包含x,y,z和偏航角,这是视觉惯性系统中的实际漂移方向。此外,所提出的系统可以通过以有效的方式保存和加载地图来重新使用地图。当前地图和先前的地图可以通过全局姿态图优化合并在一起。我们验证了我们系统在公共数据集上的准确性,并与其他最先进的算法进行了比较。我们还评估了我们的系统在大型户外环境中的地图合并能力。地图重用的源代码被集成到我们的公共代码VINS-Mono中。
注:SLAM!!!还是视觉SLAM!!!
arXiv:https://arxiv.org/abs/1803.01549
[10]《Improving the Improved Training of Wasserstein GANs: A Consistency Term and Its Dual Effect》
Accepted to ICLR 2018
Abstract:尽管对各种问题和应用产生了影响,但生成对抗网络(GAN)难以训练。这个问题由{arjovsky2017towards}进行正式分析,他们也提出了an alternative direction to avoid the caveats in the minmax two-player training of GANs,称为Wasserstein GAN(WGAN)的相应算法取决于鉴别器的1-Lipschitz连续性。在本文中,我们提出了一种在WGAN的训练过程中实施Lipschitz连续性的新方法。我们的方法将WGAN与最近的半监督学习方法之一无缝连接。结果,它不仅产生了比以前的方法更好的照片拟真样本,而且还产生了最先进的半监督学习结果。特别是,我们的方法提供超过5.0的初始分数,仅有1,000张CIFAR-10图像,并且仅使用4,000张标记图像,第一张图像超过了CIFAR-10数据集90%的准确率。
arXiv:https://arxiv.org/abs/1803.01541
注:此处无图,手动滑稽...
[11]《Path Aggregation Network for Instance Segmentation》
Accepted to CVPR 2018
Abstract:论文提出一种路径聚合网络(PANet),旨在提高基于proposal的实例分割框架中的信息流。 具体而言,该方法通过自下而上的路径增强在较低层中使用精确的定位信号来增强整个特征层次结构,这缩短了较低层和最顶层特征之间的信息路径。 论文提出了自适应特征池,它将特征网格和所有特征级别链接起来,使每个特征级别的有用信息直接传播到以下proposal子网络。 为每个proposal捕获不同视图的补充分支被创建以进一步改善掩模预测。 这些改进很容易实现,具有微妙的额外计算开销。 我们的PANet在COCO 2017挑战实例细分任务中排名第一,并且在没有大批量培训的情况下在对象检测任务中排名第二。 它也是MVD和城市景观的最新技术。
arXiv:https://arxiv.org/abs/1803.01534
注:此处无图,手动滑稽...
[12]《LSTD: A Low-Shot Transfer Detector for Object Detection》
Accepted by AAAI2018
Abstract:目标检测的最新进展主要是通过大规模检测基准进行深度学习。然而,完全注释的训练集通常仅限于目标检测任务,这可能会恶化深度检测器的性能。为了解决这个难题,论文提出了一种新颖的low-shot转移检测器(LSTD),利用丰富的源域知识来构建一个有效的目标域检测器,而且几乎没有训练样例。主要贡献如下所述。首先,我们设计了一个灵活的LSTD深层架构,以缓解low-shot检测中的tranfer困难。这种架构可以将SSD和更快的RCNN的优势集成到一个统一的深层框架中。其次,本文提出了一种新的基于低帧镜头检测的正则化转移学习框架,提出了转移知识(TK)和背景抑制(BD)正则化方法,分别从源域和目标域利用目标知识,用一些目标图像调整。最后,我们研究了一些具有挑战性的低拍摄检测实验的LSTD,其中LSTD优于其他最先进的方法。结果表明,LSTD是低拍摄场景中较好的深度检测器。
注:What is low-shot?哈哈,终于看到目标检测的Paper啦!
arXiv:https://arxiv.org/abs/1803.01529