通知:这篇文章有10篇论文速递信息,涉及姿态估计、Re-ID、图像检索、视频描述和数据增广等方向
前戏
PS:Amusi前几天在忙其它事,论文速递耽搁了近一个星期,还请大家见谅。因为时间因素,和往常一样,每篇paper不附带相应的图示。如果本文中出现明显重大的翻译问题,还请大家指出,谢谢。
姿态估计
[1]《3D Pose Estimation and 3D Model Retrieval for Objects in the Wild》
CVPR 2018
Abstract:我们提出了一种可扩展,高效且准确的方法来检索户外物体的3D模型。 我们的贡献有两个。我们首先提出了一种针对对象类别的三维姿态估计方法,该方法明显优于Pascal3D +中的最新技术。 其次,我们使用估计的姿态作为先验来检索3D模型,其准确地表示RGB图像中的对象的几何形状。 为此,我们在我们的预测姿态下渲染来自3D模型的深度图像,并使用基于CNN的多视图度量学习方法将RGB图像的学习图像描述符与渲染深度图像的描述符进行匹配。 通过这种方式,我们率先在Pascal3D +上报告三维模型检索的定量结果,其中我们的方法平均选择与人类注释器相同的模型作为验证图像的50%。 另外,我们证明我们的方法纯粹是在Pascal3D +上进行训练,通过ShapeNet从户外物体的RGB图像中检索丰富而准确的3D模型。
arXiv:https://arxiv.org/abs/1803.11493
[2]《Cross-modal Deep Variational Hand Pose Estimation》
Abstract:人的手以复杂和高维的方式移动,从图像估计3D手姿势配置本身就是一项具有挑战性的任务。在这项工作中,我们提出了一种方法,通过生成的深度神经网络来学习由跨模态训练的潜在空间表示的统计手模型。我们从VAE框架的变分下界推导出一个目标函数,并联合优化得到的跨模态KL散度和后向重建目标,自然而然地接受一种训练机制,导致跨多种模态的相干潜在空间,如RGB图像,2D关键点检测或3D手形配置。此外,它还提供了使用半监督的简单方法。这个潜在的空间可以直接用于估计RGB图像中的3D手势,在不同的设置中胜过现有技术。此外,我们表明,我们提出的方法可以在不改变深度图像的情况下使用,并且可以与专门的方法进行比较。最后,该模型是完全生成的,可以在不同模式下合成一致的手对配置。我们在RGB和深度数据集上评估我们的方法并定性分析潜在空间。
arXiv:https://arxiv.org/abs/1803.11404
Re-ID
[3]《Efficient and Deep Person Re-Identification using Multi-Level Similarity》
Abstract:行人重识别(ReID)要求比较在不同条件下拍摄的人员的两幅图像。基于神经网络的现有工作通常计算单个卷积层的特征映射的相似性。在这项工作中,我们提出了一个高效的端到端完全卷积连体网络,计算多个层次的相似度。我们证明多级相似性可以在ReID问题中使用低复杂度的网络结构大大提高准确性。具体来说,首先,我们使用几个卷积层来提取两个输入图像的特征。然后,我们提出卷积相似网络来计算输入的相似度分数图。我们使用空间变换网络(STN)来确定空间关注。我们建议应用高效深度卷积来计算相似度。所提出的卷积相似性网络可以被插入不同的卷积层以提取不同级别的视觉相似性。此外,我们使用改进的排名损失来进一步提高性能。我们的工作是首次提出计算ReID的低,中,高级视觉相似度。通过广泛的实验和分析,我们证明我们的系统紧凑而有效,可以通过更小的模型尺寸和计算复杂性来实现竞争结果。
arXiv:https://arxiv.org/abs/1803.11353
[4]《Learning View-Specific Deep Networks for Person Re-Identification》
IEEE TIP 2018
Abstract:近年来,越来越多的研究集中在人员重识别(re-id)的问题上。重识别技术试图匹配来自不相交的非重叠摄像机视图的行人图像。 re-id的一个主要挑战是the serious intra-class variations caused by changing viewpoints。为了克服这个挑战,我们提出了一个基于深度神经网络的框架,它在特征提取阶段利用视图信息。所提出的框架通过交叉视图欧几里得约束(CV-EC)和交叉视图中心丢失(CV-CL)来学习针对每个摄像机视图的视图特定网络。我们利用CV-EC降低不同视图之间的特征边缘,并将中心损失度量扩展到视图特定版本,以更好地适应重新生成问题。此外,我们提出了一种迭代算法来优化视图特定网络的参数从粗到细。实验证明,我们的方法显着提高了现有深度网络的性能,并且在VIPeR,CUHK01,CUHK03,SYSU-mReId和Market-1501基准测试中的性能优于最新的方法。
arXiv:https://arxiv.org/abs/1803.11333
图像检索
[5]《Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking》
CVPR 2018
Abstract:在本文中,我们讨论了在标准和流行的Oxford 5k和Paris 6k数据集上进行图像检索基准测试的问题。 特别是,注释错误,数据集的大小以及挑战的级别都得到了解决:两个数据集的新注释都被创建,同时还特别关注了基本事实的可靠性。 引入了三种不同难度的新协议。 协议允许在不同方法之间进行公平比较,包括使用数据集预处理阶段的方法。 对于每个数据集,引入了15个具有挑战性的新查询。Finally, a new set of 1M hard, semi-automatically cleaned distractors is selected. 。
在新基准上进行了最先进方法的广泛比较。评估了不同类型的方法,从基于本地特征的方法到基于现代CNN的方法。 最好的结果是通过充分利用两个世界来实现的。 最重要的是,图像检索似乎很难解决。
arXiv:https://arxiv.org/abs/1803.11285
其它
[6]《Guide Me: Interacting with Deep Networks》
CVPR 2018
Abstract:随着机器学习方法转变为涉及最终用户的实际应用,人类与智能机器之间的交互与协作变得越来越重要。虽然很多先前的工作都在于自然语言和视觉的交叉点,例如图像字幕或从文本描述中生成图像,但很少关注使用语言来指导或改进学习的视觉处理算法的性能。在本文中,我们探索通过用户输入灵活引导训练的卷积神经网络的方法,以提高其在推断期间的性能。我们通过在网络中插入一个充当空间语义指南的层来实现。本指南经过训练,可以直接通过能量最小化方案修改网络激活,也可以通过将人类语言查询转换为互动权重的循环模型间接进行修改。学习口头交互是完全自动的,不需要手动文本注释。我们在两个数据集上评估该方法,显示指导预先训练的网络可以提高性能,并提供对指南和CNN之间交互的深入见解。
注:哇靠,还能这么玩!
arXiv:https://arxiv.org/abs/1803.11544
[7]《Reconstruction Network for Video Captioning》
CVPR 2018
Abstract:在本文中,描述了用自然语言描述视频序列的视觉内容的问题。与以前的视频字幕工作主要利用视频内容提示进行语言描述不同,我们提出了一种具有新型编解码器 - 重构器架构的重构网络(RecNet),其利用前向(视频到句子)和后向(句子到视频)流动视频字幕。具体而言,编码器 - 解码器利用正向流程来基于编码的视频语义特征来产生句子描述。两种类型的重构器被定制为采用反向流并且基于由解码器生成的隐藏状态序列来再现视频特征。由编码器 - 解码器产生的产生损失和由重建器引入的重构损失被共同引入到以端对端方式训练建议的RecNet。基准数据集上的实验结果表明,所提出的重构器可以提升编码器 - 解码器模型,并显着提高视频字幕的准确性。
arXiv:https://arxiv.org/abs/1803.11438
[8]《Parallel Grid Pooling for Data Augmentation》
Abstract:卷积神经网络(CNN)架构利用下采样层,这限制了后续层学习空间不变特征,同时降低计算成本。 但是,这样的下采样操作使得不可能使用全频谱的输入特征。 受此观察的启发,我们提出了一种新的称为并行网格池(PGP)的层,它适用于各种CNN模型。 PGP执行下采样而不丢弃任何中间特征。 它用作数据增强,并且是常用数据增强技术的补充。 此外,我们证明了扩张卷积可以自然地用PGP运算来表示,这表明扩张卷积也可以被认为是一种数据增强技术。 基于流行的图像分类基准的实验结果证明了所提出方法的有效性。
arXiv:https://arxiv.org/abs/1803.11370
github:https://github.com/akitotakeki
[9]《Fast and Robust Subspace Clustering Using Random Projections》
Abstract:在过去的几十年中,子空间聚类一直受到越来越多的关注并不断取得进展。然而,由于缺少可扩展性和/或鲁棒性,现有方法仍然难以处理同时具有三个特征的数据:高维,大规模和严重损坏。为了同时解决可伸缩性和鲁棒性问题,在本文中,我们建议考虑一个叫做压缩鲁棒子空间聚类的问题,它是用压缩数据执行鲁棒子空间聚类,并且通过将原始高维数据投影到随机选择较低维的子空间。在给定这些随机投影的情况下,所提出的行空间追踪(RSP)方法不仅可以恢复真实的行空间,从而可以在某些条件下正确地获得聚类结果,还可以恢复数据中可能存在的严重错误。随机投影的压缩特性为我们的RSP提供了高计算和存储效率,并且恢复特性使RSP能够处理严重损坏的数据。在高维和/或大规模数据集上进行的大量实验表明,RSP可以保持与普遍使用的方法相当的准确度,并大大缩短计算时间。
arXiv:https://arxiv.org/abs/1803.11305