通知:这篇文章有8篇论文速递信息,涉及目标识别、SLAM、3D Model、密集点集配准、立体匹配等方向(含6篇CVPR论文)
目标识别
[1]《Hierarchical Novelty Detection for Visual Object Recognition》
CVPR 2018
Abstract:深度神经网络在具有预定义类别的大规模视觉对象识别任务中取得了令人瞩目的成功。然而,在训练期间识别新类(即未被看见的对象)仍然具有挑战性。在文献中已经讨论了检测这种新类的问题,但是之前大多数工作都是提供简单的二元或回归决策,例如,输出将是“已知的”,“新颖的”或相应的置信区间。在本文中,我们研究更多的基于分层分类框架的信息新颖性检测方案。对于一个新类的对象,我们的目标是在已知类的分层分类中找到它最接近的超类。为此,我们提出了两种不同的方法,称为自顶向下和扁平化方法,以及它们的组合。我们方法的基本组成部分是置信度校正分类器,数据重新标记以及在分层分类法下对新类进行建模的“一次退出”策略。此外,我们的方法可以生成分层嵌入,结合其他常用的语义嵌入,可以提高广义零点学习性能。
arXiv:https://arxiv.org/abs/1804.00722
SLAM
[2]《CodeSLAM - Learning a Compact, Optimisable Representation for Dense Visual SLAM》
CVPR 2018
Abstract:实时三维感知系统中的几何表示仍然是一个关键的研究问题。密集的地图捕捉完整的表面形状,并且可以增加语义标签,但是它们的高维使得它们在存储和处理上的计算成本高,并且不适合严格的概率推断。基于稀疏特征的表示可以避免这些问题,但只捕获部分场景信息,并且主要用于本地化。
我们提出了一种新的紧凑但密集的场景几何表示形式,它以单个图像的强度数据为条件,并由包含少量参数的代码生成。我们受到来自图像学习深度和自动编码器的启发。我们的方法适用于基于关键帧的单目密集SLAM系统:虽然每个带有代码的关键帧都可以生成深度图,但代码可以与姿态变量一起高效地进行优化,并与重叠关键帧的代码一起进行优化,以获得全局一致性。调整图像上的深度图允许代码仅表示局部几何图形的不能直接从图像预测的方面。我们解释如何学习我们的代码表示,并展示其在单目SLAM中的优势特性。
arXiv:https://arxiv.org/abs/1804.00874
其它
[3]《Learning to Separate Object Sounds by Watching Unlabeled Video》
Abstract:感知一个场景最完整的需要所有的感官。 然而,建模物体外观和声音的方式是具有挑战性的:大多数自然场景和事件包含多个对象,并且音轨将所有声源混合在一起。 我们建议从未标记的视频中学习视听对象模型,然后利用视觉上下文在新视频中执行音频源分离。 我们的方法依赖于深度多实例多标签学习框架来解决映射到单个视觉对象的音频频率库,即使没有单独观察/听取这些对象。 我们展示了如何使用恢复的解开的基础来指导音频源分离以获得更好分离的对象级声音。 我们的工作是第一个在大型“wild”视频中研究音频源分离的。 我们在视觉辅助音频源分离和音频去噪方面获得了最先进的成果。
arXiv:https://arxiv.org/abs/1804.01665
注:根据画面对声音进行分离,很有意思!
[4]《Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images》
Abstract:我们提出了一种端到端的深度学习体系结构,可从单一颜色的图像生成三角形网格中的三维形状。 受限于深度神经网络的性质,先前的方法通常表示体积或点云中的3D形状,将它们转换为更易于使用的网格模型比较难。与现有方法不同,我们的网络在基于图形的卷积神经网络中表示3D网格,并通过逐渐变形椭球形成正确的几何图形,利用从输入图像中提取的感知特征。 我们采用从粗到精的策略,使整个变形过程稳定,并定义各种网格相关损失以捕捉不同层次的属性,以保证视觉吸引力和物理准确的3D几何。 大量实验表明,我们的方法不仅定性地生成具有更好细节的网格模型,而且与最先进的技术相比还实现了更高的3D形状估计精度。
arXiv:https://arxiv.org/abs/1804.01654
[5]《Image Generation from Scene Graphs》
CVPR 2018
Abstract:为了真正理解视觉世界,我们的模型不仅应该能够识别图像,还能够生成它们。为此,近期在自然语言描述中生成图像方面取得了令人振奋的进展。这些方法在有限的领域(例如鸟类或花卉的描述)上提供了令人惊叹的结果,但却难以忠实地复制具有许多对象和关系的复杂句子。为了克服这个限制,我们提出了一种从场景图生成图像的方法,能够明确地推理对象及其关系。我们的模型使用图形卷积来处理输入图,通过预测对象的边界框和分割掩模来计算场景布局,并且将布局转换为具有级联精化网络的图像。网络训练敌对一对鉴别器,以确保实际输出。我们通过Visual Genome和COCO-Stuff验证了我们的方法,其中定性结果,消融和用户研究证明了我们的方法能够生成具有多个对象的复杂图像。
arXiv:https://arxiv.org/abs/1804.01622
注:李飞飞大作!!!
[6]《A Unifying Contrast Maximization Framework for Event Cameras, with Applications to Motion, Depth, and Optical Flow Estimation》
CVPR 2018
Abstract:我们提出了一个统一的框架来解决事件相机的几个计算机视觉问题:运动,深度和光流估计。 我们框架的主要思想是通过最大化一个目标函数找到图像平面上与事件数据最佳对齐的点轨迹:warped events图像的对比度。 我们的方法隐式地处理事件之间的数据关联,因此不依赖于关于场景的额外外观信息。 除了准确地恢复问题的运动参数外,我们的框架还生成具有高动态范围的运动修正边缘状图像,可用于进一步场景分析。 所提出的方法不仅简单,而且更重要的是,据我们所知,第一种方法可以成功地应用于这样一组具有事件相机的重要视觉任务。
arXiv:https://arxiv.org/abs/1804.01306
[7]《Density Adaptive Point Set Registration》
CVPR 2018
Abstract:点集配准(registration)的概率方法近年来已显示出竞争性结果。这些技术估计点云的概率分布模型。虽然这样的表示已经显示出希望,但它对3D点密度的变化高度敏感。这个基本问题主要是由传感器位置在点集上的变化引起的。我们重新审视概率注册范式的基础。与以前的作品相反,我们将场景的底层结构建模为潜在概率分布,从而引发不变以指向集合密度变化。场景的概率模型和配准参数都是通过最小化基于期望最大化框架的Kullback-Leibler散度来推断的。我们的密度自适应配准能够成功处理地面激光雷达应用中常见的严重密度变化。我们对几个具有挑战性的现实世界激光雷达数据集进行了大量实验。结果表明,我们的方法胜过了用于多视图注册的最先进的概率方法,而不需要重新采样。
arXiv:https://arxiv.org/abs/1804.01495
[8]《Left-Right Comparative Recurrent Model for Stereo Matching》
CVPR 2018
Abstract:利用来自左视图和右视图的视差信息对于立体视差估计是至关重要的。通过参照来自相反观点的信息,左右一致性检查是增强差异估计的有效方法。然而,传统的左右一致性检查是一个独立的后处理步骤,并且是手工制作的。本文提出了一种新的左右比较循环模型,与视差估计一起进行左右一致性检验。在每个循环步骤中,模型会为两个视图生成视差结果,然后执行联机左右比较以确定可能包含错误标记像素的不匹配区域。引入了一种软性关注机制,该机制采用学习错误地图更好地指导模型,有选择性地关注下一个重复步骤中不可靠区域的细化。通过这种方式,所提出的复发模型逐渐改善了生成的视差图。对KITTI 2015,Scene Flow和Middlebury基准的广泛评估验证了我们模型的有效性,证明了这种新模型可以实现最先进的立体视差估计结果。
arXiv:https://arxiv.org/abs/1804.00796
注:左右视图的立体匹配,深度学习真的席卷了计算机视觉啊!