通知:这篇推文有18篇论文速递信息,涉及目标检测、图像分割和GAN等方向。
[1]《A new stereo formulation not using pixel and disparity models》
Abstract:我们介绍一种不使用像素和视差模型的新立体公式。视觉中的许多问题被视为为每个像素分配一个标签。差异是立体的标签。这样的像素标签问题自然地以能量最小化的方式表示,其中能量函数有两个项:一个项惩罚与观察数据不一致的解,另一个项强制空间平滑度。图形切割是解决能量最小化的有效方法之一。然而,只有对于具有凸平滑项的情况,可以通过图形切割来执行多标签问题的精确最小化。在像素视差公式中,凸平滑项不能很好地生成重建的3D结果。因此,使用截短的线性或二次平滑项等,其中近似能量最小化是必要的。在本文中,我们介绍了一种新的站点标注公式,其中站点不是像素,而是三维空间中的线,标注不是视差而是深度数字。对于这个公式,能见度推理自然包含在能量函数中。另外,这个公式允许我们使用一个小的平滑项,这对3D结果没有太大的影响。这使得优化步骤非常简单,所以我们可以开发一种近似方法,用于图形切割本身(不能用于能量最小化)和高性能GPU图形切割程序。对于Middlebury数据集中的筑波立体声对,我们使用GTX1080GPU获得了5ms的结果,使用GTX660GPU获得了19ms的结果。
arXiv:https://arxiv.org/abs/1803.01516
[2]《Totally Looks Like - How Humans Compare, Compared to Machines》
Abstract:人类对图像相似性的感知判断依赖于丰富的内部表征,从低级特征到高级概念,场景属性。现有的方法和数据集试图解释知觉相似性使用刺激,这些刺激可能无法覆盖影响人类相似性判断的全部因素,甚至包括那些与此目标相关的因素。我们在一个流行的娱乐网站之后引入了一个名为\ textbf {Totally-Looks-Like}(TTL)的新数据集,该网站包含人类配对的图像,视觉上相似。该数据集包含6016个来自野外的图像对,根据人类使用的丰富多样的标准揭示了这些图像对。我们进行实验,尝试通过从最先进的深度卷积神经网络中提取的特征重新生成配对,并进行额外的人体实验以验证所收集数据的一致性。尽管我们创造了条件来人工地使匹配任务变得更容易,但是我们表明机器提取的表示在再现人类选择的匹配方面表现很差。我们讨论和分析这些结果,提出改进学习图像表示的未来方向。
arXiv:https://arxiv.org/abs/1803.01485
Dataset:https://sites.google.com/view/totally-looks-like-dataset
[3]《Less Is More: Picking Informative Frames for Video Captioning》
Abstract:在视频字幕任务中,最佳实践已通过基于注意力的模型实现,该模型将视频中突出的视觉组件与句子相关联。然而,现有的研究遵循一个通用的程序,其包括在等间隔帧采样上的帧级外观建模和运动建模,这可能导致冗余的视觉信息,对内容噪声的敏感性和不必要的计算成本。
我们建议即插即用PickNet在视频字幕中执行信息帧采摘。基于标准的编码器 - 解码器框架,我们开发了一个基于强化学习的过程来依次训练网络,每帧挑选动作的奖励是通过最大化视觉多样性和最小化文本差异来设计的。如果候选人被奖励,它将被选择并且编码器 - 解码器的相应潜在表示将被更新以用于将来的试验。此过程持续进行直到视频序列结束。因此,可以选择紧凑的帧子集来表示视觉信息并执行视频字幕而不会降低性能。实验结果表明,我们的模型可以使用6-8帧来在各种流行的基准测试中实现竞争性能。
注:视频字幕(Video Captioning)很有意思的研究应用!
arXiv:https://arxiv.org/abs/1803.01457
[4]《Efficient and Accurate MRI Super-Resolution using a Generative Adversarial Network and 3D Multi-Level Densely Connected Network》
submitted MICCAI 2018
Abstract:高分辨率(HR)磁共振图像(MRI)为临床应用和定量图像分析提供了重要的详细解剖信息。然而,HR MRI通常以更长的扫描时间,更小的空间覆盖度和更低的信噪比(SNR)为代价。最近的研究表明,单幅图像超分辨率(SISR)是一种从单一低分辨率(LR)输入图像恢复HR细节的技术,可借助先进的深度卷积神经网络(CNN)提供高质量的图像细节)。然而,深度神经网络消耗大量内存并且运行缓慢,特别是在3D设置中。在本文中,我们提出了一种新的三维神经网络设计,即具有生成对抗网络(GAN)导向训练的多级密集连接超分辨率网络(mDCSRN)。 mDCSRN快速训练和推断,并且GAN促进难以区分原始HR图像的逼真输出。我们通过1,113个科目的数据集进行的实验结果表明,我们的新架构在恢复4倍分辨率降级图像方面胜过其他流行的深度学习方法,运行速度提高了6倍。
注:超分辨率结合GAN,已然成为一种主流趋势!
arXiv:https://arxiv.org/abs/1803.01417
[5]《Egocentric Basketball Motion Planning from a Single First-Person Image》
CVPR 2018
Abstract:论文提出一种模型,该模型使用单个第一人称图像以12D相机配置轨迹的形式生成以自我为中心的篮球运动序列,其在整个序列中编码玩家的3D位置和3D头部方向。为此,论文首先介绍未来(future)卷积神经网络(CNN),预测12D相机配置的初始序列,旨在捕捉真实玩家在一对一篮球比赛中的移动方式。我们还引入了一个目标验证者网络,该网络经过训练以验证给定的摄像头配置是否与真正的一对一篮球运动员的最终目标一致。接下来,我们提出一个逆合成过程来合成12D相机配置的改进序列,其(1)与未来CNN预测的初始配置充分匹配,同时(2)最大化目标验证者网络的输出。最后,通过遵循由精确的相机配置序列产生的轨迹,我们获得完整的12D运动序列。
我们的模型生成逼真的篮球运动序列,捕捉真实球员的目标,超越标准的深度学习方法,如递归神经网络(RNN),长期短期记忆网络(LSTM)和生成对抗网络。
注:根据第一视角来预测篮球运动,Amazing!
arXiv:https://arxiv.org/abs/1803.01413
[6]《Classification based Grasp Detection using Spatial Transformer Network》
Abstract:机器人抓握检测任务仍然具有挑战性,特别是对于新颖的物体。随着近期深度学习的深入,已经有几篇关于使用神经网络检测机器人抓握的作品。典型地,基于回归的抓握检测方法在计算复杂度方面优于基于分类的检测方法,并且具有极好的准确性然而,基于分类的机器人抓握检测仍似乎具有诸如中间步骤可观察性和端对端训练的直接反向传播例程的优点。在这项工作中,我们提出了一种基于多级空间变换网络(STN)的基于分类的机器人抓握检测方法。我们提出的方法能够通过实时计算实现最高的精度性能。此外,与其他基于回归的抓握检测方法不同,我们提出的方法允许对诸如抓握位置和方向等中间结果进行局部观察以获得多个抓握配置候选。
注:机器人抓握(Robotic grasp detection)很有难度!
arXiv:https://arxiv.org/abs/1803.01356
[7]《Training Deep Learning based Denoisers without Ground Truth Data》
Abstract:最近的基于深度学习的降噪器(denoisers)被训练成使网络输出与训练数据中的ground truth无噪声图像之间的均方差(MSE)最小化。 因此,高质量无噪声训练数据对于高性能分析人员至关重要。 不幸的是,在某些应用领域如医学成像领域,获取这样一个干净的ground truth图像是昂贵的,甚至是不可行的。 我们提出了一种基于Stein's无偏风险估计(SURE)的方法,用于训练没有ground truth数据的基于深度学习的denoisers。 我们证明了,我们基于SURE的方法仅使用噪声输入数据就能够训练基于CNN的去噪网络,其性能接近具有ground truth数据的原始基于MSE的深度学习分解器。
注:不知道把denoisers翻译成降噪器是否合理,如果错误,还请谅解。
arXiv:https://arxiv.org/abs/1803.01314
[8]《Unsupervised Learning of Face Representations》
Abstract:我们提出了一种无监督的CNN训练方法,以学习不同的人脸表征。我们通过注意到同一视频帧中的多个人脸必须属于不同的人并且跨多个帧跟踪的同一人脸必须属于同一个人,我们挖掘监督训练数据。我们从数百个视频中获取数百万张脸部对,而无需使用任何手动监督。尽管从视频中提取的脸部的空间分辨率低于作为诸如LFW和CASIA-WebFace之类的标准监督人脸数据集的一部分可用的空间分辨率,但前者代表更现实的设置,例如,在监视场景中,大多数人脸都很小。我们用从收集的视频帧中提取的相对较低分辨率的人脸来训练我们的CNN,并且在基准LFW数据集cf上实现更高的验证准确度。手工制作的功能(如LBP),甚至超过VGG-Face等最先进的深度网络的性能,这些网络适用于低分辨率输入图像。
arXiv:https://arxiv.org/abs/1803.01260
[9]《A Benchmark for Iris Location and a Deep Learning Detector Evaluation》
Submitted to IJCNN 2018
Abstract:虹膜被认为是独特概率最高的生物特征。虹膜位置是生物识别系统的一项重要任务,直接影响特定应用中获得的结果,如虹膜识别,欺骗和隐形眼镜检测等。这项工作将虹膜定位问题定义为包含虹膜区域的最小平方窗口的定界。为了建立虹膜位置的基准,论文从不同的生物识别应用中注释(虹膜平方包围盒)四个数据库,并将它们公开给社区。除了这4个带注释的数据库之外,我们还包括其他两篇文献,我们对这六个数据库进行了实验,其中五个使用近红外传感器,另一个使用可见光传感器。我们比较经典和出色的Daugman虹膜定位方法与两个基于窗口的检测器:1)基于梯度直方图(HoG)和线性支持向量机分类器的特征的滑动窗口检测器; 2)从YOLO物体探测器微调的基于深度学习的探测器。实验结果表明,基于深度学习的探测器在精度和运行时(GPU版本)方面优于其他方法。
arXiv:https://arxiv.org/abs/1803.01250
[10]《GAN-based Synthetic Medical Image Augmentation for increased CNN Performance in Liver Lesion Classification》
Preprint submitted to Neurocomputing
Abstract:深度学习方法,特别是卷积神经网络(CNN),已经导致了广泛的计算机视觉任务的巨大突破,主要是通过使用大规模注释数据集。然而,在医疗领域获得这样的数据集仍然是一个挑战。论文使用最近提出的深度学习生成对抗网络(GAN)来生成合成医学图像的方法。此外,论文显示生成的医学图像可用于合成数据增强,并提高CNN对医学图像分类的性能。此新方法在182个肝脏病变(53个囊肿,64个转移瘤和65个血管瘤)的计算机断层扫描(CT)图像的有限数据集上得到证明。论文首先利用GAN架构来合成高质量的肝脏病变ROI。然后提出一种使用CNN进行肝脏病变分类的新方案。最后,使用经典的数据增强和综合数据增强和比较性能来训练CNN。另外,我们使用可视化和专家评估来探索合成示例的质量。仅使用经典数据增强的分类性能产生了78.6%的灵敏度和88.4%的特异性。通过增加合成数据增加,结果增加到85.7%的灵敏度和92.4%的特异性。论文认为,这种合成数据增强方法可以推广到其他医学分类应用,从而支持放射科医师改善诊断的努力。
arXiv:https://arxiv.org/abs/1803.01229
[11]《Automatic Instrument Segmentation in Robot-Assisted Surgery Using Deep Learning》
Abstract:机器人仪器的语义分割是机器人辅助手术的一个重要问题。主要挑战之一是正确检测仪器在手术场景附近的跟踪位置和姿态估计位置。准确的像素智能仪器分割需要解决这一挑战。论文将介绍为MICCAI 2017内窥镜视觉分挑战获胜的解决方案:机器人仪器分割。论文还展示了使用几种新型深度神经网络体系结构对最先进结果的改进。它解决了二进制分割问题,其中图像中的每个像素都被标记为来自手术视频输入的乐器或背景。另外,论文中解决了一个多级分割问题,从背景中区分不同仪器或仪器的不同部分。在这种情况下,论文的方法胜过了每个任务子类别中用于自动仪器分割的其他方法,从而为此问题提供了最先进的解决方案。论文解决方案的源代码在https://github.com/ternaus/robot-surgery-segmentation此网址上公开。
arXiv:https://arxiv.org/abs/1803.01207
GitHub:https://github.com/ternaus/robot-surgery-segmentation
[12]《The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches》
Abstract:深度学习在过去几年中在各种应用领域取得了巨大成功。这个机器学习的新领域一直在快速增长,并在大多数应用领域中应用了一些新的应用模式,这有助于开创新的机会。针对不同类别的学习方法提出了不同的方法,包括监督学习,半监督学习和非监督学习。实验结果显示了在图像处理,计算机视觉,语音识别,机器翻译,艺术,医学成像,医学信息处理,机器人和控制,生物领域的传统机器学习方法的深度学习的最新性能信息学,自然语言处理(NLP),网络安全等等。本报告简要介绍了DL方法的发展情况,包括深度神经网络(DNN),卷积神经网络(CNN),包括长期短期记忆(LSTM)的循环神经网络(RNN)和门控循环单元(GRU) - 编码器(AE),深度信任网络(DBN),生成对抗网络(GAN)和深度强化学习(DRL)。另外,我们已经包括了基于所提到的DL方法的最近开发的提议的高级变体DL技术。此外,DL方法已经在不同的应用领域进行了探索和评估,也包含在本次调查中。论文还包含最近开发的框架,SDK和用于实施和评估深度学习方法的基准数据集。有一些关于神经网络深度学习的调查[1,38]和关于RL的调查[234]。然而,这些论文并没有讨论个别的先进技术训练大规模深度学习模型和最近开发的生成模型的方法。
注:最佳深度学习入门综述非你莫属了!
arXiv:https://arxiv.org/abs/1803.01164
[13]《Real-Time Deep Learning Method for Abandoned Luggage Detection in Video》
Abstract:最近在世界各大城市发生的恐怖袭击事件给无辜公民带来了许多伤亡。 在公共场所废弃的行李物品(可能包含炸弹或生物战争)代表了一种潜在的威胁。 论文描述了一种用于实时自动检测监控摄像机捕获的视频中遗弃行李的方法。 该方法由两个阶段组成:(i)基于背景扣除和运动估计的静态物体检测和(ii)基于卷积神经网络级联(CNN)的废弃行李识别。 为了训练神经网络,论文提供了两种类型的例子:从互联网收集的图像和通过在场景的背景上施加各种手提箱和袋子而生成的现实例子。 论文所提出的实证结果表明论文方法比强有力的CNN baseline方法产生更好的表现。
注:学术性一般,但研究应用的立意很赞!
arXiv:https://arxiv.org/abs/1803.01160
[14]《Teaching UAVs to Race With Observational Imitation Learning》
Abstract:最近的工作通过模仿teacher学习端到端策略来解决自主导航问题,该策略直接预测来自原始图像的控制。然而,这些方法往往对teacher的错误很敏感,并且不能很好地适应其他环境或车辆。为此,论文提出了一种将感知与控制分离的模块化网络架构,并且使用观察仿真学习(OIL)进行训练,该仿真学习变体支持在线培训并通过观察多位教师自动选择最佳行为。论文将提出的方法应用于无人驾驶飞行器(UAV)比赛的挑战性问题。论文开发了一个模拟器,可以生成大量的综合训练数据(包括无人机拍摄的图像及其控制),还可以进行在线学习和评估。论文训练一个感知网络,根据原始图像数据和控制网络预测航点,从而通过使用OIL从这些航点中预测无人机控制。论文的模块化网络能够通过高速挑战赛道自主驾驶无人机。大量实验表明,论文的训练网络在模拟方面优于teacher,端到端baseline甚至人类飞行员。补充视频可以在https://www.youtube.com/watch?v=PeTXSoriflc&feature=youtu.be此网址查看。
arXiv:https://arxiv.org/abs/1803.01129
youtube:https://www.youtube.com/watch?v=PeTXSoriflc&feature=youtu.be
[15]《Focal Loss Dense Detector for Vehicle Surveillance》
Abstract:深度学习在不同的计算机视觉应用中被广泛认为是一种有前途的方法。 具体来说, one-stage目标检测器和 two-stage目标检测器被认为是最重要的两组基于卷积神经网络的目标检测方法。 one-stage目标检测器在速度上通常优于two-stage目标检测器; 然而,与 two-stage目标检测器相比,它通常在检测精度方面落后。 在这项研究中,基于焦点损失(focal loss)的RetinaNet作为 one-stage目标检测器,可以很好地匹配常规 one-stage检测器的速度,并且还可以在精度上击败two-stage探测器,以用于车辆探测。 最先进的性能结果已经在DETRAC车辆数据集上显示出来。
注:基于RetinaNet的one-stage打败了two-stage,那若two-stage也结合RetinaNet呢?哈哈,目标检测先Mark。
arXiv:https://arxiv.org/abs/1803.01114
[16]《High-Dynamic-Range Imaging for Cloud Segmentation》
Published in AMT 2018
Abstract:通常使用具有宽视野的鱼眼镜头捕捉从地面天空摄像机获得的天空/云图像。 然而,天空在亮度方面呈现出很大的动态范围,比传统相机所能捕获的要多。 因此,使用普通相机一次拍摄整个场景的细节就很困难。 在大多数情况下,周围区域过度暴露,地平线附近区域曝光不足。 这使得这种图像的云分割困难。 在本文中,论文提出HDRCloudSeg--一种基于多次曝光融合的高动态范围(HDR)成像的云分割的有效方法。 论文描述了HDR图像生成过程,并向社区发布了新的数据库进行基准测试。 我们提出的方法是首次使用HDR辐射图进行云分割,并取得了非常好的效果。
arXiv:https://arxiv.org/abs/1803.01071
注:Sorry,这里配图...若感兴趣,请下载论文查看
[17]《Deep Continuous Clustering》
Abstract:高维数据集的聚类很困难,因为高维空间中的点间距变得不那么有用。 论文提出了一种聚类算法,它可以共同执行非线性降维和聚类。 数据由深度自动编码器嵌入到较低维空间中。 autoencoder作为集群过程的一部分进行了优化。 由此产生的网络产生集群数据。 所提出的方法不依赖于事先了解地面实况集群的数量。 联合非线性降维和聚类被制定为全球连续目标的优化。 因此,论文避免了表征先前聚类算法的目标的离散重新配置。 对来自多个域的数据集进行的实验表明,所提出的算法优于现有技术的聚类方案,包括使用深度网络的最新方法。
arXiv:https://arxiv.org/abs/1803.01449
GitHub:https://github.com/shahsohil/DCC
[18]《Chest X-Ray Analysis of Tuberculosis by Deep Learning with Segmentation and Augmentation》
Abstract:基于深度学习的2D图像的胸部X射线(CXR)分析结果以通过计算机辅助诊断(CADx)获得统计上可靠的预测(结核病的可用性)。论文通过深度卷积神经网络(CNN)证明肺部分割的效率,结核病CADx的无损和有损数据增加,甚至应用于小而不均衡的数据集。与原始未分段数据集相比,CNN展示了对肺分割后获得的预处理数据集进行训练(尽管过度拟合)的能力。与有损数据增强后的原始和其他预处理数据集相比,分段数据集的无损数据增强导致最低的验证损失(没有过拟合)和几乎相同的准确度(在标准偏差的范围内)。额外的有限有损数据增加会导致较低的验证损失,但会降低验证的准确性。总之,除了更复杂的深层CNN和更大的数据集之外,通过更好的分割,数据增强,数据集分层以及排除不明显的异常值,可以获得更小的,不均衡的数据集的更好CADx进展。
arXiv:https://arxiv.org/abs/1803.01199