专题导读:大数据整理
在大数据时代,数据呈现多源、异构、 信息不一致、信息不完整等特点,这会造 成数据不完整、数据质量较低的问题。数 据整理(包括数据发现、数据准备、数据 清洗、数据融合等)旨在整合多源异构数 据,形成高质量的统一数据视图。由于数 据的异质性、开放性,数据整理成为大数 据处理的瓶颈,很多数据分析应用80%以 上的工作都花在了数据整理上。因此如何 实现高效的大数据的智能化整理,已成为 学术界与产业界共同关注的焦点。本专题 “大数据整理”汇集了我国从事大数据处 理方向的部分专家的研究成果,以期与大 家共同探讨该方向的前沿研究与技术发展 趋势。
范举等人的论文《人在回路的数据准备技术研究进展》给出了人在回路数据准 备技术的研究进展,详细分析了基于众包 的数据准备技术,如清洗与集成,并对众包成本做出优化;还总结了交互式数据准备技术,将用户交互引入数据准备中,并通过有效的预测算法来节省数据准备的时间。 最后,对人在回路的数据准备做出了总结, 并探讨了未来的挑战性问题。
丁小欧等人的论文《工业时序大数据质量管理》介绍了工业时序大数据的特点及工业数据质量管理的难点,并对工业时序大数据质量管理的研究现状加以分析、总结,最后提出了时序大数据质量管理方法和系统性能的提升方向。
于明鹤等人的论文《数据管护技术及应用》系统介绍了数据管护的处理过程和 其中的关键技术,给出了几种基于数据管 护的应用,并对其技术特点进行了对比分 析,还对数据管护技术的发展前景和未来挑战进行了总结。
包小源等人的论文《基于数据空间的电子病历数据融合与应用平台》针对电子病历数据的脱敏和集成进行分析,建立了基 于原始数据空间、匿名数据空间、模型数据空间的电子病历数据集成、融合、二次利用平台。
本专题由于篇幅有限,不能涵盖数据 整理的方方面面,希望通过阐述数据整理面临的机遇与挑战,引起各界的关注和进 一步研究,并推动其进一步发展。