专题导读
随着大数据处理从粗放走向集约,性能、成本、功耗等多方面的约束为面向数据的系统结构设计提供了新的维度。一方面,众核CPU、新型存储器件、开源硬件等的出现为面向大数据的系统结构提供了新的机 会;另一方面,新型应用对时延、吞吐等方面要求的不断提升对大数据的系统结构提出了新的挑战。本专题汇集了国内活跃在一线的系统结构研究者的5篇文章,从大数据处理的并发索引结构、分布式查询框架、大数据存储系统、大数据访存分析和开源硬件等多个角度,探讨面向大数据的 系统结构的新思路、新机遇与新挑战,希望能引起读者兴趣,推动相关领域的研究与实践。严赵峰与张为华撰写的《面向大数据 的索引结构研究进展》分析了数据存储体量的增加和应用对性能要求的提高给并发索引结构带来的挑战。从技术角度探讨了如何设计高效易用的并发控制策略与提升并发索引结构性能,并提出了利用新型硬件设计新的并发索引结构的方法。柯学翰与陈榕撰写的《基于图查询系统的图计算引擎》指出:尽管在实际应用中面向大数据的图查询与图计算系统是相互耦合的,但在当前研究中对两者的研究很多情况下是相互独立的,故而不能较好地发挥出数据与计算状态互联互通带来的效果。为此,该论文介绍了如何基于图查询系统设计一种图计算引擎,从而在单一系统中支持查询与计算操作,并通过一系列优化, 达到了较好的性能。陈游旻、李飞与舒继武撰写的《大数据环境下的存储系统构建:挑战、方法和趋势》指出:大数据不止更“大”,而且要更 “快”。论文分析了新型存储介质带来的机遇与挑战,从闪存存储与持久性存储两种存储系统的构建方案出发,阐述了其各自面临的挑战,并总结了现有方案以及未来发展趋势。李作骏等人撰写的《一种软硬件结合的 大数据访存踪迹收集分析工具集》指出了内存计算时代访存行为分析的重要性,并对当前访问行为分析工具存在的不足进行了阐述。基于这些分析,论文提出了一种软硬件 结合的大数据访存踪迹收集分析工具集, 通过硬件在线收集基本访存踪迹,并结合软件信息同步及离线标注的方式,为大数据提供高性能、高保真的访存分析与收集工具。王诲喆等人撰写的《开源芯片、RISC-V 与敏捷开发》指出:随着摩尔定律几乎失效,传统通用芯片开发策略难以持续,而当前芯片开发的高门槛限制了面向大数据等领域专用芯片的设���,���计。论文介绍了开源芯片的发展历史及降低芯片开发门槛的作用,并对RISC-V指令集架构的特点进行了分析,分享了在前端设计中的敏捷开发实践,并对芯片开发的新发展与不足进行了讨论。本专题由于篇幅有限,不能涵盖面向大数据的系统结构的方方面面,希望通过阐述大数据系统结构面临的机遇与挑战,引起各界的关注和进一步研究,并推动其在多个行业中推广应用。