在过去十年中,数据仓库要成为企业数据系统中心的观点开始以各种方式崩溃。原因很多, 包括复杂性的增加、速度和敏捷性的损失以及成本的增加等等不必要的结果。
结果是,分析不再越来越以自助服务为导向,而是第一次真正地倒退,远离了自助服务的理想。
现在倒退还在进行中,但与几年前的 IT 相比,有效且易于操作的自助服务变得更加难以实现。因此,分析师比以往任何时候都更加依赖 IT 工具。
在这篇关于数据的观点文章中,Dremio 的战略副总裁 Kelly Stirman 从行业信息的特点出发,认为值得去思考为什么会出现这种倒退趋势,以便企业能够理解未来使用自助服务分析的最佳方式。他向读者提供了以下观点:
原因 1: 构建、维护和分发抽取以及数据集市的复杂性
就像标准抽取、转换、加载(ETL)过程一样,数据准备的工具会创建另一个数据副本。当每个用户每次需要数据做分析时,IT 都去创建一个数据副本这是不可行的。结果是,数据准备工具离自助服务相去甚远,不可避免地必须要先管理复杂性和冗余的需求。
原因 2: 桌面工具在服务器规模数据集上的性能
自助服务分析落后趋势的另一个原因是,目前使用的许多自助服务工具都是为了在台式机或笔记本电脑上运行而构建的。因此,当分析人员需要在大型数据集上运行查询时,必须让这些查询在桌面上运行数小时,或者将它们作为批处理任务提交,从而使整个探索和分析过程陷入停顿,而这个过程本质应该是迭代的。
原因 3: 数据沿袭和治理问题
数据沿袭是指在整个历史过程中跟踪所创建数据的能力,包含在整个生命周期中经历的所有转换。如今,它成为����,����企业需求的主要原因之一,是为了加强保护用户隐私的法规 -- 尤其是出现了欧盟(EU)的《通用数据保护法规》(General Data Protection Regulation,GDPR)。虽然保护数据是有好处的,但对于分析师来说,数据更加难以访问。如果这种状况没有任何变化,自助服务分析将变得更加困难。
原因 4: 数据湖兴起和大数据应用
随着大数据的兴起,数据湖已经变得普遍 o,但由于存储的数据规模越来越大,性能方面无法相互影响,以及缺少模式或不具备可变性,因此在分析方面造成了一些问题。特别麻烦的是数据湖通常只能通过 IT 访问,一种方法是尝试在数据湖上用 SQL 引擎来运行,但这种方法太慢了。作为解决缓慢问题的临时方案,IT 部门将数据子集移动到 SQL 引擎和多维数据集中,但这不能提供自助服务分析的基本要求:反复的探索和分析。
原因 5: JSON 作为业务信息的重要存储库而兴起
JavaScript Object Notation(JSON)是一种流行的开放标准文件格式,使用人类可读的文本来传输属性组成的数据对象 -- 值对和数组数据类型。在本文的所有内容中,JSON 是自助服务发展倒退最直接的原因。为 SQL 设计的工具根本不能很好地处理 JSON,将 JSON 数据与其他数据混合非常具有挑战性。企业通过将 JSON 转换为关系型格式来解决,或是让开发人员在创建自定义仪表板时使用 web 框架来处理 JSON 而不是用 BI 工具。由于这两种策略都要依赖于 IT,也减少了自助服务分析的应用。
原因 6: 微服务的剧增
微服务允许高度定制的用户体验,但另一方面也导致分析师面临很多障碍。会遇到像 Humpty Dumpty(蛋头先生)一样的情况:将数据解构成较小的部分,意味着最终必须有人将它重新组合在一起以使其有用,否则业务用户无法将其用于工作,这使得整合成为其中一项重大挑战。这大大增加了分析人员必须访问的存储库的数量,而且很明显自助服务分析变得更加困难,因为数据消费者必须等待 IT 将数据放在一起才能进行分析。
第 7:总结:下一步该做什么?
因此,考虑到所有这些复杂性,我们如何将趋势转向自助服务分析?Kelly 这样说:
公司需要一个平台,允许它将各种数据源和多种形式的数据集成在一起,并将所有这些信息整合在一起,以便加速分析。
这种类型的系统还需要避免创建独立的数据的抽取,这样就不会扩散出很多副本。
这个过程必须由分析师自己操作,而不是由 IT 来协助,从而使分析人员能够探索所有期望的数据,进行交互,并迭代他们的工作。