混合环境下的数据分析正在成为一种可能

mac2024-12-03  23

这篇博客是由Madan Kumar和Alex Ma最初在medium上发表的。 随着数据生态系统变得非常复杂并且越来越分散,数据分析师和终端用户很难适应和使用混合环境。计算应用程序和存储介质的不断扩展,逐渐演化变成了一个我们不习惯的混合模型。

现在数据工程师使用这个分离的混合系统遇到了许多问题,他们必须解决这些问题才能从数据中分析获取有用的信息。

各种计算和存储之间的连接变得越来越复杂。由于缺乏计算的数据本地性,经常会出现性能低下的情况,这是我们以前在混搭环境(存储和计算同置)中没有遇到的新挑战。最终不得不通过高成本解决这个问题,主要是因为需要创建数据的多副本。当

他们需要数据离计算更近时,最终导致存储没有得到优化,并变得越来越饱和。 在全新一代Alluxio 2.0版本的数据生态系统中,数据工程师需要找到一种方式来使用混合环境,同时还能够对应用程序作最小的代码改动,并充分利用所有可用的存储系统。

今天,我们看到数据工程师尝试在这些混合环境中工作时,无法通过简单和透明的方式满足上述要求。很多时候,我们倾向于跨环境复制多个副本,期望实现本地性。另一方面,由于API的不兼容,用户难以使用更有效的计算方式。我们往往会莫名地遇到存储过载,且缺乏充分利用其它更经济的解决方法。

事实上,处理这些现代的计算工作负载需要解决一些不同的问题,大多数问题都来自计算和存储之间的虚拟层。与为容器等技术提供的编排框架类似,我们需要为数据提供编排框架。Alluxio(以前是Tachyon Nexus)就是这样一个开源系统,Alluxio提供的功能使得它能够作为现代数据编排的一个解决方案。 Alluxio提供了数据编排框架在混合环境中成功必需的一些特性。

这种框架允许工程师统一访问数据,不管数据位于哪个具体存储系统中。当新的计算没有与特定的存储集成时,这将变得越来越有必要。这使得你不需要考虑使用公共的接口。Alluxio的API转换允许用户继续将新技术引入他们的生态系统中,同时也确保以一种持久一致的方式来将它们连接在一起。Alluxio的分层功能还有助于解决数据访问速度慢的问题,同时让你可以使用成本更低的存储介质。

虽然在混合环境中工作具有很大的挑战性,但是在当今快速普及的数据生态系统中,这是我们必须解决的问题。今天,现代数据编排框架虽然没有解决全部的问题,但是在适应混合环境方面已经取得了很大的进步。

最新回复(0)