大数据架构如何做到流批一体?

大数据分析在结合现代科技手段后,对各产业产生了巨大的经济和社会价值。这是许多企业在这一领域深耕的原因。大数据分析场景中需要解决哪些技术挑战?目前有哪些主流的大数据架构模式及其发展情况?本文将逐一解读,并介绍如何利用云上的存储和计算组件,构建更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景。

大数据处理的挑战已被越来越多的行业和技术领域所需,例如金融行业利用大数据系统结合VaR(风险价值)或机器学习方案进行信贷风控,零售和餐饮行业通过大数据系统辅助销售决策,各种物联网场景需要大数据系统持续聚合和分析时序数据,科技公司则需要建立大数据分析中台等。

从抽象的角度来看,支持这些场景需求的分析系统面临着大致相同的技术挑战:

业务分析的数据范围横跨实时数据和历史数据,既需要低延迟的实时数据分析,也需要对PB级的历史数据进行探索性的数据分析。可靠性和可扩展性问题,用户可能会存储海量的历史数据,同时数据规模持续增长,需要引入分布式存储系统来满足可靠性和可扩展性需求,同时保证成本可控。技术深,需要组合流式组件、存储系统、计算组件。可运维性要求高,复杂的大数据架构难以维护和管理。

大数据架构的发展

Lambda架构

Lambda架构是目前影响最深远的大数据处理架构。其核心思想是将不可变的数据以追加的方式并行写入批处理和流处理系统,随后在流和批系统中分别实现相同的计算逻辑,并在查询阶段合并流和批的计算视图展示给用户。Lambda的提出者Nathan Marz假定了批处理相对简单不易出错,而流处理相对不太可靠,因此流处理器可以使用近似算法快速产生视图的近似更新,而批处理系统则采用较慢的精确算法,产生相同视图的校正版本。

大数据架构如何做到流批一体?

图1展示了Lambda架构的示例。

Lambda架构的典型数据流程是(https://www.php.cn/link/33b2260650d881180c21b62b4de5f3d2):

所有的数据需要分别写入批处理层和流处理层。批处理层有两个职责:(i)管理master dataset(存储不可变、追加写的全量数据),(ii)预计算batch view。服务层对batch view建立索引,以支持低延迟、ad-hoc方式查询view。流计算层作为速度层,对实时数据计算近似的real-time view,作为高延迟batch view的补偿快速视图。所有的查询需要合并batch view和real-time view。

Lambda架构设计推广了在不可变的事件流上生成视图,并且可以在必要时重新处理事件的原则,该原则保证了系统随需求演进时,始终可以创建相应的新视图,切实可行地满足了不断变化的历史数据和实时数据分析需求。

Lambda架构的四个挑战

Lambda架构非常复杂,在数据写入、存储、对接计算组件以及展示层都有复杂的子课题需要优化:

写入层上,Lambda没有对数据写入进行抽象,而是将双写流批系统的一致性问题反推给了写入数据的上层应用。存储上,以HDFS为代表的master dataset不支持数据更新,持续更新的数据源只能以定期拷贝全量snapshot到HDFS的方式保持数据更新,数据延迟和成本比较大。计算逻辑需要分别在流批框架中实现和运行,而在类似Storm的流计算框架和Hadoop MR的批处理框架做job开发、调试、问题调查都是比较复杂的。结果视图需要支持低延迟的查询分析,通常还需要将数据派生到列存分析系统,并保证成本可控。

流批融合的Lambda架构

针对Lambda架构的问题3,即计算逻辑需要分别在流批框架中实现和运行的问题,不少计算引擎已经开始往流批统一的方向发展,例如Spark和Flink,从而简化Lambda架构中的计算部分。实现流批统一通常需要支持:

以相同的处理引擎来处理实时事件和历史回放事件。支持exactly once语义,保证有无故障情况下计算结果完全相同。支持以事件发生时间而不是处理时间进行窗口化。

Kappa架构

Kappa架构由Jay Kreps提出,不同于Lambda同时计算流计算和批计算并合并视图,Kappa只会通过流计算一条的数据链路计算并产生视图。Kappa同样采用了重新处理事件的原则,对于历史数据分析类的需求,Kappa要求数据的长期存储能够以有序log流的方式重新流入流计算引擎,重新产生历史数据的视图。

大数据架构如何做到流批一体?

图2展示了Kappa大数据架构。

Kappa方案通过精简链路解决了数据写入和计算逻辑复杂的问题,但它依然没有解决存储和展示的问题,特别是在存储上,使用类似Kafka的消息队列存储长期日志数据,数据无法压缩,存储成本很大。绕过方案是使用支持数据分层存储的消息系统(如Pulsar,支持将历史消息存储到云上存储系统),但是分层存储的历史日志数据仅能用于Kappa backfill作业,数据的利用率依然很低。

Lambda和Kappa的场景区别

Kappa不是Lambda的替代架构,而是其简化版本,Kappa放弃了对批处理的支持,更擅长业务本身为append-only数据写入场景的分析需求,例如各种时序数据场景,天然存在时间窗口的概念,流式计算直接满足其实时计算和历史补偿任务需求。Lambda直接支持批处理,因此更适合对历史数据有很多ad hoc查询的需求的场景,比如数据分析师需要按任意条件组合对历史数据进行探索性的分析,并且有一定的实时性需求,期望尽快得到分析结果,批处理可以更直接高效地满足这些需求。

Kappa+

Kappa+是Uber提出的流式数据处理架构,其核心思想是让流计算框架直读HDFS类的数仓数据,一并实现实时计算和历史数据backfill计算,不需要为backfill作业长期保存日志或者把数据拷贝回消息队列。Kappa+将数据任务分为无状态任务和时间窗口任务,无状态任务比较简单,根据吞吐速度合理并发扫描全量数据即可,时间窗口任务的原理是将数仓数据按照时间粒度进行分区存储,窗口任务按时间序一次计算一个partition的数据,partition内乱序并发,所有分区文件全部读取完毕后,所有source才进入下个partition消费并更新watermark。事实上,Uber开发了Apache Hudi框架来存储数仓数据,Hudi支持更新、删除已有parquet数据,也支持增量消费数据更新部分,从而系统性解决了存储的问题。

大数据架构如何做到流批一体?

图3展示了Uber围绕Hadoop dataset的大数据架构。

混合分析系统的Kappa架构

Lambda和Kappa架构都还有展示层的困难点,结果视图如何支持ad-hoc查询分析,一个解决方案是在Kappa基础上衍生数据分析流程,如下图4,在基于使用Kafka + Flink构建Kappa流计算数据架构,针对Kappa架构分析能力不足的问题,再利用Kafka对接组合ElasticSearch实时分析引擎,部分弥补其数据分析能力。但是ElasticSearch也只适合对合理数据量级的热数据进行索引,无法覆盖所有批处理相关的分析需求,这种混合架构某种意义上属于Kappa和Lambda间的折中方案。

大数据架构如何做到流批一体?

图4展示了Kafka + Flink + ElasticSearch的混合分析系统。

小鸽子助手 小鸽子助手

一款集成于WPS/Word的智能写作插件

小鸽子助手 55 查看详情 小鸽子助手

Lambda plus:Tablestore + Blink流批一体处理框架

Lambda plus是基于Tablestore和Blink打造的云上存在可以复用、简化的大数据架构模式,架构方案全serverless即开即用,易搭建免运维。

表格存储(Tablestore)是阿里云自研的NoSQL多模型数据库,提供PB级结构化数据存储、千万TPS以及毫秒级延迟的服务能力,表格存储提供了通道服务(TunnelService)支持用户以按序、流式地方式消费写入表格存储的存量数据和实时数据,同时表格存储还提供了多元索引功能,支持用户对结果视图进行实时查询和分析。

Blink是阿里云在Apache Flink基础上深度改进的实时计算平台,Blink旨在将流处理和批处理统一,实现了全新的Flink SQL技术栈,在功能上,Blink支持现在标准SQL几乎所有的语法和语义,在性能上,Blink也比社区Flink更加强大。

在TableStore + Blink的云上Lambda架构中,用户可以同时使用表格存储作为master dataset和batch&stream view,批处理引擎直读表格存储产生batch view,同时流计算引擎通过Tunnel Service流式处理实时数据,持续生成stream view。

大数据架构如何做到流批一体?

图5展示了Tablestore + Blink的Lambda plus大数据架构。

如上图5,其具体组件分解:

Lambda batch层:Tablestore直接作为master dataset,支持用户直读,配合Tablestore多元索引,用户的线上服务直读、ad-hoc查询master dataset并将结果返回给用户;Blink批处理任务向Tablestore下推SQL的查询条件,直读Tablestore master dataset,计算batch view,并将batch view重新写回Tablestore。Streaming层:Blink流处理任务通过表格存储TunnelService API直读master dataset中的实时数据,持续产生stream view;Kappa架构的backfill任务,可以通过建立全量类型数据通道,流式消费master dataset的存量数据,从新计算。Serving层:为存储batch view和stream view的Tablestore结果表建立全局二级索引和多元索引,业务可以低延迟、ad-hoc方式查询。

大数据架构如何做到流批一体?

图6展示了Lambda plus的数据链路。

针对上述Lambda架构1-4的技术问题,Lambda plus的解决思路:

针对数据写入的问题,Lambda plus数据只需要写入表格存储,Blink流计算框架通过通道服务API直读表格存储的实时数据,不需要用户双写队列或者自己实现数据同步。存储上,Lambda plus直接使用表格存储作为master dataset,表格存储支持用户tp系统低延迟读写更新,同时也提供了索引功能ad-hoc查询分析,数据利用率高,容量型表格存储实例也可以保证数据存储成本可控。计算上,Lambda plus利用Blink流批一体计算引擎,统一流批代码。展示层,表格存储提供了多元索引和全局二级索引功能,用户可以根据解决视图的查询需求和存储体量,合理选择索引方式。

总结,表格存储实现了batch view、master dataset直接查询、stream view的功能全集,Blink实现流批统一,Tablestore加Blink的Lambda plus模式可以明显简化Lambda架构的组件数量,降低搭建和运维难度,拓展用户数据价值。

表格存储是如何实现支持上述功能全集的存储引擎的高并发、低延迟特性:

表格存储面向在线业务提供高并发、低延迟的访问,并且tps按分区水平扩展,可以有效支持批处理和Kappa backfill的高吞吐数据扫描和流计算按分区粒度并发实时处理。使用通道服务精简架构:Tablestore数据通道支持用户以按序、流式地方式消费写入表格存储的存量数据和实时数据,避免Lambda架构引入消息队列系统以及master dataset和队列的数据一致性问题。二级索引和多元索引的灵活查询能力:存储在表格存储的batch view和real-time view可以使用多元索引和二级索引实现ad-hoc查询,使用多元索引进行聚合分析计算;同时展示层也可以利用二级索引和多元索引直接查询表格存储master dataset,不强依赖引擎计算结果。

Lambda plus的适用场景

基于Tablestore和Blink的Lambda plus架构,适用于基于分布式NoSQL数据库存储数据的大数据分析场景,如物联网、时序数据、爬虫数据、用户行为日志数据存储等,数据量以TB级为主。典型的业务场景如:

大数据舆情分析系统:

大数据架构如何做到流批一体?

参考资料

[1]. https://www.php.cn/link/4b34cc1bf1623b6d6532ed63ff6ae276

[2]. https://www.php.cn/link/33b2260650d881180c21b62b4de5f3d2

[3]. https://www.php.cn/link/b54732be9ea48e497ad2813b4cb8930f, Martin Kleppmann

[4]. https://www.php.cn/link/5c1917d0afc16d36b7b2471ae6a664ad

[5]. https://www.php.cn/link/9f07f48cb91caf26dc0e4d76caac2826, Jay Kreps

[6]. https://www.php.cn/link/f186e7fae622a7798ce7f1bccac9a247

[7]. Moving from Lambda and Kappa Architectures to Kappa+ at Uber

[8]. https://www.php.cn/link/4d991fb80216eb56bab6d06f6f292a0e, Prasanna Rajaperumal and Vinoth Chandar

[9]. https://www.php.cn/link/78cfc36b921a50fba024eca72d6a458e, Reza Shiftehfar

以上就是大数据架构如何做到流批一体?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/739544.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月25日 14:32:16
下一篇 2025年11月25日 14:32:38

相关推荐

  • php配置如何优化图片处理_php配置GD库的详细教程

    首先确认GD库是否安装并启用,通过命令检查模块和详细信息;若未安装,使用包管理器或源码编译方式添加GD支持;随后调整php.ini中的memory_limit和max_execution_time参数以优化性能;接着创建测试脚本验证图像生成功能;最后安装开发库并重新编译以启用PNG、JPEG、Web…

    2025年12月12日
    000
  • php配置如何启用断言功能_php配置调试辅助的工具

    首先启用断言功能,通过修改php.ini文件设置assert.active = On并重启服务器,或使用assert_options函数在运行时动态开启;接着在代码中用assert()插入条件判断,如assert($value > 0)和assert($array !== null, &#82…

    2025年12月12日
    000
  • php代码如何制作爬虫程序_php代码抓取网页数据的技术解析

    使用PHP编写爬虫可高效抓取网页数据。首先通过file_get_contents或cURL获取页面内容,前者适用于简单静态页,后者支持更多请求控制;接着利用DOMDocument与XPath解析HTML,精准提取目标元素;为应对反爬机制,需设置合理请求头、添加延时及使用代理IP,并监控状态码以优化请…

    2025年12月12日
    000
  • php调用日期时间函数_php调用date进行时间格式转换

    date()函数用于格式化输出日期时间,语法为string date(string $format[, int $timestamp]),常用格式符如Y、m、d、H、i、s等,可结合strtotime()处理指定时间戳,需注意时区设置与大小写区别。 在PHP中,date() 函数是最常用的日期时间处…

    2025年12月12日
    000
  • php数据库连接超时设置_php数据库网络异常处理方案

    调整PDO和MySQLi超时设置可解决PHP数据库连接超时问题。1、PDO中设置ATTR_TIMEOUT、MYSQL_ATTR_CONNECT_TIMEOUT和MYSQL_ATTR_READ_TIMEOUT控制连接与读取超时;2、MySQLi通过ini_set和mysqli_options配置连接与…

    2025年12月12日
    000
  • Laravel用户注册后自动登录的最佳实践

    针对laravel用户注册后登录不一致的问题,本教程将介绍如何通过`auth::login()`方法直接登录新创建的用户实例,从而确保注册流程的顺畅与可靠性。文章还将探讨`auth::attempt()`在注册后可能遇到的局限性,并提供一个简洁、高效且符合最佳实践的代码示例,帮助开发者优化用户体验,…

    2025年12月12日
    000
  • 获取PHP调用者文件命名空间的技巧

    本文探讨了在php中,如何在不显式传递参数的情况下,从一个静态方法中获取调用该方法的文件的命名空间。通过结合`debug_backtrace()`函数定位调用者文件路径,并利用php的`token_get_all()`进行文件内容解析,可以精确地提取出调用者文件的命名空间声明,解决了标准`names…

    2025年12月12日
    000
  • Laravel 中高效串联数据库查询:从上一个查询结果中获取数据

    本文旨在指导读者如何在 Laravel 中高效地串联数据库查询,即利用前一个查询的结果作为后续查询的条件。我们将重点探讨如何正确地获取单个查询结果、避免常见的性能陷阱,并展示如何利用 Laravel Eloquent 的强大功能编写简洁且高效的代码,确保数据检索的准确性和应用程序的性能。 理解查询结…

    2025年12月12日
    000
  • CodeIgniter 3 SMTP邮件发送失败:换行符配置的深度解析与解决方案

    本文深入探讨了CodeIgniter 3框架中SMTP邮件发送失败的常见问题,特别是由于换行符配置不当导致的“无法通过SMTP发送邮件”错误。通过分析CodeIgniter邮件库的配置细节,重点介绍了如何使用`$this->email->set_newline(“rn&#82…

    2025年12月12日
    000
  • 解决 PHP 扩展缺失问题:Cpanel 环境下的排查与修复

    本文旨在解决在 cpanel 环境下,php 扩展(如 `json` 和 `mbstring`)看似已启用却仍报错缺失的问题。核心解决方案包括使用 `phpinfo()` 详细验证扩展的实际激活状态,并强调在配置更改后,必须重启相关的 web 服务器和/或 php-fpm 服务,以确保新的配置生效,…

    2025年12月12日
    000
  • 如何在PHP中获取调用类的文件命名空间

    本文探讨了在php中,如何在不显式传递参数的情况下,从一个被调用的类方法中获取调用该方法的文件的命名空间。通过结合使用 `debug_backtrace()` 获取调用文件路径,并利用 `token_get_all()` 解析文件内容来提取命名空间声明,我们能够实现这一目标。文章详细介绍了实现原理、…

    2025年12月12日
    000
  • Laravel 8:实现按组ID筛选和创建周报的完整指南

    本文详细介绍了在laravel 8应用中,如何通过路由参数实现对特定组id的周报数据进行筛选展示,并指导如何扩展功能以确保新创建的周报自动关联到相应的组。文章涵盖了路由配置、控制器参数接收、数据查询过滤以及创建流程的优化,旨在帮助开发者构建更具针对性的数据管理功能。 引言 在企业应用中,根据特定条件…

    2025年12月12日
    000
  • PHP字符串中解析关联数组:理解简单与复杂语法及最佳实践

    本文探讨php在双引号字符串中解析关联数组值时的行为差异。我们将解释为何索引数组可直接解析,而关联数组的带引号键则需要特殊处理。文章将介绍两种解决方案:一种是关联数组键不带引号的简单语法,另一种是通用且强大的花括号复杂语法,并提供使用场景和最佳实践。 在PHP中,双引号字符串提供了一种方便的变量插值…

    2025年12月12日
    000
  • Laravel 8:在不同控制器中实现基于群组ID的报告数据过滤与创建

    本文详细阐述了在 laravel 8 应用中,如何通过路由参数传递群组id,在不同控制器(如 `weeklyreportcontroller`)中实现对特定群组报告数据的过滤显示。教程涵盖了路由定义、url生成、控制器参数获取以及数据查询过滤的关键步骤,并提供了创建群组专属报告的实现策略,确保数据关…

    2025年12月12日
    000
  • 解决 Laravel Blade 视图中局部 CSS 文件未加载的问题

    本文旨在解决 laravel blade 视图中特定 css 文件未能正确加载的问题。当尝试在子视图中使用 `@section` 引入样式时,若父布局文件缺少对应的 `@yield` 指令,则样式将无法渲染。教程将详细解释 blade 模板继承机制,并提供正确的父子视图配置示例,确保局部样式能够按预…

    2025年12月12日
    000
  • 在PHP中创建可被JavaScript解析的JSON对象

    本文旨在解决PHP中使用`json_encode`创建JSON对象时,JavaScript客户端解析失败的问题。通过`htmlspecialchars`函数转义特殊字符,或设置正确的HTTP头部信息,可以确保生成的JSON字符串能够被JavaScript正确解析。本文将详细介绍这两种方法,并提供示例…

    2025年12月12日
    000
  • 解决 PHP 扩展缺失错误:以 json 和 mbstring 为例

    当 php 脚本提示 json 或 mbstring 等扩展缺失,即使已在控制面板中启用,这通常是配置未加载或服务未重启所致。本教程将指导您通过 phpinfo() 验证扩展状态,并确保正确启用后,重启相关服务以彻底解决此问题。 在 PHP 应用部署过程中,开发者经常会遇到“请求的 PHP 扩展缺失…

    2025年12月12日
    000
  • Laravel SQS 队列任务:正确获取任务负载(Payload)数据

    本文旨在解决 laravel 队列在使用 aws sqs 时,如何在任务(job)的 `handle` 方法中正确访问传入数据或原始队列消息负载的问题。我们将深入探讨常见的变量命名冲突陷阱,并提供清晰的解决方案和代码示例,帮助开发者高效地获取任务执行所需的所有信息,确保队列任务的顺利运行和数据处理的…

    2025年12月12日
    000
  • Laravel与AWS SQS集成:深入理解队列作业负载与数据访问

    本教程旨在解决laravel与aws sqs集成中,如何正确访问队列作业的自定义数据和原始负载(payload)的常见困惑。我们将详细讲解如何避免属性命名冲突,并通过示例代码演示在handle方法中获取构造函数传递的数据以及底层的队列作业实例,从而有效处理队列任务。 在Laravel应用中,队列是处…

    2025年12月12日
    000
  • TCPDF文件保存失败:macOS/Linux环境下权限与路径问题解析

    本文探讨了tcpdf在macos等类unix环境下使用’f’模式保存pdf文件时常见的权限拒绝错误。核心原因在于文件保存路径不正确或目标文件夹缺乏写入权限。教程详细指导如何确定正确的绝对文件系统路径,并使用`chmod`命令调整文件夹权限,强调开发与生产环境权限设置的区别,确…

    2025年12月12日
    000

发表回复

登录后才能评论
关注微信