穿梭时空的实时计算框架——Flink对时间的处理

穿梭时空的实时计算框架——Flink对时间的处理

flink对于流处理架构的意义十分重要,kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠flink来完成。

在Streaming-大数据的未来一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具。而Flink对两者都有非常好的支持。

Flink对于正确性的保证

对于连续的事件流数据,由于我们处理时可能有事件暂未到达,可能导致数据的正确性受到影响,现在采取的普遍做法的通过高延迟的离线计算保证正确性,但是也牺牲了低延迟。

Flink的正确性体现在计算窗口的定义符合数据产生的自然规律。比如点击流事件,追踪3个用户A,B,C的访问情况。我们看到数据是可能有间隙的,这也就是session窗口。

穿梭时空的实时计算框架——Flink对时间的处理

用SparkStreaming的微批处理方式(虚线为计算窗口,实线是会话窗口),很难做到计算窗口与会话窗口的吻合。而使用Flink的流处理API,可以灵活的定义计算窗口。比如可以设置一个值,如果超出这个值就认为活动结束。

穿梭时空的实时计算框架——Flink对时间的处理

不同于一般的流处理,Flink可以采用事件时间,这对于正确性非常有用。

对于发生故障性的正确性保证,必须要跟踪计算状态,现在大部分时候状态性的保证是靠开发人员完成的,但是连续的流处理计算没有终点。Flink采用检查点-checkpoint技术解决了这个问题。在每个检查点,系统都会记录中间计算状态,从而在故障发生时准确地重 置。这一方法使系统以低开销的方式拥有了容错能力——当一切正常时, 检查点机制对系统的影响非常小。

Flink提供的接口,包括了跟踪计算的任务,并用同一种技术来实现流处理和批处理,简化了运维开发工作,这也是对正确性的一种保证。

Flink对于时间的处理

用流处理和批处理最大的区别就是对时间的处理。

采用批处理架构处理

在该架构中,我们可以每隔一段时间存储数据,比如存在HDFS中,由调度程序定时的执行,将结果输出。

穿梭时空的实时计算框架——Flink对时间的处理

这种架构可行但是有几个问题:

太多独立的部分。为了计算数据中的事件数,这种架构动用了太多系统。每一个系统都有学习成本和管理成本,还可能存在 bug。对时间的处理方法不明确。假设需要改为每 30 分钟计数一次。这个变动涉及工作流调度逻辑(而不是应用程序代码逻辑),从而使 DevOps 问题 与业务需求混淆。预警。假设除了每小时计数一次外,还需要尽可能早地收到计数预警( 如在事件数超过10 时预警)。为了做到这一点,可以在定期运行的批处理作业之外,引入 Storm 来采集消息流。Storm 实时提供近似的计数,批处理作业每小时提供准确的计数。但是这样一来,就向架构增加了一个系统,以及与之相关的新编程模型。上述架构叫作 Lambda 架构。

穿梭时空的实时计算框架——Flink对时间的处理

乱序事件流。在现实世界中,大多数事件流都是乱序的,即事件的实际发生顺序和数据中心所记录的顺序不一样。这意味着本属于前一批的事件可能被错误地归入当前一批。批处理架构很难解决这个问题,大部分人则选择忽视它。批处理作业的界限不清晰。在分割时间点前后的事件既可能被归入前一批,也可能被归入当前一批。采用流处理

首先将消息集中写入消息传输系统kafka,事件流由消息传输系统提供,并且只被单一的 Flink 作业处理。

穿梭时空的实时计算框架——Flink对时间的处理

以时间为单位把事件流分割为一批批任务,这种逻辑完全嵌入在 Flink 程序的应用逻辑中。预警由同一个程序生成,乱序事件由 Flink 自行处理。要从以固定时间分组改为根据产生数据的时间段分组,只需在 Flink 程序中修改对窗口的定义即可。此外,如果应用程序的代码有过改动,只需重播 Kafka 主题,即可重播应用程序。采用流处理架构,可以大幅减少需要学习、管理和编写代码的系统。Flink 应用程序代码示例:

代码语言:javascript代码运行次数:0运行复制

DataStream stream = env// 通过Kafka生成数据流.addSource(new FlinkKafkaConsumer(...))// 分组.keyBy("country")// 将时间窗口设为60分钟.timeWindow(Time.minutes(60))// 针对每个时间窗口进行操作.apply(new CountPerWindowFunction());

在流处理中,主要有两个时间概念 :

事件时间,即事件实际发生的时间。更准确地说,每一个事件都有一个与它相关的时间戳,并且时间戳是数据记录的一部分。

处理时间,即事件被处理的时间。处理时间其实就是处理事件的机器所测量的时间。

穿梭时空的实时计算框架——Flink对时间的处理

以《星球大战》系列电影为例。首先上映的 3 部电影是该系列中的第 4、5、 6 部(这是事件时间),它们的上映年份分别是 1977 年、1980 年和 1983 年 (这是处理时间)。之后按事件时间上映的第 1、2、3、7 部,对应的处理时间分别是 1999 年、2002 年、2005 年和 2015 年。由此可见,事件流的顺序可能是乱的(尽管年份顺序一般不会乱)

通常还有第 3 个时间概念,即摄取时间,也叫作进入时间。它指的是事件进入流处理框架的时间。缺乏真实事件时间的数据会被流处理器附上时间戳,即流处理器第一次看到它的时间(这个操作由 source 函数完成,它是程序的第一个处理点)。

在现实世界中,许多因素(如连接暂时中断,不同原因导致的网络延迟, 分布式系统中的时钟不同步,数据速率陡增,物理原因,或者运气差)使 得事件时间和处理时间存在偏差(即事件时间偏差)。事件时间顺序和处理 时间顺序通常不一致,这意味着事件以乱序到达流处理器。

ViiTor实时翻译 ViiTor实时翻译

AI实时多语言翻译专家!强大的语音识别、AR翻译功能。

ViiTor实时翻译 116 查看详情 ViiTor实时翻译

Flink 允许用户根据所需的语义和对准确性的要求选择采用事 件时间、处理时间或摄取时间定义窗口。

窗口

时间窗口是最简单和最有用的一种窗口。它支持滚动和滑动。

比如一分钟滚动窗口收集最近一分钟的数值,并在一分钟结束时输出总和:

穿梭时空的实时计算框架——Flink对时间的处理

一分钟滑动窗口计算最近一分钟的数值总和,但每半分钟滑动一次并输出 结果:

穿梭时空的实时计算框架——Flink对时间的处理

在 Flink 中,一分钟滚动窗口的定义如下。

代码语言:javascript代码运行次数:0运行复制

stream.timeWindow(Time.minutes(1))

每半分钟(即 30 秒)滑动一次的一分钟滑动窗口如下所示。

代码语言:javascript代码运行次数:0运行复制

stream.timeWindow(Time.minutes(1), Time.seconds(30))

Flink 支持的另一种常见窗口叫作计数窗口。采用计数窗口时,分组依据不 再是时间戳,而是元素的数量。

滑动窗口也可以解释为由 4 个元素组成的计数窗口,并且每两个元素滑动一次。滚动和滑动的计数窗 口分别定义如下。

代码语言:javascript代码运行次数:0运行复制

stream.countWindow(4)stream.countWindow(4, 2)

虽然计数窗口有用,但是其定义不如时间窗口严谨,因此要谨慎使用。时 间不会停止,而且时间窗口总会“关闭”。但就计数窗口而言,假设其定义 的元素数量为 100,而某个 key 对应的元素永远达不到 100 个,那么窗口就 永远不会关闭,被该窗口占用的内存也就浪费了。

Flink 支持的另一种很有用的窗口是会话窗口。会话窗口由超时时间设定,即希望等待多久才认为会话已经结束。示例如下:

代码语言:javascript代码运行次数:0运行复制

stream.window(SessionWindows.withGap(Time.minutes(5))

触发器

除了窗口之外,Flink 还提供触发机制。触发器控制生成结果的时间,即何时聚合窗口内容并将结果返回给用户。每一个默认窗口都有一个触发器。例如,采用事件时间的时间窗口将在收到水印时被触发。对于用户来说, 除了收到水印时生成完整、准确的结果之外,也可以实现自定义的触发器。

时间回溯

流处理架构的一个核心能力是时间的回溯机制。意味着将数据流倒回至过去的某个时间,重新启动处理程序,直到处理至当前时间为止。Kafka支持这种能力。

穿梭时空的实时计算框架——Flink对时间的处理

实时流处理总是在处理最近的数据(即图中“当前时间”的数据),历史流处理 则从过去开始,并且可以一直处理至当前时间。流处理器支持事件时间, 这意味着将数据流“倒带”,用同一组数据重新运行同样的程序,会得到相同的结果。

水印

Flink 通过水印来推进事件时间。水印是嵌在流中的常规记录,计算程序通 过水印获知某个时间点已到。收到水印的窗口就知道 不会再有早于该时间的记录出现,因为所有时间戳小于或等于该时间的事 件都已经到达。这时,窗口可以安全地计算并给出结果(总和)。水印使事 件时间与处理时间完全无关。迟到的水印(“迟到”是从处理时间的角度而言)并不会影响结果的正确性,而只会影响收到结果的速度。

水印由应用程序开发人员生成,这通常需要对相应的领域有 一定的了解。完美的水印永远不会错:时间戳小于水印标记时间的事件不会再出现。

如果水印迟到得太久,收到结果的速度可能就会很慢,解决办法是在水印 到达之前输出近似结果(Flink 可以实现)。如果水印到达得太早,则可能收到错误结果,不过 Flink 处理迟到数据的机制可以解决这个问题。

以上就是穿梭时空的实时计算框架——Flink对时间的处理的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/390877.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月6日 15:42:59
下一篇 2025年11月6日 15:44:02

相关推荐

  • 如何实现Golang的方法继承 分析组合与嵌入的面向对象特性

    go语言通过结构体组合和内嵌实现代码复用,组合表示“拥有”关系,需显式调用被包含结构体的方法,如car拥有engine,调用时需通过car.engine.start();内嵌则通过匿名字段将方法和字段提升到外层结构体,实现“是”或“像”的关系,如robot内嵌engine后可直接调用r.start(…

    2025年12月15日
    000
  • 怎样为Golang配置自动化fuzz测试 使用go-fuzz进行模糊测试

    go-fuzz通过生成大量非预期输入来发现go代码中的崩溃、错误和安全漏洞,其核心步骤包括安装工具、编写符合func fuzz(data []byte) int签名的模糊测试函数、使用go-fuzz-build构建测试二进制文件并运行go-fuzz进行持续测试,该方法能有效突破传统测试依赖人为预期的…

    2025年12月15日
    000
  • 怎样用Golang的flag库解析参数 实现命令行工具配置

    Go语言flag包可解析命令行参数,支持字符串、整型、布尔等类型,通过flag.StringVar、flag.BoolVar等定义参数,flag.Parse()解析输入,支持默认值与帮助信息生成,可用于构建带子命令的命令行工具。 Go语言标准库中的 flag 包提供了简单高效的方式来解析命令行参数,…

    2025年12月15日
    000
  • Golang中值传递与指针传递的GC影响 内存回收机制分析

    值传递可能增加gc压力,指针传递需谨慎管理生命周期。1. 值传递创建副本,导致更多内存分配,从而间接增加gc工作量,尤其在处理大型结构体时显著;2. 指针传递仅复制地址,减少内存分配,提升gc效率,但需注意共享状态带来的并发问题和逻辑内存泄露风险;3. 实际开发中应根据数据大小、可变性、逃逸分析结果…

    2025年12月15日 好文分享
    000
  • Go语言反射:按名称动态调用结构体方法

    本文深入探讨了Go语言中如何利用reflect包实现按名称动态调用结构体方法。通过reflect.ValueOf获取对象实例的反射值,接着使用MethodByName查找指定名称的方法,并最终通过Call方法执行该方法。教程将详细解析这一过程,并提供示例代码,同时指出使用反射时的注意事项,如方法可见…

    2025年12月15日
    000
  • Go语言:使用反射动态调用结构体方法

    本教程详细阐述了在Go语言中如何利用反射机制动态地调用结构体的特定方法。通过 reflect.ValueOf 获取结构体实例的反射值,接着使用 MethodByName 查找指定名称的方法,最终通过 Call 方法执行该函数。文章提供了清晰的代码示例,并探讨了反射调用方法的注意事项,包括性能、错误处…

    2025年12月15日
    000
  • 为什么说Golang反射不适合业务代码 探讨反射的合理使用边界与场景

    反射不适合业务代码因可读性差、性能损耗大、维护成本高,合理使用在框架层。1.反射使代码逻辑模糊,字段操作冗长易错,拼写错误或类型不匹配导致运行时问题;2.反射为运行时机制,性能开销比直接访问低几十至上百倍,高频场景影响显著;3.适用场景如orm框架、序列化解析器、依赖注入容器等通用组件,由专业开发者…

    2025年12月15日 好文分享
    000
  • 在Go语言中通过反射实现结构体方法的动态调用

    本文详细介绍了如何在Go语言中使用reflect包实现结构体方法的动态调用。通过将对象包装为reflect.Value,查找指定名称的方法,并利用Call方法执行,开发者可以在运行时根据字符串名称灵活地调用方法。文章将提供清晰的代码示例,并探讨反射机制的关键注意事项,包括方法可见性、参数传递、返回值…

    2025年12月15日
    000
  • 如何用Golang实现并发限流器 对比令牌桶与漏桶算法实现

    golang实现并发限流器的方法有三种:1. 基于channel的限流器,通过缓冲channel控制最大并发数,请求到来时发送数据到channel,处理完后接收数据释放位置,若channel满则阻塞等待;2. 基于golang.org/x/time/rate的令牌桶限流器,使用rate包创建令牌桶,…

    2025年12月15日 好文分享
    000
  • Golang的panic和recover怎么配合使用 说明异常恢复的正确姿势

    在go语言中,panic和recover用于处理运行时异常,但不能作为常规错误处理手段。正确使用需遵循以下要点:1. recover必须通过defer调用才能捕获panic;2. panic触发后会立即停止当前函数执行并按lifo顺序执行defer函数;3. 若defer中未正确recover或无d…

    2025年12月15日 好文分享
    000
  • Golang跨平台编译如何管理 处理不同OS的依赖差异

    Go通过构建标签和文件名约定实现跨平台编译,允许在编译时按目标操作系统或架构包含特定代码,从而避免冗余依赖、提升二进制文件的精简性与可维护性。 Go语言在处理跨平台编译时,管理不同操作系统(OS)的依赖差异,核心策略在于利用其内建的构建标签(build tags)和文件命名约定。这允许开发者在编译时…

    2025年12月15日
    000
  • 怎样为Golang集成Wasm组件系统 实现多语言模块互操作

    答案是利用Wasmtime及其Go SDK结合WIT标准实现多语言模块互操作。通过定义.wit接口文件作为跨语言契约,使用wit-bindgen生成Rust和Go两端绑定代码,将Rust编写的逻辑编译为Wasm组件,再由Go程序通过go-wasmtime加载实例并调用函数,实现类型安全、高效的数据交…

    2025年12月15日
    000
  • Golang模板方法模式怎么做 定义算法骨架的实现技巧

    Go中模板方法模式通过接口定义可变步骤,结构体封装固定流程,实现算法骨架与具体步骤分离,核心在于组合与接口注入,区别于继承式实现。 Golang中实现模板方法模式,核心在于通过接口和结构体组合来定义一个算法的骨架,其中包含固定的流程和一些可由具体实现者填充的“抽象”步骤。这让算法的整体结构保持不变,…

    2025年12月15日
    000
  • Golang中的defer关键字怎么用 剖析延迟调用的执行顺序与陷阱

    defer在Go中用于延迟执行函数,遵循后进先出原则,参数在defer语句执行时即求值,常用于资源释放;常见陷阱包括参数求值时机、循环中资源未及时释放及与命名返回值交互问题。 defer 关键字在Go语言里,说白了,就是个“延迟执行”的机制。它允许你安排一个函数调用,使其在包含 defer 语句的函…

    2025年12月15日
    000
  • Go语言高并发网络应用中的资源管理与常见问题解决方案

    本文旨在探讨Go语言构建高并发网络服务时常遇到的资源限制问题,特别是“Too Many Open Files”错误、EOF以及运行时恐慌。文章将深入分析这些问题的根本原因,如操作系统文件描述符限制和潜在的资源泄露,并提供详细的解决方案和最佳实践,包括调整系统ulimit、规范资源释放、实施健壮的错误…

    2025年12月15日
    000
  • 如何清理未使用的Golang依赖 优化项目依赖关系图

    清理Golang项目未使用依赖需以go mod tidy为基础,并结合人工审视与验证。首先运行go mod tidy可自动移除未被引用的模块并补全缺失依赖,但无法处理代码中导入却未实际调用的包。因此需进一步通过IDE查找用法或全局搜索确认依赖是否真正使用,对疑似冗余的模块尝试删除后重新构建和测试,确…

    2025年12月15日
    000
  • 如何避免Golang基准测试误差 消除环境干扰的预热技巧

    预热是指在正式测量前让程序先运行一段时间以消除冷启动带来的性能波动,确保测试结果反映的是稳定状态下的真实性能;在go基准测试中,由于jit式运行时行为、gc初始化、cpu缓存未命中、分支预测未优化及cpu频率调节等因素,直接测量会导致首段运行明显偏慢,因此必须通过预热使系统进入热状态;最有效的方法是…

    2025年12月15日
    000
  • Golang高并发服务器稳定性优化:文件描述符与资源管理

    本文旨在探讨Go语言高并发网络应用中常见的稳定性问题,特别是“文件描述符耗尽”、“EOF”及“运行时错误”。文章将详细阐述如何通过调整操作系统文件描述符限制(ulimit)、诊断并避免资源泄露(如文件描述符和内存泄露),以及采纳Go语言特有的高并发编程最佳实践,来构建健壮、高效且无故障的客户端/服务…

    2025年12月15日
    000
  • Go语言中通过反射实现结构体方法的动态调用

    本文深入探讨Go语言中如何利用reflect包实现结构体方法的动态调用。通过reflect.ValueOf获取对象值,接着使用MethodByName查找指定方法,并最终通过Call方法执行,从而在运行时根据字符串名称灵活地调用结构体方法,适用于需要高度动态性和扩展性的场景。 在go语言中,通常我们…

    2025年12月15日
    000
  • Go 服务端高并发连接的稳定性优化与资源管理

    构建高并发Go网络服务时,常遇到“文件描述符耗尽”、“EOF”及“运行时错误”等稳定性问题。这些问题往往源于系统资源限制(如ulimit)和程序层面的资源泄露或不当管理。本文将详细探讨如何通过调整系统配置、利用诊断工具以及遵循Go语言的并发和资源管理最佳实践,来有效解决这些挑战,确保服务在高负载下的…

    2025年12月15日
    000

发表回复

登录后才能评论
关注微信