穿梭时空的实时计算框架——Flink对时间的处理

程序猿 • 2025年11月6日 15:43:19 • 系统教程 • 阅读 0

flink对于流处理架构的意义十分重要，kafka让消息具有了持久化的能力，而处理数据，甚至穿越时间的能力都要靠flink来完成。

在Streaming-大数据的未来一文中我们知道，对于流式处理最重要的两件事，正确性，时间推理工具。而Flink对两者都有非常好的支持。

Flink对于正确性的保证

对于连续的事件流数据，由于我们处理时可能有事件暂未到达，可能导致数据的正确性受到影响，现在采取的普遍做法的通过高延迟的离线计算保证正确性，但是也牺牲了低延迟。

Flink的正确性体现在计算窗口的定义符合数据产生的自然规律。比如点击流事件，追踪3个用户A，B，C的访问情况。我们看到数据是可能有间隙的，这也就是session窗口。

用SparkStreaming的微批处理方式（虚线为计算窗口，实线是会话窗口），很难做到计算窗口与会话窗口的吻合。而使用Flink的流处理API，可以灵活的定义计算窗口。比如可以设置一个值，如果超出这个值就认为活动结束。

不同于一般的流处理，Flink可以采用事件时间，这对于正确性非常有用。

对于发生故障性的正确性保证，必须要跟踪计算状态，现在大部分时候状态性的保证是靠开发人员完成的，但是连续的流处理计算没有终点。Flink采用检查点-checkpoint技术解决了这个问题。在每个检查点，系统都会记录中间计算状态，从而在故障发生时准确地重置。这一方法使系统以低开销的方式拥有了容错能力——当一切正常时，检查点机制对系统的影响非常小。

Flink提供的接口，包括了跟踪计算的任务，并用同一种技术来实现流处理和批处理，简化了运维开发工作，这也是对正确性的一种保证。

Flink对于时间的处理

用流处理和批处理最大的区别就是对时间的处理。

采用批处理架构处理

在该架构中，我们可以每隔一段时间存储数据，比如存在HDFS中，由调度程序定时的执行，将结果输出。

这种架构可行但是有几个问题：

太多独立的部分。为了计算数据中的事件数，这种架构动用了太多系统。每一个系统都有学习成本和管理成本，还可能存在 bug。对时间的处理方法不明确。假设需要改为每 30 分钟计数一次。这个变动涉及工作流调度逻辑（而不是应用程序代码逻辑），从而使 DevOps 问题与业务需求混淆。预警。假设除了每小时计数一次外，还需要尽可能早地收到计数预警（如在事件数超过10 时预警）。为了做到这一点，可以在定期运行的批处理作业之外，引入 Storm 来采集消息流。Storm 实时提供近似的计数，批处理作业每小时提供准确的计数。但是这样一来，就向架构增加了一个系统，以及与之相关的新编程模型。上述架构叫作 Lambda 架构。

乱序事件流。在现实世界中，大多数事件流都是乱序的，即事件的实际发生顺序和数据中心所记录的顺序不一样。这意味着本属于前一批的事件可能被错误地归入当前一批。批处理架构很难解决这个问题，大部分人则选择忽视它。批处理作业的界限不清晰。在分割时间点前后的事件既可能被归入前一批，也可能被归入当前一批。采用流处理

首先将消息集中写入消息传输系统kafka，事件流由消息传输系统提供，并且只被单一的 Flink 作业处理。

以时间为单位把事件流分割为一批批任务，这种逻辑完全嵌入在 Flink 程序的应用逻辑中。预警由同一个程序生成，乱序事件由 Flink 自行处理。要从以固定时间分组改为根据产生数据的时间段分组，只需在 Flink 程序中修改对窗口的定义即可。此外，如果应用程序的代码有过改动，只需重播 Kafka 主题，即可重播应用程序。采用流处理架构，可以大幅减少需要学习、管理和编写代码的系统。Flink 应用程序代码示例：

代码语言：javascript代码运行次数：0运行复制

DataStream stream = env// 通过Kafka生成数据流.addSource(new FlinkKafkaConsumer(...))// 分组.keyBy("country")// 将时间窗口设为60分钟.timeWindow(Time.minutes(60))// 针对每个时间窗口进行操作.apply(new CountPerWindowFunction());

在流处理中，主要有两个时间概念：

事件时间，即事件实际发生的时间。更准确地说，每一个事件都有一个与它相关的时间戳，并且时间戳是数据记录的一部分。

处理时间，即事件被处理的时间。处理时间其实就是处理事件的机器所测量的时间。

以《星球大战》系列电影为例。首先上映的 3 部电影是该系列中的第 4、5、 6 部（这是事件时间），它们的上映年份分别是 1977 年、1980 年和 1983 年（这是处理时间）。之后按事件时间上映的第 1、2、3、7 部，对应的处理时间分别是 1999 年、2002 年、2005 年和 2015 年。由此可见，事件流的顺序可能是乱的（尽管年份顺序一般不会乱）

通常还有第 3 个时间概念，即摄取时间，也叫作进入时间。它指的是事件进入流处理框架的时间。缺乏真实事件时间的数据会被流处理器附上时间戳，即流处理器第一次看到它的时间（这个操作由 source 函数完成，它是程序的第一个处理点）。

在现实世界中，许多因素（如连接暂时中断，不同原因导致的网络延迟，分布式系统中的时钟不同步，数据速率陡增，物理原因，或者运气差）使得事件时间和处理时间存在偏差（即事件时间偏差）。事件时间顺序和处理时间顺序通常不一致，这意味着事件以乱序到达流处理器。

ViiTor实时翻译

AI实时多语言翻译专家！强大的语音识别、AR翻译功能。

116 查看详情 ViiTor实时翻译

Flink 允许用户根据所需的语义和对准确性的要求选择采用事件时间、处理时间或摄取时间定义窗口。

窗口

时间窗口是最简单和最有用的一种窗口。它支持滚动和滑动。

比如一分钟滚动窗口收集最近一分钟的数值，并在一分钟结束时输出总和：

一分钟滑动窗口计算最近一分钟的数值总和，但每半分钟滑动一次并输出结果：

在 Flink 中，一分钟滚动窗口的定义如下。

代码语言：javascript代码运行次数：0运行复制

stream.timeWindow(Time.minutes(1))

每半分钟（即 30 秒）滑动一次的一分钟滑动窗口如下所示。

代码语言：javascript代码运行次数：0运行复制

stream.timeWindow(Time.minutes(1), Time.seconds(30))

Flink 支持的另一种常见窗口叫作计数窗口。采用计数窗口时，分组依据不再是时间戳，而是元素的数量。

滑动窗口也可以解释为由 4 个元素组成的计数窗口，并且每两个元素滑动一次。滚动和滑动的计数窗口分别定义如下。

代码语言：javascript代码运行次数：0运行复制

stream.countWindow(4)stream.countWindow(4, 2)

虽然计数窗口有用，但是其定义不如时间窗口严谨，因此要谨慎使用。时间不会停止，而且时间窗口总会“关闭”。但就计数窗口而言，假设其定义的元素数量为 100，而某个 key 对应的元素永远达不到 100 个，那么窗口就永远不会关闭，被该窗口占用的内存也就浪费了。

Flink 支持的另一种很有用的窗口是会话窗口。会话窗口由超时时间设定，即希望等待多久才认为会话已经结束。示例如下：

代码语言：javascript代码运行次数：0运行复制

stream.window(SessionWindows.withGap(Time.minutes(5))

触发器

除了窗口之外，Flink 还提供触发机制。触发器控制生成结果的时间，即何时聚合窗口内容并将结果返回给用户。每一个默认窗口都有一个触发器。例如，采用事件时间的时间窗口将在收到水印时被触发。对于用户来说，除了收到水印时生成完整、准确的结果之外，也可以实现自定义的触发器。

时间回溯

流处理架构的一个核心能力是时间的回溯机制。意味着将数据流倒回至过去的某个时间，重新启动处理程序，直到处理至当前时间为止。Kafka支持这种能力。

实时流处理总是在处理最近的数据（即图中“当前时间”的数据），历史流处理则从过去开始，并且可以一直处理至当前时间。流处理器支持事件时间，这意味着将数据流“倒带”，用同一组数据重新运行同样的程序，会得到相同的结果。

水印

Flink 通过水印来推进事件时间。水印是嵌在流中的常规记录，计算程序通过水印获知某个时间点已到。收到水印的窗口就知道不会再有早于该时间的记录出现，因为所有时间戳小于或等于该时间的事件都已经到达。这时，窗口可以安全地计算并给出结果（总和）。水印使事件时间与处理时间完全无关。迟到的水印（“迟到”是从处理时间的角度而言）并不会影响结果的正确性，而只会影响收到结果的速度。

水印由应用程序开发人员生成，这通常需要对相应的领域有一定的了解。完美的水印永远不会错：时间戳小于水印标记时间的事件不会再出现。

如果水印迟到得太久，收到结果的速度可能就会很慢，解决办法是在水印到达之前输出近似结果（Flink 可以实现）。如果水印到达得太早，则可能收到错误结果，不过 Flink 处理迟到数据的机制可以解决这个问题。

以上就是穿梭时空的实时计算框架——Flink对时间的处理的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/390877.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

工具的使用|PowerSploit脚本的用法

上一篇 2025年11月6日 15:42:59

【漏洞复现】CVE-2025-24071｜Windows 文件资源管理器欺骗漏洞

下一篇 2025年11月6日 15:44:02

好文分享

SASS 中的 Mixins

mixin 是 css 预处理器提供的工具，虽然它们不是可以被理解的函数，但它们的主要用途是重用代码。不止一次，我们需要创建多个类来执行相同的操作，但更改单个值，例如字体大小的多个类。 .fs-10 { font-size: 10px;}.fs-20 { font-size: 20px;}.fs-…

程序猿
2025年12月24日
0000
好文分享

CSS元素设置em和transition后，为何载入页面无放大效果？

css元素设置em和transition后，为何载入无放大效果很多开发者在设置了em和transition后，却发现元素载入页面时无放大效果。本文将解答这一问题。原问题：在视频演示中，将元素设置如下，载入页面会有放大效果。然而，在个人尝试中，并未出现该效果。这是由于macos和windows系统…

程序猿
2025年12月24日
2000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

如何用HTML/JS实现Windows 10设置界面鼠标移动探照灯效果？

Win10设置界面中的鼠标移动探照灯效果实现指南想要在前端开发中实现类似于Windows 10设置界面的鼠标移动探照灯效果，有两种解决方案：CSS 和 HTML/JS 组合。 CSS 实现不幸的是，仅使用CSS无法完全实现该效果。立即学习“前端免费学习笔记（深入）”； HTML/JS 实现要…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

如何用前端技术实现Windows 10 设置界面鼠标移动时的探照灯效果？

探索在前端中实现 Windows 10 设置界面鼠标移动时的探照灯效果在前端开发中，鼠标悬停在元素上时需要呈现类似于 Windows 10 设置界面所展示的探照灯效果，这其中涉及到了元素外围显示光圈效果的技术实现。 CSS 实现虽然 CSS 无法直接实现探照灯效果，但可以通过以下技巧营造出类似效…

程序猿
2025年12月24日
0000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
0000
如何在网页 F12 调试中查看鼠标悬停时才出现的 DOM 元素？

如何在网页 f12 调试中查看鼠标悬停时才出现的 dom 元素？在 f12 调试模式下，鼠标悬停时才出现的 dom 元素无法通过直接选择查看。解决方法根据显示原理的不同而有所区别： 1. css 控制的元素强制开启悬停状态：在 firefox 浏览器中，可以通过在开发者工具中手动开启选中元素的 …

程序猿
2025年12月24日 • 好文分享
1000
好文分享

TDesign UI库中小程序开发的CSS选择器：为什么“.t-grid–card”能生效？

TDesign UI库中CSS选择器困惑在小程序开发中，使用TDesign UI库时，您可能会遇到一个困惑的CSS选择器。例如，在DOM结构中，一个元素的class为”t-grid t-card class t-class”, 但其CSS选择器却是”&#8216…

程序猿
2025年12月24日
0000
好文分享

React 或 Vite 是否会自动加载 CSS？

React 或 Vite 是否自动加载 CSS？在 React 中，如果未显式导入 CSS，而页面却出现了 CSS 效果，这可能是以下原因造成的：你使用的第三方组件库，例如 AntD，包含了自己的 CSS 样式。这些组件库在使用时会自动加载其 CSS 样式，无需显式导入。在你的代码示例中，cla…

程序猿
2025年12月24日
0000
好文分享

React 和 Vite 如何处理 CSS 加载？

React 或 Vite 是否会自动加载 CSS？在 React 中，默认情况下，使用 CSS 模块化时，不会自动加载 CSS 文件。需要手动导入或使用 CSS-in-JS 等技术才能应用样式。然而，如果使用了第三方组件库，例如 Ant Design，其中包含 CSS 样式，则这些样式可能会自动加…

程序猿
2025年12月24日
0000
好文分享

逻辑属性与旧版属性：如何根据文本方向选择合适的CSS属性？

CSS 逻辑属性与旧版属性 CSS 中引入了逻辑属性和旧版属性的概念。这些属性负责控制页面元素的外观和布局。逻辑属性逻辑属性以逻辑方向命名，如左右、上下。它们根据元素在文档流中的位置来确定元素的外观。例如：立即学习“前端免费学习笔记（深入）”； marginBlockStart：控制元素在垂直…

程序猿
2025年12月24日
0000
好文分享

ElementUI el-table 子节点选中后为什么没有打勾？

elementui el-table子节点选中后没有打勾？当您在elementui的el-table中选择子节点时，但没有出现打勾效果，可能是以下原因造成的：在 element-ui 版本 2.15.7 中存在这个问题，升级到最新版本 2.15.13 即可解决。除此之外，请确保您遵循了以下步骤…

程序猿
2025年12月24日
2000
好文分享

CSS 逻辑属性和旧版属性：如何选择？

css逻辑属性与旧版属性 css中，逻辑属性和旧版属性用于控制元素的布局和外观。然而，两者在语法和使用方式上有所不同。逻辑属性逻辑属性是基于元素在现实世界中的预期行为来命名的。它使用诸如 “start”、”end” 和 “block&#…

程序猿
2025年12月24日
4000
好文分享

您不需要 CSS 预处理器

原生 css 在最近几个月/几年里取得了长足的进步。在这篇文章中，我将回顾人们使用 sass、less 和 stylus 等 css 预处理器的主要原因，并向您展示如何使用原生 css 完成这些相同的事情。分隔文件分离文件是人们使用预处理器的主要原因之一。尽管您已经能够将另一个文件导入到 css…

程序猿
2025年12月24日
0000
好文分享

动态样式类名为何失效：嵌套与并列选择器的区别在哪里？

动态样式类名不起作用：嵌套与并列问题在使用动态样式类名时，有时会遇到尽管触发事件但样式却没有改变的情况。这可能是由于使用了后代选择器而造成的。以提供的代码为例：块中，嵌套的类是content类的后代。这意味着类仅在元素包含子元素时才能生效。为了解决这个问题，需要将与类编写为并列，而不是嵌套方…

程序猿
2025年12月24日
2000
好文分享

CSS 中如何正确使用 box-shadow 设置透明度阴影？

css 中覆盖默认 box-shadow 样式时的报错问题在尝试修改导航栏阴影时遇到报错，分析发现是 box-shadow 样式引起的问题。问题原因使用 !important 仍无法覆盖默认样式的原因在于，你使用了 rgb() 而不是 rgba()，这会导致语法错误。立即学习“前端免费学习笔…

程序猿
2025年12月24日
3000
好文分享

为何scss中嵌套使用/*rtl:ignore*/无法被postcss-rtl插件识别？

postcss-rtl插件为何不支持在scss中嵌套使用/*rtl:ignore*/ 在使用postcss-rtl插件时，如果希望对某个样式不进行转换，可以使用/*rtl:ignore*/在选择器前面进行声明。然而，当样式文件为scss格式时，该声明可能会失效，而写在css文件中则有效。原因 po…

程序猿
2025年12月24日
0000
好文分享

CSS 定位属性：六种定位方式的区别是什么？

CSS中的定位属性及其区别 CSS中的 position 属性定义元素的定位行为，它共有六个可供选择的属性值，分别是：静态定位 (static)：默认值，元素按照正常文档流进行定位。相对定位 (relative)：元素相对于自身原本的位置进行偏移。绝对定位 (absolute)：元素相对于最近的非…

程序猿
2025年12月24日
0000
好文分享

父元素仅设置 Line-height 对子元素高度的影响：行内块级元素与块级元素有什么区别？

父元素仅设置 Line-height 对子元素的块级或行内块级元素的影响当父元素只设置了 Line-height 而没有设置高度时，对其子元素的影响将取决于子元素的类型。如果子元素是行内块级元素，如 inine-block，父元素的 Line-height 将成为子元素的高度。这是因为行内块级元…

程序猿
2025年12月24日
0000

发表回复

登录后才能评论

穿梭时空的实时计算框架——Flink对时间的处理

关于作者

相关推荐

发表回复