Flink学习笔记(1) — Flink入门介绍

目录

1、Flink简介

2、Flink架构图

3、Flink基本组件介绍

4、Flink的流处理与批处理

5、Flink应用场景分析

6、FlinkStormSparkStreaming的比较

7、Flink入门案例 – WordCount

8、Flink scala shell代码调试

1、Flink简介

Flink学习笔记(1) -- Flink入门介绍

Flink是一个分布式大数据计算引擎,支持对有限流和无限流进行有状态的计算。它提供了Java API和Scala API,具有高吞吐量和低延迟的特点,支持事件处理和无序处理,提供一次且仅一次的容错担保,自动反压机制,并兼容Hadoop、Storm、HDFS和YARN。

Flink学习笔记(1) -- Flink入门介绍

2、Flink架构图

Flink学习笔记(1) -- Flink入门介绍

Flink的API架构分为多层,底层API更灵活,上层API更便捷。

low level Stateful stream Processing(Core API的底层实现,开发较为复杂)

Core API(DataStreamDataSet API)

Table API

high level

SQL

Flink学习笔记(1) -- Flink入门介绍

3、Flink基本组件介绍

Flink学习笔记(1) -- Flink入门介绍

代码语言:javascript

代码运行次数:0

运行复制

(1) DataSource指的是数据处理的数据源,可以是HDFS、Kafka、Hive等;(2) Transformations指的是对数据的处理转换方法;(3) DataSink指的是数据处理完成后的输出目的地,可以是MySQL、HBase、HBFS等;

4、Flink的流处理与批处理

在处理大数据领域,批处理任务和流处理任务通常被视为两种不同的任务。大数据框架一般设计为只能处理其中一种任务。例如,Storm仅支持流处理任务,而MapReduce和Spark仅支持批处理任务。Spark Streaming是Apache Spark上支持流处理任务的子系统,看似是一个特例,但实际上并非如此——Spark Streaming采用了micro-batch架构,即将输入的数据流分割成细粒度的批次,并为每个批次数据提交一个批处理的Spark任务。因此,Spark Streaming本质上仍然是基于Spark批处理系统对流式数据进行处理,与Storm等完全流式的数据处理方式截然不同。

Flink通过灵活的执行引擎,能够同时支持批处理任务和流处理任务。

在执行引擎层面,流处理系统与批处理系统的主要区别在于节点间的数据传输方式。对于流处理系统,节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,然后立即通过网络传输到下一个节点,由下一个节点继续处理;而对于批处理系统,节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,并不会立即通过网络传输到下一个节点,当缓存写满时,才持久化到本地硬盘上,等所有数据处理完成后,才开始将处理后的数据通过网络传输到下一个节点。这两种数据传输模式是两个极端,分别对应流处理系统对低延迟的要求和批处理系统对高吞吐量的要求。Flink的执行引擎采用了一种非常灵活的方式,同时支持这两种数据传输模型。

Flink以固定大小的缓存块为单位进行网络数据传输,用户可以通过设置缓存块的超时值来指定传输时机。如果缓存块的超时值为0,则Flink的数据传输方式类似于流处理系统的标准模型,此时系统可以获得最低的处理延迟;如果缓存块的超时值为无限大,则Flink的数据传输方式类似于批处理系统的标准模型,此时系统可以获得最高的吞吐量;同时,缓存块的超时值也可以设置为0到无限大之间的任意值。缓存块的超时阈值越小,Flink流处理执行引擎的数据处理延迟就越低,但吞吐量也会降低,反之亦然。通过调整缓存块的超时阈值,用户可以根据需求灵活地权衡系统延迟和吞吐量。

Flink学习笔记(1) -- Flink入门介绍

5、Flink应用场景分析

Ⅰ、优化电商网站的实时搜索结果

Ⅱ、阿里巴巴的所有基础设施团队使用flink实时更新产品细节和库存信息(Blink)

Ⅲ、针对数据分析团队提供实时流处理服务

Ⅳ、通过flink数据分析平台提供实时数据分析服务,及时发现问题

Get笔记 Get笔记

Get笔记,一款AI驱动的知识管理产品

Get笔记 125 查看详情 Get笔记

Ⅴ、网络/传感器检测和错误检测

Ⅵ、Bouygues电信公司,是法国最大的电信供应商之一,使用flink监控其有线和无线网络,实现快速故障响应

Ⅶ、商业智能分析ETL

Ⅷ、Zalando使用flink转换数据以便于加载到数据仓库,将复杂的转换操作转化为相对简单的并确保分析终端用户可以更快的访问数据(实时ETL)

6、FlinkStormSparkStreaming的比较

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

选择实时框架时需要考虑以下几点:

1:是否需要对流数据进行状态管理;

2:是否有对At-least-once或Exactly-once消息投递模式的特殊要求;

3:对于小型独立项目,并且需要低延迟的场景,建议使用Storm;

4:如果你的项目已经使用了Spark,并且秒级别的实时处理可以满足需求,建议使用Spark Streaming;

5:要求消息投递语义为Exactly Once的场景;数据量较大,要求高吞吐低延迟的场景;需要进行状态管理或窗口统计的场景,建议使用Flink。

7、Flink入门案例 – WordCount

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

Flink WordCount 实时处理 Java版本代码:

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

Flink WordCount 实时处理 Scala版本代码:

Flink学习笔记(1) -- Flink入门介绍

Flink WordCount 批处理 Java版本代码:

Flink学习笔记(1) -- Flink入门介绍

Flink WordCount 批处理 Scala版本代码:

Flink学习笔记(1) -- Flink入门介绍

Flink学习笔记(1) -- Flink入门介绍

8、Flink scala shell代码调试

对于初学者,开发时容易出错,如果每次都打包进行调试,比较麻烦,并且也不好定位问题,可以在scala shell命令行下进行调试;scala shell方式支持流处理和批处理。当启动shell命令行后,两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Batch)分别处理流处理和批处理程序(类似于spark-shell中的sc变量)。

bin/start-scala-shell.sh [local|remote|yarn] [options]

Flink学习笔记(1) -- Flink入门介绍

如果需要深入学习,可以继续阅读剩下的章节,总共有八章节。

以上就是Flink学习笔记(1) — Flink入门介绍的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/282365.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月4日 17:04:34
下一篇 2025年11月4日 17:10:05

相关推荐

  • 弗洛基·因纽的飙升:Valhalla发布点燃模因币狂热!

    floki inu因价格大幅上涨而引发热议,此次上涨主要由valhalla主网上线推动。这一模因币是否具备开创新局面的能力? Floki Inu正迅速走红!该模因币正经历显著的价格上涨,市场普遍认为Valhalla主网上线是主要推动力。我们一起来看看推动这波热潮的因素及其对FLOKI持有者的影响。 …

    2025年12月8日
    000
  • 火必VS欧意:2025年主流加密交易所功能、费率对比

    欧意在衍生品和Web3生态方面更具优势,火必则在主流现货和品牌稳健性上表现突出。1、交易功能上,欧意衍生品创新更强,流动性略优;2、费率方面,欧意对普通用户更友好,火必对大户更有利;3、生态布局上,欧意整合能力更强,火必项目质量稳定;4、安全与体验上,两者均透明可靠,欧意界面更现代。根据交易偏好选择…

    2025年12月8日
    000
  • 全球美元USDG详解:与USDT、USDC在机制和用途上的差异

    在数字资产领域,稳定币扮演着连接传统金融与加密世界的桥梁。它们旨在价格波动剧烈的数字市场中提供相对稳定的价值存储工具。usdg、usdt和usdc是市场上较为知名的几类美元稳定币,它们各自拥有不同的机制设计和应用场景。理解这些差异,对于数字资产用户至关重要。本文将深入探讨usdg的特点,并将其与us…

    2025年12月8日
    000
  • ETH和比特币区别?交易所购买以太坊教程?

    数字资产领域存在多种数字货币,其中比特币(bitcoin)和以太坊(ethereum)是广受关注的两种。它们各自拥有独特的特性和应用场景。对于希望涉足数字资产的用户来说,理解它们之间的区别以及如何在交易所购买以太坊,是进入这个领域的第一步。 购买以太坊前的准备 1. 了解基础知识 在购买以太坊之前,…

    2025年12月8日 好文分享
    000
  • 平台币是什么?和普通币种有何区别?

    平台币是由数字货币交易平台发行的加密货币,主要用于平台内的生态建设和用户权益激励。相比普通的虚拟币,平台币不仅是一种投资资产,更是连接用户和平台的重要纽带。 平台币的主要用途包括: 1. 交易手续费折扣:使用平台币支付交易手续费可享受优惠,降低交易成本; 2. 投票权和治理:部分平台币持有者可以参与…

    2025年12月8日
    000
  • 新手怎么玩比特币合约交易?和比特币现货交易有什么区别?

    不少刚进入币圈的新手会听到“现货”和“合约”两种交易方式,其中比特币合约交易因其可高倍杠杆和双向操作而备受关注,但也伴随更高风险,并不建议盲目尝试。 现货交易指的是你实际购买BTC并持有,就像买了一份资产,赚的是币价上涨后的差价;而合约交易类似于做“期货”,你可以开多(看涨)或开空(看跌),甚至使用…

    2025年12月8日
    000
  • 什么是币贷?如何运作?好处是什么?

    目录 什么是币贷?如何运作?好处是什么? 什么是币借贷? 如何进行币借贷? 币借贷的好处 CeFi与DeFi币贷 DeFi(去中心化金融)借贷 需注意的风险 关于币贷的常见问题 币借贷安全吗? 灵活借贷和固定借贷有什么区别? 借贷和质押是一样的吗? 我可以赚取多少利息? 随着加密货币的广泛应用,越来…

    2025年12月8日
    000
  • 交叉保证金与逐仓保证金:哪个更适合您的加密货币交易策略?

    目录 全仓保证金 vs. 逐仓保证金:哪个更适合您的加密货币交易策略? 什么是全仓保证金? 什么是逐仓保证金? 全仓保证金与逐仓保证金:主要区别概览 哪种保证金模式适合您? 在进行杠杆交易加密货币时,选择正确的保证金类型对资金配置和风险管理至关重要。目前,大多数加密货币衍生品平台提供两种主流的保证金…

    2025年12月8日
    000
  • 小佩佩对决柴犬币:模因币王座虚位以待

    小佩佩能否接棒柴犬币?全面剖析这场模因币较量的市场走向、社群生态与增长空间 小佩佩对决柴犬币:模因币王位争夺战即将打响 模因币圈正掀起热潮,焦点都集中在小佩佩(Little Pepe)和柴犬币(Shiba Inu)身上。LILPEPE 是否具备取代 SHIB 的潜力?我们来一探究竟。 柴犬币的时代或…

    2025年12月8日
    000
  • 什么是柴犬币SHIB 它和狗狗币DOGE有什么区别?

    柴犬币(shib)和狗狗币(doge)都是币圈中备受关注的“狗狗主题”加密货币,但它们有着明显的区别和各自特色,了解它们有助于新手更好地认识币圈多样化的项目。 什么是柴犬币SHIB? 柴犬币(SHIB)是基于以太坊网络的去中心化代币,诞生于2020年,定位为“狗狗币杀手”。它通过智能合约支持更复杂的…

    2025年12月8日
    000
  • USDG、USDT、USDC有何不同?稳定币的核心差异与使用场景

    稳定币在数字资产市场中扮演着重要角色,它们旨在维持与某种稳定资产(通常是法定货币,如美元)的固定价值挂钩。这种特性使其在价格波动剧烈的加密世界中,成为进行交易、存储价值或进行结算的有效工具。usdg、usdt和usdc是市场中几种常见的稳定币,尽管它们都旨在锚定美元,但在发行机制、储备透明度及使用场…

    2025年12月8日
    000
  • 什么是限价单和市价单?新手该选哪个?

    在币圈交易中,限价单和市价单是最常见的两种下单方式,新手入场必须了解这两者的区别,否则容易在操作中吃亏或错失机会。 限价单:自己设定买卖价格,更适合有耐心的用户 限价单指的是你自己设定买入或卖出的价格,订单只有在市场价格达到你设定的价位时才会成交。适合对价格敏感、想在特定价位进出的用户,但也有可能因…

    2025年12月8日
    000
  • Lilpepe的加密飞跃:2025年价格预测与模因币狂热

    深入探索lilpepe的宇宙:这只引爆热潮的迷因币在加密世界中的2025年价格预测前景 Lilpepe的加密跃迁:2025年价格展望与迷因币风潮 Lilpepe(LILPEPE)不只是一个网络迷因;它正在引发广泛关注。凭借预售阶段的强劲表现以及基于以太坊第二层的技术架构,Lilpepe未来的发展路径…

    2025年12月8日
    000
  • 数字货币爆仓与平仓的区别:一字之差,后果天壤之别

    平仓是投资者主动了结持仓的风险管理行为,而爆仓是保证金不足时被强制清算的被动结果。1.平仓分获利平仓和止损平仓两种形式,由交易者自主决策,用于锁定收益或控制损失;2.爆仓发生在保证金比例低于交易所最低要求时,系统自动执行强制平仓,常伴随高杠杆和剧烈市场波动;3.两者核心区别在于风险掌控权不同,平仓保…

    2025年12月8日
    000
  • 提币和转账有什么区别?新手一文读懂其中差别

    不少新手在使用交易所时,常常会混淆“提币”和“转账”两个功能,但这两个操作其实差异非常大,搞懂它们才能避免资产转错、丢失的风险。本文将用最简单的方式,带你快速分清提币和转账的核心区别。 平台推荐:选正规交易所更安全 无论是提币还是转账,前提是你在币安或欧易OKX等主流平台上拥有币种资产,操作才稳定可…

    2025年12月8日
    000
  • 币圈平仓与清仓有何区别?一文读懂数字货币交易术语

    平仓是结束特定仓位的操作,而清仓是卖出账户全部持仓的行为。1. 平仓指对特定交易进行反向操作以了结合约,可部分或全部平掉某个仓位;2. 清仓则是将账户内所有资产卖出,通常出于风控考虑,可能由保证金不足引发强制清仓;3. 二者关键区别在于范围不同,平仓针对特定仓位,清仓涉及全部资产,且清仓多为被动操作…

    2025年12月8日
    000
  • DAO治理模式席卷全球:Web3组织变革的开端吗?

    DAO是一种基于区块链的去中心化自治组织,其核心在于通过智能合约实现规则自动化、治理代币分配决策权、提案投票决定发展方向、资金库透明管理四大机制。与传统公司相比,DAO具有扁平化结构、高透明度、低准入门槛和代码信任机制等特征。尽管面临法律、效率和安全等挑战,DAO仍被视为未来组织变革的重要探索方向。…

    2025年12月8日
    000
  • 稳定币和代币的区别是什么 稳定币究竟是什么

    代币是基于现有区块链平台创建的数字资产,功能多样但价格波动大;稳定币则通过与法币挂钩维持价值稳定,主要用作交易媒介和价值储存。1. 代币包括功能型、治理型等多种类型,其价值受项目发展和市场情绪影响显著;2. 稳定币如USDT、USDC通常由法币或加密资产抵押支撑,价格波动极小。 对于初入加密货币领域…

    2025年12月8日
    000
  • 稳定币和比特币的区别在哪 稳定币和比特币的区别是什么

    比特币与%ignore_a_2%的核心区别在于价格稳定性、价值支撑、用途及发行机制。1. 比特币价格波动剧烈,受市场供需影响大;而稳定币锚定美元等资产,保持价格恒定。2. 比特币价值来源于去中心化共识和稀缺性,无实物支撑;稳定币则由真实资产如美元抵押支持。 比特币和稳定币是加密世界中两种截然不同但又…

    2025年12月8日
    000
  • 什么是USDG稳定币?它与USDT、USDC的区别及优势分析

    稳定币是数字货币领域的重要组成部分,它们被设计用来维持稳定的价值,通常与某种法币(如美元)以1:1的比例挂钩。这种稳定性使其在波动性较大的加密市场中,成为一种避险资产和交易媒介。在众多稳定币中,usdt和usdc是市场上的主流代表。本文将深入探讨usdg这种稳定币的特性,并将其与usdt、usdc进…

    2025年12月8日
    000

发表回复

登录后才能评论
关注微信