spark运行原理简单介绍和一些总结

大家好,又见面了,我是你们的朋友全栈君。

一、运行原理

来看一个流程图:

spark运行原理简单介绍和一些总结

解释如下:

构建spark Application运行环境sparkcontext向资源管理器注册sparkContext向资源管理器申请运行Executor(执行器)资源管理器分配executor资源管理器启动executorexecutor发送心跳至资源管理器sparkContext构建DAG图将DAG图分解成stage(taskSet)把stage(taskSet)发送给TaskSchedulerExecutor向sparkContext申请tasktaskScheduler将task发送给Executor运行同时,sparkContext将应用程序代码发送给Executortask在executor上运行,运行完毕释放所有资源。

二、

spark运行原理简单介绍和一些总结

在上图中,箭头交叉处形成一个stage,其中伴随有shuffle操作。这些算子(如groupby、join)属于Action中的算子,而map、union则属于Transformation中的算子。

理解算子的含义:

Hadoop只有map和Reduce两个算子,而Spark提供了许多算子:

spark运行原理简单介绍和一些总结

如上图所示,一个Job被拆分成若干个stage,每个stage执行一些计算,产生一些中间结果,最终生成这个Job的计算结果。每个stage是一个taskset,包含若干个task。Task是Spark中最小的工作单元,在一个executor(执行器)上完成一个特定任务。

三、窄依赖与宽依赖的判断方式,这里提供三种:

窄依赖:一个父RDD的一个partition最多被一个子RDD的一个partition使用。宽依赖:一个父RDD的一个partition被多个子RDD的partition使用。是否会发生shuffle操作,宽依赖会发生shuffle操作。总结1、2,一个partition的结果只被一个子partition使用,相当于没有发生shuffle操作。也可以看有没有发生combine操作,不同的partitions被多个子RDD使用,必然发生合并操作。

四、理解RDD是什么:全名“弹性分布式数据集”

可以类比理解为,HDFS上文件分片后的状态。例如,使用splitline()按行分割,则一行就是一个RDD。RDD是不可改变的分布式集合对象,因为它是加载的文件,显然我们不能对HDFS上的文件进行增删改操作。如val lines=sc.textFile("/home/aa.txt"),这里的lines即为RDDs。

如果aa.txt文件很大,按照HDFS的文件写入方式,我们知道aa.txt会被按照64MB的块大小放到不同的datanode节点上。在执行算子时,在各个节点上分别处理各自的数据,但我们操作的对象都是lines这个变量,因此lines也是这些节点数据的集合,即RDDs。

五、RDDs创建的两种方式:1. val rdds=sc.textFile();2. 并行化处理,创建一个类似Array的容器,val Rdds=sc.parallelize(Array(1,2,3,4),4)(注意,第二个参数4是partitions的个数)。

六、RDD.persist():持久化

默认情况下,每次在RDDs上进行action操作时,Spark都会重新计算RDDs。如果想重复利用一个RDDs,可以使用RDD.persist()。例如,对于同一个lines,如果我要进行一系列转换,然后使用count计算,如果我还想接着计算reduce,那么持久化就会利用前面的count的缓存数据来计算reduce。最后,可以使用unpersist()方法从缓存中移除。

七、RDDs的血统关系图:Spark维护者RDDs之间的依赖关系的创建关系,称为血统关系图。Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。

spark运行原理简单介绍和一些总结

上面是一个简单的血统图,优势在于知道数据的操作记录,如果其中某一步骤的RDD丢失了,那么可以根据血统关系图知道数据是如何来的,可以正向也可以反向,从而恢复数据。

八、延迟计算(lazy Evaluation):Spark对RDDs的计算是在它们第一次使用action操作时进行的,通俗地说,就是只有在数据被必要使用时才去加载,类似于Java的懒加载。例如,我们使用transformation对数据进行转换,但如果最后我们并没有使用转换后的数据来计算结果,这样岂不是白白耗费资源了吗?在大数据中,这一点尤为显著。那么,如何知道在使用时再去执行呢?Spark内部有一个metadata表会记录转换的操作记录。

九、RDD操作函数分为Transformation和Action两类:

(1)Transformation是转换的意思,顾名思义就是把数据从一种形式转变成另一种形式,可以理解为转成方便我们查看的形式,例如把一长串的字符串转成JSON树状图。

(2)Action是执行的意思,Spark提供了许多算子,伴随DAG图。

(3)两个可以理解为对应Hadoop中的map和reduce操作。

(4)没有action操作,单单转换是没有意义的。

十、Spark并行化就是执行了parallelize()方法,例如:sc.parallelize(array)

十一、sparkContext是一个对象,代表与一个集群的连接。

sc.textFile()即为加载对象。

十二、再理解一下shuffle过程:将不同partition下相同的key聚集到一个partition下,导致数据在内存中的重新分布。这也就是所谓的打乱、洗牌。

Shuffle过程分为两个阶段:shuffle write和shuffle fetch。Shuffle write将shuffle MapTask任务产生的中间结果缓存到内存中,shuffle fetch获取shuffleMapTask缓存的中间结果进行shuffleReduceTask计算。

发布者:全栈程序员栈长,转载请注明出处:https://www.php.cn/link/381476ddd3f32431fcab00d7cc68d791原文链接:https://www.php.cn/link/c8377ad2a50fb65de28b11cfc628d75c

以上就是spark运行原理简单介绍和一些总结的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/27426.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月3日 00:01:19
下一篇 2025年11月3日 00:21:39

相关推荐

  • REDMI K90系列正式发布,售价2599元起!

    10月23日,redmi k90系列正式亮相,推出redmi k90与redmi k90 pro max两款新机。其中,redmi k90搭载骁龙8至尊版处理器、7100mah大电池及100w有线快充等多项旗舰配置,起售价为2599元,官方称其为k系列迄今为止最完整的标准版本。 图源:REDMI红米…

    2025年12月6日 行业动态
    200
  • Linux中如何安装Nginx服务_Linux安装Nginx服务的完整指南

    首先更新系统软件包,然后通过对应包管理器安装Nginx,启动并启用服务,开放防火墙端口,最后验证欢迎页显示以确认安装成功。 在Linux系统中安装Nginx服务是搭建Web服务器的第一步。Nginx以高性能、低资源消耗和良好的并发处理能力著称,广泛用于静态内容服务、反向代理和负载均衡。以下是在主流L…

    2025年12月6日 运维
    000
  • Linux journalctl与systemctl status结合分析

    先看 systemctl status 确认服务状态,再用 journalctl 查看详细日志。例如 nginx 启动失败时,systemctl status 显示 Active: failed,journalctl -u nginx 发现端口 80 被占用,结合两者可快速定位问题根源。 在 Lin…

    2025年12月6日 运维
    100
  • Linux如何防止缓冲区溢出_Linux防止缓冲区溢出的安全措施

    缓冲区溢出可通过栈保护、ASLR、NX bit、安全编译选项和良好编码实践来防范。1. 使用-fstack-protector-strong插入canary检测栈破坏;2. 启用ASLR(kernel.randomize_va_space=2)随机化内存布局;3. 利用NX bit标记不可执行内存页…

    2025年12月6日 运维
    000
  • Linux如何优化系统性能_Linux系统性能优化的实用方法

    优化Linux性能需先监控资源使用,通过top、vmstat等命令分析负载,再调整内核参数如TCP优化与内存交换,结合关闭无用服务、选用合适文件系统与I/O调度器,持续按需调优以提升系统效率。 Linux系统性能优化的核心在于合理配置资源、监控系统状态并及时调整瓶颈环节。通过一系列实用手段,可以显著…

    2025年12月6日 运维
    000
  • Pboot插件数据库连接的配置教程_Pboot插件数据库备份的自动化脚本

    首先配置PbootCMS数据库连接参数,确保插件正常访问;接着创建auto_backup.php脚本实现备份功能;然后通过Windows任务计划程序或Linux Cron定时执行该脚本,完成自动化备份流程。 如果您正在开发或维护一个基于PbootCMS的网站,并希望实现插件对数据库的连接配置以及自动…

    2025年12月6日 软件教程
    000
  • Linux命令行中wc命令的实用技巧

    wc命令可统计文件的行数、单词数、字符数和字节数,常用-l统计行数,如wc -l /etc/passwd查看用户数量;结合grep可分析日志,如grep “error” logfile.txt | wc -l统计错误行数;-w统计单词数,-m统计字符数(含空格换行),-c统计…

    2025年12月6日 运维
    000
  • Linux命令行中fc命令的使用方法

    fc 是 Linux 中用于管理命令历史的工具,可查看、编辑并重新执行历史命令。输入 fc 直接编辑最近一条命令,默认调用 $EDITOR 打开编辑器修改后自动执行;通过 fc 100 110 或 fc -5 -1 可批量编辑指定范围的历史命令,保存后按序重跑;使用 fc -l 列出命令历史,支持起…

    2025年12月6日 运维
    000
  • 「世纪传奇刀片新篇」飞利浦影音双11声宴开启

    百年声学基因碰撞前沿科技,一场有关声音美学与设计美学的影音狂欢已悄然引爆2025“双十一”! 当绝大多数影音数码品牌还在价格战中挣扎时,飞利浦影音已然开启了一场跨越百年的“声”活革命。作为拥有深厚技术底蕴的音频巨头,飞利浦影音及配件此次“双十一”精准聚焦“传承经典”与“设计美学”两大核心,为热爱生活…

    2025年12月6日 行业动态
    000
  • VSCode终端美化:功率线字体配置

    首先需安装Powerline字体如Nerd Fonts,再在VSCode设置中将terminal.integrated.fontFamily设为’FiraCode Nerd Font’等支持字体,最后配合oh-my-zsh的powerlevel10k等Shell主题启用完整美…

    2025年12月6日 开发工具
    000
  • Linux命令行中locate命令的快速查找方法

    locate命令通过查询数据库快速查找文件,使用-i可忽略大小写,-n限制结果数量,-c统计匹配项,-r支持正则表达式精确匹配,刚创建的文件需运行sudo updatedb更新数据库才能查到。 在Linux命令行中,locate 命令是快速查找文件和目录路径的高效工具。它不直接扫描整个文件系统,而是…

    2025年12月6日 运维
    000
  • Linux文件系统rsync命令详解

    rsync通过增量同步高效复制文件,支持本地及远程同步,常用选项包括-a、-v、-z和–delete,结合SSH可安全传输数据,配合cron可实现定时备份。 rsync 是 Linux 系统中一个非常强大且常用的文件同步工具,能够高效地在本地或远程系统之间复制和同步文件与目录。它以“增量…

    2025年12月6日 运维
    000
  • Linux systemctl list-dependencies命令详解

    systemctl list-dependencies 用于查看 systemd 单元的依赖关系,帮助排查启动问题和优化启动流程。1. 基本语法为 systemctl list-dependencies [选项] [单元名称],默认显示 default.target 的依赖。2. 常见单元类型包括 …

    2025年12月6日 运维
    100
  • VSCode入门:基础配置与插件推荐

    刚用VSCode,别急着装一堆东西。先把基础设好,再按需求加插件,效率高还不卡。核心就三步:界面顺手、主题舒服、功能够用。 设置中文和常用界面 打开软件,左边活动栏有五个图标,点最下面那个“扩展”。搜索“Chinese”,装上官方出的“Chinese (Simplified) Language Pa…

    2025年12月6日 开发工具
    000
  • 如何在mysql中安装mysql插件扩展

    安装MySQL插件需先确认插件文件位于plugin_dir目录,使用INSTALL PLUGIN命令加载,如INSTALL PLUGIN keyring_file SONAME ‘keyring_file.so’,并确保用户有SUPER权限,最后通过SHOW PLUGINS验…

    2025年12月6日 数据库
    000
  • php查询代码怎么写_php数据库查询语句编写技巧与实例

    在PHP中进行数据库查询,最常用的方式是使用MySQLi或PDO扩展连接MySQL数据库。下面介绍基本的查询代码写法、编写技巧以及实用示例,帮助你高效安全地操作数据库。 1. 使用MySQLi进行查询(面向对象方式) 这是较为推荐的方式,适合大多数中小型项目。 // 创建连接$host = ‘loc…

    2025年12月6日 后端开发
    000
  • 如何在mysql中定期清理过期备份文件

    通过Shell脚本结合cron定时任务实现MySQL过期备份文件自动清理,首先统一备份命名格式(如backup_20250405.sql)并存放在指定目录(/data/backup/mysql),然后编写脚本使用find命令删除7天前的.sql文件,配置每日凌晨2点执行的cron任务,并加入日志记录…

    2025年12月6日 数据库
    000
  • Linux文件系统中的ext4与xfs对比

    ext4适合通用场景,稳定性强,兼容性好,适用于桌面和中小型服务器;XFS擅长大规模高并发I/O,扩展性强,适用于大文件与高性能需求环境。 在Linux系统中,ext4和XFS是两种广泛使用的文件系统,各自适用于不同的使用场景。选择哪一个取决于性能需求、数据规模以及工作负载类型。 设计目标与适用场景…

    2025年12月6日 运维
    000
  • php数据库如何实现数据缓存 php数据库减少查询压力的方案

    答案:PHP结合Redis等内存缓存系统可显著提升Web应用性能。通过将用户信息、热门数据等写入内存缓存并设置TTL,先查缓存未命中再查数据库,减少数据库压力;配合OPcache提升脚本执行效率,文件缓存适用于小型项目,数据库缓冲池优化和读写分离进一步提升性能,推荐Redis为主并防范缓存穿透与雪崩…

    2025年12月6日 后端开发
    000
  • 如何在Linux中处理磁盘满的问题?

    先使用df -h和du命令定位占用空间的目录或文件,再清理日志、缓存等可删除内容,并通过定期任务和监控预防问题复发。 当Linux系统提示磁盘空间不足时,关键是要快速定位问题源头并释放空间。以下是实用的排查和处理步骤。 检查磁盘使用情况 使用df命令查看各分区的使用情况: df -h:以易读方式显示…

    2025年12月6日 运维
    000

发表回复

登录后才能评论
关注微信