spark运行原理简单介绍和一些总结

程序猿 • 2025年11月3日 00:10:28 • 用户投稿 • 阅读 3

大家好，又见面了，我是你们的朋友全栈君。

一、运行原理

来看一个流程图：

解释如下：

构建spark Application运行环境sparkcontext向资源管理器注册sparkContext向资源管理器申请运行Executor（执行器）资源管理器分配executor资源管理器启动executorexecutor发送心跳至资源管理器sparkContext构建DAG图将DAG图分解成stage（taskSet）把stage（taskSet）发送给TaskSchedulerExecutor向sparkContext申请tasktaskScheduler将task发送给Executor运行同时，sparkContext将应用程序代码发送给Executortask在executor上运行，运行完毕释放所有资源。

二、

在上图中，箭头交叉处形成一个stage，其中伴随有shuffle操作。这些算子（如groupby、join）属于Action中的算子，而map、union则属于Transformation中的算子。

理解算子的含义：

Hadoop只有map和Reduce两个算子，而Spark提供了许多算子：

如上图所示，一个Job被拆分成若干个stage，每个stage执行一些计算，产生一些中间结果，最终生成这个Job的计算结果。每个stage是一个taskset，包含若干个task。Task是Spark中最小的工作单元，在一个executor（执行器）上完成一个特定任务。

三、窄依赖与宽依赖的判断方式，这里提供三种：

窄依赖：一个父RDD的一个partition最多被一个子RDD的一个partition使用。宽依赖：一个父RDD的一个partition被多个子RDD的partition使用。是否会发生shuffle操作，宽依赖会发生shuffle操作。总结1、2，一个partition的结果只被一个子partition使用，相当于没有发生shuffle操作。也可以看有没有发生combine操作，不同的partitions被多个子RDD使用，必然发生合并操作。

四、理解RDD是什么：全名“弹性分布式数据集”

可以类比理解为，HDFS上文件分片后的状态。例如，使用splitline()按行分割，则一行就是一个RDD。RDD是不可改变的分布式集合对象，因为它是加载的文件，显然我们不能对HDFS上的文件进行增删改操作。如val lines=sc.textFile("/home/aa.txt")，这里的lines即为RDDs。

如果aa.txt文件很大，按照HDFS的文件写入方式，我们知道aa.txt会被按照64MB的块大小放到不同的datanode节点上。在执行算子时，在各个节点上分别处理各自的数据，但我们操作的对象都是lines这个变量，因此lines也是这些节点数据的集合，即RDDs。

五、RDDs创建的两种方式：1. val rdds=sc.textFile()；2. 并行化处理，创建一个类似Array的容器，val Rdds=sc.parallelize(Array(1,2,3,4),4)（注意，第二个参数4是partitions的个数）。

六、RDD.persist()：持久化

默认情况下，每次在RDDs上进行action操作时，Spark都会重新计算RDDs。如果想重复利用一个RDDs，可以使用RDD.persist()。例如，对于同一个lines，如果我要进行一系列转换，然后使用count计算，如果我还想接着计算reduce，那么持久化就会利用前面的count的缓存数据来计算reduce。最后，可以使用unpersist()方法从缓存中移除。

七、RDDs的血统关系图：Spark维护者RDDs之间的依赖关系的创建关系，称为血统关系图。Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。

上面是一个简单的血统图，优势在于知道数据的操作记录，如果其中某一步骤的RDD丢失了，那么可以根据血统关系图知道数据是如何来的，可以正向也可以反向，从而恢复数据。

八、延迟计算（lazy Evaluation）：Spark对RDDs的计算是在它们第一次使用action操作时进行的，通俗地说，就是只有在数据被必要使用时才去加载，类似于Java的懒加载。例如，我们使用transformation对数据进行转换，但如果最后我们并没有使用转换后的数据来计算结果，这样岂不是白白耗费资源了吗？在大数据中，这一点尤为显著。那么，如何知道在使用时再去执行呢？Spark内部有一个metadata表会记录转换的操作记录。

九、RDD操作函数分为Transformation和Action两类：

（1）Transformation是转换的意思，顾名思义就是把数据从一种形式转变成另一种形式，可以理解为转成方便我们查看的形式，例如把一长串的字符串转成JSON树状图。

（2）Action是执行的意思，Spark提供了许多算子，伴随DAG图。

（3）两个可以理解为对应Hadoop中的map和reduce操作。

（4）没有action操作，单单转换是没有意义的。

十、Spark并行化就是执行了parallelize()方法，例如：sc.parallelize(array)。

十一、sparkContext是一个对象，代表与一个集群的连接。

sc.textFile()即为加载对象。

十二、再理解一下shuffle过程：将不同partition下相同的key聚集到一个partition下，导致数据在内存中的重新分布。这也就是所谓的打乱、洗牌。

Shuffle过程分为两个阶段：shuffle write和shuffle fetch。Shuffle write将shuffle MapTask任务产生的中间结果缓存到内存中，shuffle fetch获取shuffleMapTask缓存的中间结果进行shuffleReduceTask计算。

发布者：全栈程序员栈长，转载请注明出处：https://www.php.cn/link/381476ddd3f32431fcab00d7cc68d791原文链接：https://www.php.cn/link/c8377ad2a50fb65de28b11cfc628d75c

以上就是spark运行原理简单介绍和一些总结的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/27426.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Laravel 表单验证失败后自动回填用户输入数据

上一篇 2025年11月3日 00:09:27

《剑星》MOD下载量破纪录：成N网今年最受欢迎的游戏

下一篇 2025年11月3日 00:11:29

好文分享

如何在 VS Code 中解决折叠代码复制问题？

解决 VS Code 折叠代码复制问题在 VS Code 中使用折叠功能可以帮助组织长代码，但使用复制功能时，可能会遇到只复制可见部分的问题。以下是如何解决此问题：当代码被折叠时，可以使用以下简单操作复制整个折叠代码：按下 Ctrl + C (Windows/Linux) 或 Cmd + C …

程序猿
2025年12月24日
1000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么设置单选_html5用input type=”radio”加name设单选按钮组【设置】

HTML5 使用 type=”radio” 实现单选功能，需统一 name 值构成互斥组；通过 checked 设默认项；可用 CSS 隐藏原生控件并自定义样式；推荐用 fieldset/legend 增强语义；required 可实现必填验证。如果您希望在网页中创建一组互…

程序猿
2025年12月23日
3000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
1000
好文分享

如何操作html_操作HTML元素的常用方法【常用】

必须掌握操作HTML元素的五种核心方法：一、通过ID精准获取并修改单个元素；二、通过类名批量操作多个元素；三、用querySelector系列灵活选择任意CSS匹配元素；四、动态创建并插入新元素；五、安全移除或替换现有元素。如果您需要动态修改网页内容或响应用户交互，则必须掌握操作HTML元素的核心…

程序猿
2025年12月23日
9000
好文分享

怎么设置边框html5_html5用CSS border设元素边框粗细颜色样式【设置】

可通过CSS的border属性为HTML5元素添加边框，包括简写设置、分项控制、单侧边框、圆角效果及图片边框五种方法，需注意兼容性、元素尺寸与属性完整性。如果您希望为HTML5中的某个元素添加边框，可以通过CSS的border属性控制其粗细、颜色和样式。以下是实现该效果的具体方法：一、使用单条b…

程序猿
2025年12月23日
1000
好文分享

navigator怎么用html5_HTML5用navigator对象查浏览器信息如语言【对象】

可通过navigator对象获取浏览器语言、设备类型、平台信息、地理定位和媒体设备支持：navigator.language/languages返回语言代码；userAgent判断移动设备；platform返回操作系统；geolocation检测定位支持；mediaDevices检查媒体访问能力。 …

程序猿
2025年12月23日
0000
好文分享

visual怎么创建html5_VS新建HTML File选HTML5模板快速创建页面【创建】

可在Visual Studio中通过新建文件选HTML5模板、新建ASP.NET Core Web App项目或手动创建.html文件并输入及html:5代码段三种方式快速生成HTML5网页。如果您在 Visual Studio 中需要快速创建一个符合 HTML5 标准的网页文件，则可通过新建项目…

程序猿
2025年12月23日
0000
好文分享

带文字描边的HTML5按钮样式写法【方法】

可通过text-shadow、-webkit-text-stroke、SVG文本或CSS自定义属性实现HTML5按钮文字描边：text-shadow兼容性好但需多向阴影；-webkit-text-stroke简洁可控但仅限WebKit浏览器；SVG提供高精度描边；CSS变量支持动态主题切换。如果您…

程序猿
2025年12月23日
0000
好文分享

html5怎么找颜色_html5用取色器或CSS命名如red快速找对应颜色【查找】

可通过浏览器开发者工具取色、CSS命名颜色对照表、在线十六进制颜色查找工具及CSS自定义属性验证四种方法快速定位颜色值对应的实际色彩效果。如果您在HTML5开发中需要快速定位某个颜色值对应的实际色彩效果，可以通过取色器工具或CSS预定义颜色名称来识别。以下是查找颜色的具体操作方法：一、使用浏览器…

程序猿
2025年12月23日
1000
好文分享

html5如何清除缓存_HTML5缓存清除步骤与清理浏览器缓存方法【教程】

HTML5网页应用异常通常由浏览器缓存旧资源导致，需依次清除常规缓存、强制刷新、清理AppCache、注销Service Worker并清空其缓存、或用无痕模式验证。如果您在使用HTML5网页应用时遇到内容未更新、页面显示异常或资源加载错误等问题，可能是由于浏览器缓存了旧版本的HTML、CSS、J…

程序猿
2025年12月23日
0000
好文分享

html5怎么快速输入_HTML5用编辑器代码片段或Emmet缩写快速生成【输入】

可利用Emmet缩写、编辑器代码片段及内置HTML5模板快速生成标准结构：输入!+Tab生成HTML5骨架；自定义snippets如sect插入语义化section；WebStorm新建HTML5文件自动添加必需meta；启用Emmet插件支持header/nav等语义标签缩写。如果您在编写HTM…

程序猿
2025年12月23日
1000
好文分享

html如何上传到空间_将HTML文件上传到网站空间步骤【步骤】

HTML文件无法上网访问是因为未上传至网站空间，需通过FTP客户端、主机控制面板、Git部署或SFTP命令行四种方式之一上传到服务器根目录。如果您已经编写完成一个HTML文件，但无法在互联网上访问它，则可能是由于该文件尚未上传至网站空间。以下是将HTML文件上传到网站空间的具体步骤：一、使用FT…

程序猿
2025年12月23日
4000
好文分享

html5怎么换颜色_HT5用JS改CSS color或background-color切换颜色【更换】

可通过操作DOM元素的style属性动态修改文本或背景颜色，方法包括：一、直接修改内联样式；二、切换预定义CSS类；三、修改CSS自定义属性；四、用getComputedStyle读取并智能计算新颜色；五、通过setAttribute设置style字符串。如果您希望在HTML5页面中通过JavaS…

程序猿
2025年12月23日
1000
好文分享

如何html背景_设置HTML页面背景颜色或图片【颜色】

可通过五种CSS方法设置HTML背景：一、内联style设纯色；二、内部样式表设背景图并控制平铺定位；三、外部CSS文件设线性或径向渐变；四、CSS类名定制容器背景；五、data属性配合JS动态切换背景。如果您希望为HTML页面设置背景颜色或背景图片，可以通过CSS样式实现。以下是几种常用且有效的…

程序猿
2025年12月23日
0000
好文分享

php如何html_在PHP代码中输出HTML内容【输出】

必须确保PHP正确解析并输出原始HTML字符串而非转义文本；可通过echo/print直接输出、heredoc语法处理多行含变量HTML，或用PHP结束标签切换至纯HTML模式。如果您在PHP脚本中需要将HTML代码作为响应内容发送给浏览器，则必须确保PHP正确解析并输出原始HTML字符串，而非将…

程序猿
2025年12月23日
1000
好文分享

html如何登录_使用HTML表单制作登录页面【登录】

需构建语义清晰、可访问性强的HTML登录表单：用method=”post”的form包裹username/password输入框与submit按钮，配label绑定、required验证、placeholder提示，action指向处理地址，并用div+style控制垂直布局…

程序猿
2025年12月23日
1000
好文分享

手机html5怎么编辑_手机用HTML编辑器写代码实时预览编辑HTML5内容【编辑】

推荐Dcoder、Acode（配Live Server插件）、JSFiddle Mobile和Codeanywhere四款工具：Dcoder支持本地WebView预览；Acode通过Live Server实现热更新；JSFiddle提供三栏在线编辑与响应式预览；Codeanywhere依托云端容器支…

程序猿
2025年12月23日
2000
好文分享

html如何看懂_看懂并理解HTML代码结构【理解】

掌握HTML解析需五步：一、识别%ignore_a_1%根元素及head/body骨架；二、依缩进分析嵌套层级；三、辨识header、nav等语义标签功能；四、解析class、href等属性与文本关联；五、用浏览器开发者工具验证DOM结构。如果您看到一段HTML代码但无法快速识别其组织方式和各标签…

程序猿
2025年12月23日
2000

发表回复

登录后才能评论

spark运行原理简单介绍和一些总结

关于作者

相关推荐

发表回复