Spark 并行读取但写入分区时仅使用单核的优化方法

程序猿 • 2025年12月14日 06:54:10 • 好文分享 • 阅读 0

本文旨在解决 Spark 在本地模式下读取 CSV 文件并写入 Iceberg 表时，读取阶段能够充分利用多核并行处理，而写入阶段却只能单核运行的问题。通过调整 Spark 配置、优化 AWS CLI 设置，以及理解 Spark 任务分配机制，帮助读者充分利用计算资源，提升 Spark 写入性能。

在使用 Spark 处理大数据集时，一个常见的瓶颈是写入数据的速度。尤其是在将数据写入到云存储（如 S3）时，如果写入过程没有充分利用可用的计算资源，会导致整体作业的执行时间显著增加。本文将深入探讨如何优化 Spark 写入操作，使其能够并行运行，从而提高写入速度。

理解问题：单核写入的原因

在本地模式下，即使指定了 local[*] 作为 master，Spark 仍然可能只使用一个核心进行写入操作。这通常是由于以下几个原因：

默认资源分配： Spark 的默认资源分配策略可能将所有任务分配给单个 executor，尤其是在本地模式下。动态资源分配的误用： 开启 spark.dynamicAllocation.enabled 并不一定能解决问题，因为其资源分配依赖于默认的资源计算器，可能无法充分利用所有可用核心。S3 写入限制： 默认的 AWS CLI 配置可能限制了并发请求的数量，从而导致写入速度受限。

解决方案：优化 Spark 配置

要解决单核写入的问题，需要调整 Spark 的配置，以确保任务能够并行执行。以下是一些建议的配置：

显式设置 Executor 数量和资源： 不要依赖动态资源分配，而是显式设置 executor 的数量、内存和核心数。

--master yarn --deploy-mode cluster --num-executors 4 --executor-memory 1G --executor-cores 1 --driver-memory 2G --driver-cores 1

–num-executors: 指定要启动的 executor 数量。–executor-memory: 指定每个 executor 的内存大小。–executor-cores: 指定每个 executor 的核心数。

根据你的集群资源和数据规模，调整这些参数。

检查 Spark UI： 在写入操作开始时，通过 Spark History Server UI 检查 executor 和任务的数量，确保任务已正确分配到多个 executor。

优化 AWS CLI 配置

除了 Spark 配置，AWS CLI 的配置也会影响写入性能。可以通过增加并发请求的数量来提高写入速度。

修改 AWS CLI 配置文件： 修改 ~/.aws/config 文件，增加以下配置：

[default]s3 =    max_concurrent_requests = 20    max_queue_size = 1000    multipart_threshold = 64M    multipart_chunksize = 16M    max_bandwidth = 100MB/s

max_concurrent_requests: 允许的最大并发请求数。max_queue_size: 任务队列的最大长度。multipart_threshold: 启用分段上传的最小文件大小。multipart_chunksize: 分段上传时每个分段的大小。max_bandwidth: 限制上传和下载的最大带宽。

根据你的网络环境和 S3 存储桶的性能，调整这些参数。

代码示例

以下是一个 Spark 写入 Iceberg 表的示例代码，包含了上述优化建议：

from pyspark.sql import SparkSession# 创建 SparkSessionspark = SparkSession.builder     .appName("IcebergWrite")     .master("yarn")     .config("spark.executor.memory", "1G")     .config("spark.executor.cores", "1")     .config("spark.num.executors", "4")     .config("spark.sql.catalog.my_catalog.io-impl", "org.apache.iceberg.aws.s3.S3FileIO")     .config("spark.hadoop.fs.s3a.fast.upload", "true")     .getOrCreate()# 读取 CSV 文件df = spark.read.csv("s3://my_bucket/my_data.csv", header=True, inferSchema=True)# 数据转换和分区df = df.withColumn("partition_key", df["some_column"] % 10)  # 示例分区键# 写入 Iceberg 表df.repartition("partition_key")     .write     .format("iceberg")     .mode("append")     .partitionBy(["partition_key"])     .saveAsTable("glue_catalog.my_db.data")# 停止 SparkSessionspark.stop()

注意事项

资源分配： 确保集群有足够的资源来满足你配置的 executor 数量和资源需求。网络带宽： 如果网络带宽是瓶颈，即使增加了并发请求的数量，写入速度也可能不会显著提高。S3 存储桶性能： S3 存储桶的性能也会影响写入速度。如果存储桶的写入能力有限，那么优化 Spark 和 AWS CLI 配置的效果也会受到限制。数据倾斜： 确保分区键能够均匀地分配数据，避免数据倾斜导致某些 executor 负载过重。

总结

通过显式设置 Spark executor 的数量和资源、优化 AWS CLI 配置，以及理解 Spark 任务分配机制，可以有效地解决 Spark 写入分区时仅使用单核的问题，从而提高写入速度，缩短整体作业的执行时间。在实际应用中，需要根据具体情况调整配置参数，并监控 Spark UI 和 S3 存储桶的性能，以达到最佳的写入性能。

以上就是Spark 并行读取但写入分区时仅使用单核的优化方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1366824.html

apache 并发请求

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Spark 并行读取但写入分区时仅使用单核的优化方案

上一篇 2025年12月14日 06:54:06

Pydantic V2：利用判别式联合处理多态数据模型

下一篇 2025年12月14日 06:54:17

好文分享

如何使用 Ant Design 实现自定义的 UI 设计？

如何使用 Ant Design 呈现特定的 UI 设计？一位开发者提出：我希望使用 Ant Design 实现如下图所示的 UI。作为一个前端新手，我不知从何下手。我尝试使用 a-statistic，但没有任何效果。为此，提出了一种解决方案：可以使用一个图表库，例如 echarts.apac…

程序猿
2025年12月24日
0000
好文分享

Antdv 如何实现类似 Echarts 图表的效果？

如何使用 antdv 实现图示效果？一位前端新手咨询如何使用 antdv 实现如图所示的图示： antdv 怎么实现如图所示？前端小白不知道怎么下手，尝试用了 a-statistic，但没有任何东西出来，也不知道为什么。针对此问题，回答者提供了解决方案：可以使用图表库 echarts 实现类似…

程序猿
2025年12月24日
3000
好文分享

如何使用 antdv 创建图表？

使用 antdv 绘制如所示图表的解决方案一位初学前端开发的开发者遇到了困难，试图使用 antdv 创建一个特定图表，却遇到了障碍。问题：如何使用 antdv 实现如图所示的图表？尝试了 a-statistic 组件，但没有任何效果。解答：虽然 a-statistic 组件不能用于创建此类…

程序猿
2025年12月24日
2000
如何在 Ant Design Vue 中使用 ECharts 创建一个类似于给定图像的圆形图表？

如何在 ant design vue 中实现圆形图表？问题中想要实现类似于给定图像的圆形图表。这位新手尝试了 a-statistic 组件但没有任何效果。为了实现这样的图表，可以使用 [apache echarts](https://echarts.apache.org/) 库或其他第三方图表库…

程序猿
好文分享 2025年12月24日
1000
好文分享

echarts地图中点击图例后颜色变化的原因和修改方法是什么？

图例颜色变化解析：echarts地图的可视化配置在使用echarts地图时，点击图例会触发地图颜色的改变。然而，选项中并没有明确的配置项来指定此颜色。那么，这个颜色是如何产生的，又如何对其进行修改呢？颜色来源：可视化映射 echarts中有一个名为可视化映射（visualmap）的对象，它负责将…

程序猿
2025年12月24日
0000
好文分享

css网页设计模板怎么用

通过以下步骤使用 CSS 网页设计模板：选择模板并下载到本地计算机。了解模板结构，包括 index.html（内容）和 style.css（样式）。编辑 index.html 中的内容，替换占位符。在 style.css 中自定义样式，修改字体、颜色和布局。添加自定义功能，如 JavaScript …

程序猿
2025年12月24日
0000
好文分享

apache不加载css文件怎么办

apache不加载css文件的解决办法：1、删除中文字符，使用unicode代替；2、将css文件另存为utf-8格式；3、检查css路径，打开浏览器看是否报404错误；4、使用chmod 777 css文件，给文件添加读取权限。本教程操作环境：Windows7系统、HTML5&&…

程序猿
2025年12月24日
0000
好文分享

html5怎样插入可预览文档_html5文档预览功能实现与控件选择【步骤】

HTML5文档预览有五种方式：一、用iframe嵌入Google Docs等在线服务；二、用embed/object标签加载同源PDF；三、集成PDF.js实现自定义渲染；四、用FileReader配合Office Online Viewer预览Office文件；五、后端转HTML再前端加载。如果…

程序猿
2025年12月23日
3000
好文分享

php如何html_在PHP代码中输出HTML内容【输出】

必须确保PHP正确解析并输出原始HTML字符串而非转义文本；可通过echo/print直接输出、heredoc语法处理多行含变量HTML，或用PHP结束标签切换至纯HTML模式。如果您在PHP脚本中需要将HTML代码作为响应内容发送给浏览器，则必须确保PHP正确解析并输出原始HTML字符串，而非将…

程序猿
2025年12月23日
0000
好文分享

运行html报错404怎么改_改html运行404错误方法【技巧】

404错误是因服务器找不到资源，解决方法包括：检查文件路径与URL一致，确认文件在服务器根目录；启动Web服务器并测试localhost首页；核对配置文件的DocumentRoot和DirectoryIndex设置；排查文件名大小写及扩展名错误；使用浏览器开发者工具查看Network中404请求的具…

程序猿
2025年12月23日
0000
好文分享

html5乱码怎么设置_html5用meta charset=utf-8设编码防页面乱码【设置】

HTML5中文乱码需四步解决：一、在首行添加如果您在浏览 HTML5 页面时遇到中文显示为乱码的情况，则可能是由于网页未正确声明字符编码。以下是解决此问题的步骤：一、在 head 中添加 meta charset 声明 HTML5 推荐使用 meta charset=”UTF-8&#…

程序猿
2025年12月23日
0000
好文分享

如何让别人下载html_设置HTML文件供他人下载链接【链接】

可通过四种方法强制下载HTML文件：一、用download属性设超链接；二、服务端配置Content-Disposition响应头；三、打包为ZIP提供下载；四、用JavaScript生成Blob并触发下载。如果您希望他人能够直接下载某个HTML文件，而非在浏览器中打开查看，需要通过特定方式设置链…

程序猿
2025年12月23日
0000
好文分享

putty怎么运行html_putty连接环境运行html方法【教程】

1、可通过本地浏览器查看：使用SFTP下载HTML文件后双击用默认浏览器打开预览；2、启动轻量级Web服务器：在PuTTY中用Python命令python3 -m http.server 8000运行并本地访问服务器IP:8000查看；3、配置Apache：安装Apache2服务，将HTML文件放入…

程序猿
2025年12月23日
0000
好文分享

如何写html模板_编写可复用的HTML模板文件【复用】

可复用HTML模板有五种方法：一、服务端包含（SSI）；二、JavaScript动态加载；三、Web Components自定义元素；四、构建工具（如EJS+Webpack）预编译；五、iframe嵌入。如果您希望在多个网页中重复使用相同的HTML结构，避免每次手动编写重复代码，则需要创建可复用的…

程序猿
2025年12月23日
0000
好文分享

html如何引入别的html_引入其他HTML文件内容技术【方法必学】

可在HTML中嵌入另一HTML文件内容的方法有五种：一、iframe标签静态嵌入；二、fetch API动态加载；三、object标签嵌入；四、服务端包含（SSI）；五、ES6模块导入HTML模板字符串。如果您希望在当前HTML文件中嵌入另一个HTML文件的内容，而不是通过跳转链接的方式访问，就需…

程序猿
2025年12月23日
0000
好文分享

html5视频怎么打开_HTML5 video标签加controls点击播放视频文件【打开】

HTML5视频无法播放的解决方法包括：一、正确添加controls和src属性，并设置宽高与preload；二、用多个source标签提供MP4、WebM等兼容格式；三、确保服务器配置正确MIME类型；四、autoplay需配合muted使用；五、JavaScript动态加载时需捕获play() P…

程序猿
2025年12月23日
0000
好文分享

html如何优化_优化HTML代码性能与加载速度【性能】

网页加载缓慢等问题源于HTML冗余、资源阻塞或语义不当，需从精简标记、优化资源加载、启用现代特性、减少重排重绘、配置服务器传输五方面优化。如果您发现网页加载缓慢、首屏渲染时间过长或Lighthouse评分偏低，则可能是HTML结构冗余、资源加载阻塞或语义不当所致。以下是优化HTML代码性能与加载速…

程序猿
2025年12月23日
0000
好文分享

eclipse如何html_在Eclipse中开发HTML项目【项目】

需安装Web Developer Tools插件并创建Dynamic Web Project，HTML文件须置于WebContent目录下，可通过内置浏览器或启动服务器后用HTTP URL在外部浏览器中预览。如果您希望在Eclipse中创建并运行HTML项目，但发现新建项目时缺少HTML模板或浏览…

程序猿
2025年12月23日
0000
好文分享

html5如何发布网站_HTML5网站发布到服务器的步骤【发布指南】

HTML5网站无法访问通常是因未正确部署到Web服务器；需依次完成文件整理与本地测试、选择配置服务器环境、上传文件保持目录结构、设置域名DNS解析及服务器绑定、最后外部验证访问与功能。如果您已完成HTML5网站的开发，但无法通过域名或IP地址访问页面，则可能是由于网站文件未正确部署到Web服务器。…

程序猿
2025年12月23日
0000
好文分享

pdf怎么转html5_pdf用工具转HTML或用jsPDF生成html5格式【转换】

PDF转HTML5有四种技术路径：一、用PDF.js前端渲染；二、用Pandoc语义化转换；三、用pdf2htmlEX生成响应式HTML；四、用PDFBox+Thymeleaf服务端动态生成HTML5。如果您需要将PDF文件转换为HTML5格式，可能是因为希望在网页中直接展示PDF内容，或实现更灵…

程序猿
2025年12月23日
0000

发表回复

登录后才能评论

Spark 并行读取但写入分区时仅使用单核的优化方法

关于作者

相关推荐

发表回复