追求性能第一部分：内联 C、OpenMP 和 Perl 数据语言 (PDL)

程序猿 • 2025年12月18日 08:39:05 • 好文分享 • 阅读 0

有时，一个人的代码必须简单地执行，而诸如美观、“聪明”或对单一语言解决方案的承诺之类的原则则完全不适用。
在 tprc 我做了一个演讲（这里是幻灯片）关于如何做到这一点
可以针对生物信息学应用程序完成，但我认为有必要使用一个更简单的示例来说明最大化 perl 性能的潜在场所
程序员在数据密集型应用程序中工作时可以随意使用。

所以这是一个玩具问题来说明这些选项。给定一个非常大的双精度浮点数组使用以下函数将它们变换：cos(sin(sqrt(x)))。
该函数有 3 个嵌套的浮点运算。这是一个评估成本高昂的函数，尤其是在必须计算大量值的情况下。我们可以合理生成
使用以下代码快速获取 perl 中的数组值（以及我们将要检查的解决方案的一些副本）：

my $num_of_elements = 50_000_000;my @array0 = map { rand } 1 .. $num_of_elements;    ## generate random numbersmy @array1 = @array0;                               ## copy the arraymy @array2 = @array0;                               ## another copymy @array3 = @array0;                               ## yet another copymy @rray4  = @array0;                               ## the last? copymy $array_in_pdl      = pdl(@array0);    ## convert the array to a pdl ndarraymy $array_in_pdl_copy = $array_in_pdl->copy;    ## copy the pdl ndarray

可能的解决方案包括以下：

在 perl 中使用 for 循环进行就地修改。

for my $elem (@array0) {    $elem = cos( sin( sqrt($elem) ) );}

使用内联 c 代码遍历数组并在 c 中就地转换。 。有效地使用 c 进行就地映射。在 c 中访问 perl 数组（c 中的 av*）的元素尤其如此
如果使用 perl 5.36 及更高版本，则性能更高，因为该版本的 perl 中引入了优化的获取函数。

void map_in_c(av *array) {  int len = av_len(array) + 1;  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    if (elem != null) {      double value = svnv(*elem);      value = cos(sin(sqrt(value))); // modify the value      sv_setnv(*elem, value);    }  }}

使用内联 c 代码来转换数组，但将转换分解为 3 个连续的 c for 循环。 这是一个真正关于权衡的实验：现代 x86 处理器有一个专门的，
向量化平方根指令，因此编译器也许可以弄清楚如何使用它来加速至少一部分计算。另一方面，我们将降低算术强度
每个循环并访问相同的数据值两次，因此可能会为这些重复的数据访问付出代价。

void map_in_c_sequential(av *array) {  int len = av_len(array) + 1;  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    if (elem != null) {      double value = svnv(*elem);      value = sqrt(value); // modify the value      sv_setnv(*elem, value);    }  }  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    double value = svnv(*elem);    value = sin(value); // modify the value    sv_setnv(*elem, value);  }  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    double value = svnv(*elem);    value = cos(value); // modify the value    sv_setnv(*elem, value);  }}

使用 openmp 并行化 c 函数循环。 在上一篇文章中，我们讨论了如何从 perl 中控制 openmp 环境并编译 openmp 感知的 inline::c 代码
由 perl 使用，所以让我们将这些知识付诸实践！在程序的 perl 方面，我们将这样做：

use v5.38;use alien::openmp;use openmp::environment;use inline (    c    => 'data',    with => qw/alien::openmp/,);my $env = openmp::environment->new();my $threads_or_workers = 8; ## or any other value## modify number of threads and make c aware of the change$env->omp_num_threads($threads_or_workers);_set_num_threads_from_env();## modify runtime schedule and make c aware of the change$env->omp_schedule("guided,1");    ## modify runtime schedule_set_openmp_schedule_from_env();

在程序的 c 部分，我们将执行此操作（已经讨论了 openmp 环境的辅助函数
之前，因此这里不再重复）。

#include void map_in_c_using_omp(av *array) {  int len = av_len(array) + 1;#pragma omp parallel  {#pragma omp for schedule(runtime) nowait    for (int i = 0; i < len; i++) {      sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above      if (elem != null) {        double value = svnv(*elem);        value = cos(sin(sqrt(value))); // modify the value        sv_setnv(*elem, value);      }    }  }}

perl 数据语言 (pdl) 可以拯救你。 pdl 模块集是另一种加速操作的方法，可以将程序员从 c 语言中解救出来。它还能在给定正确指令的情况下自动并行化，所以为什么不使用它呢？

use pdl;## set the minimum size problem for autothreading in pdlset_autopthread_size(0);my $threads_or_workers = 8; ## or any other value## pdl## use pdl to modify the array - multi threadedset_autopthread_targ($threads_or_workers);$array_in_pdl->inplace->sqrt;$array_in_pdl->inplace->sin;$array_in_pdl->inplace->cos;## use pdl to modify the array - single threadset_autopthread_targ(0);$array_in_pdl_copy->inplace->sqrt;$array_in_pdl_copy->inplace->sin;$array_in_pdl_copy->inplace->cos;

使用8个线程我们得到这样的东西

inplace benchmarksinplace  in         perl took 2.85 secondsinplace  in perl/mapcseq took 1.62 secondsinplace  in    perl/mapc took 1.54 secondsinplace  in   perl/c/omp took 0.24 secondspdl benchmarksinplace  in     pdl - st took 0.94 secondsinplace  in     pdl - mt took 0.17 seconds

使用16个线程我们得到了这个！

Starting the benchmark for 50000000 elements using 16 threads/workersInplace benchmarksInplace  in         Perl took 3.00 secondsInplace  in Perl/mapCseq took 1.72 secondsInplace  in    Perl/mapC took 1.62 secondsInplace  in   Perl/C/OMP took 0.13 secondsPDL benchmarksInplace  in     PDL - ST took 0.99 secondsInplace  in     PDL - MT took 0.10 seconds

一些观察：

openmp 和 pdl 的多线程 (mt) 会响应工作线程的数量，而解决方案则不会。因此，这些基准测试中纯 perl 和内联非 openmp 解决方案的时序给出了性能自然变化的想法用 c 语言编写地图版本的代码，性能提高了约 180%（对比 perl 和 perl/mapc）。在单线程中使用 pdl 性能提高了 285-300%（对比 pdl – st 和 perl 计时）。重复内存访问是要付出代价的（对比 perl/mapc 与 perl/mapcseq）openmp 和多线程 pdl 操作提供了类似的性能（尽管 pdl 在这些示例中显得更快）。代码运行速度快了 23-30 倍。总之，在 perl 中，有原生（pdl 模块）和外来（c/openmp）解决方案来加速数据密集型操作，那么为什么不广泛而明智地使用它们来提高 perl 程序的性能呢？

以上就是追求性能第一部分：内联 C、OpenMP 和 Perl 数据语言 (PDL)的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1456273.html

数据访问

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

C++框架与其他语言框架在开发大型项目中的适用性

上一篇 2025年12月18日 08:38:56

如何为C++框架管理多个自定义扩展？

下一篇 2025年12月18日 08:39:08

好文分享

JavaScript select 元素动态数据展示与常见问题解析

本文深入探讨了在使用javascript动态填充并根据用户选择展示数据时，`select` 元素常见的交互问题。我们将重点解决 `onchange` 事件中 `this` 关键字的误解、如何正确获取选中的 `option` 元素及其数据，以及如何高效地从全局数据源中检索并格式化显示相关信息，尤其是在…

程序猿
2025年12月23日
0000
好文分享

掌握JavaScript异步编程：解决API数据初始undefined问题

本文旨在解决JavaScript中常见的API数据初始为undefined的问题，特别是当异步操作（如fetch请求）未完成时访问数据。我们将深入探讨async/await语法，解释其如何通过等待Promise解决异步数据流，并提供一个具体的Web表单与Bored API交互的案例，展示如何正确地获…

程序猿
2025年12月23日
0000
好文分享

利用R语言通过API和JSON解析高效提取网页链接与数据

本文旨在指导读者如何使用R语言中的`httr2`包，通过访问网页的底层JSON数据源来高效提取链接地址和下载文件，尤其适用于那些点击后直接触发下载的链接。我们将探讨如何识别、请求、解析JSON数据，并从中提取特定信息，最终实现无需浏览器自动化即可获取所需链接和文件的目的。 1. 挑战与解决方案概述 …

程序猿
2025年12月23日
0000
好文分享

PHP isset()与表单提交：理解$_POST和GET方法的关键差异

在使用php处理表单提交时，开发者常遇到`isset($_post[‘submit’])`不生效的问题。这通常是由于html表单的默认提交方法为`get`，导致数据通过url而非请求体传输。本文将深入解析`get`与`post`方法的区别，并指导如何正确配置表单，确保`$_p…

程序猿
2025年12月23日
0000
好文分享

Django模板中访问父模型属性：优化项目详情页显示

本文旨在解决Django模板中显示关联父模型属性的常见问题。通过将列表视图（ListView）重构为详情视图（DetailView），并利用Django ORM的反向关系，可以直接在模板中访问当前项目对象及其所有关联的帖子，从而简洁高效地实现“某项目下的帖子”页面标题显示，提升模板的可读性和数据访问…

程序猿
2025年12月23日
0000
好文分享

在Django模型中动态计算并存储可用余额的实践指南

本教程详细介绍了如何在django模型中实现从当前余额扣除输入金额以计算可用余额的功能。通过重写模型的`save()`方法，可以在数据保存前自动执行此计算，确保可用余额字段始终保持最新和准确。文章将提供示例代码和最佳实践，帮助开发者高效管理模型中的派生字段。在Django应用程序开发中，我们经常会…

程序猿
2025年12月23日
0000
好文分享

html5文件如何处理二进制数据 html5文件ArrayBuffer的读取操作

使用ArrayBuffer处理文件二进制数据的方法包括：一、通过FileReader的readAsArrayBuffer读取用户选择的文件；二、使用fetch API请求远程资源并调用arrayBuffer()方法获取数据；三、利用Response构造器从ArrayBuffer创建响应对象，适用于S…

程序猿
2025年12月23日
0000
好文分享

JavaScript对象数据访问：掌握点符号与方括号的用法

本教程旨在详细讲解如何在javascript中高效地访问对象属性，特别是处理嵌套数据结构。我们将深入探讨点符号（`.`）和方括号（`[]`）两种核心访问方式的用法、适用场景及其最佳实践，并通过具体示例代码演示如何安全、准确地提取所需数据。引言：理解JavaScript对象在JavaScript中…

程序猿
2025年12月23日
0000
好文分享

动态表头与数据：在 Laravel Blade 中高效渲染复杂表格

本教程将指导您如何在 laravel blade 模板中，利用 `@foreach` 循环动态渲染包含复杂表头和对应数据的表格。我们将分析常见错误，并提供一种健壮的解决方案，确保数据与表头正确对齐，从而生成结构清晰、可读性强的统计报表。 1. 理解动态表格渲染的挑战在 Web 应用开发中，尤其是在…

程序猿
2025年12月23日
0000
好文分享

Laravel Blade中动态生成带标题的表格：foreach循环的正确实践

本教程详细阐述了如何在laravel blade模板中，利用嵌套的`foreach`循环结合索引键，高效且准确地动态渲染包含行标题和对应数据列的html表格。文章分析了常见的错误模式，并提供了一个结构清晰、数据映射正确的解决方案，确保输出的表格布局与预期数据结构一致，避免重复渲染和数据错位问题。在…

程序猿
2025年12月23日
0000
好文分享

将 FormData 转换为 JavaScript 对象：实用指南

本文详细介绍了如何在 javascript 中将 `formdata` 对象高效地转换为一个普通的 javascript 对象。通过利用 `object.fromentries()` 方法，开发者可以轻松地将表单数据从迭代器形式转化为键值对形式，从而实现更直观、便捷的数据访问和操作。文章提供了示例代…

程序猿
2025年12月23日
0000
好文分享

如何优化单页应用（SPA）特定数据访问以提升效率

本文探讨了在单页应用（spa）中，如何通过直接访问后端api来高效获取特定分类数据，而非依赖前端页面加载和筛选。针对用户希望减少网站加载时间并自动选择特定分类的需求，我们揭示了spa的工作原理——通常一次性加载所有数据。因此，直接调用api是绕过繁重前端渲染、快速获取所需信息的有效策略，尤其适用于仅…

程序猿
2025年12月23日
0000
好文分享

分步用户数据收集下的数据库设计与参照完整性实践

本文探讨了在分步收集用户数据并存储于不同数据库表时，如何通过主键和外键实现表间连接，并强调了将数据整合到单一表作为更优解决方案的数据库设计原则与实践。文章提供了具体的数据库表结构设计示例和SQL查询语句，旨在帮助读者构建高效且具备参照完整性的数据库系统。分步数据收集的挑战与数据库设计考量在用户注…

程序猿
2025年12月22日
0000
好文分享

如何在Django模板中正确传递和访问字典数据

本文旨在解决Django视图中向HTML模板传递字典数据时常见的’tuple’ object has no attribute ‘get’错误。通过分析render函数的正确用法，我们将演示如何将上下文字典作为第三个参数传递，确保模板能够顺利访问视图提…

程序猿
2025年12月22日
0000
好文分享

JavaScript中优化问答数据结构：从分离数组到对象数组的转换

本教程旨在指导JavaScript开发者如何将分散的问题和答案数组整合为单一、结构化的对象数组。通过这种优化，可以有效提升代码的可读性、可维护性，并简化数据访问逻辑，尤其适用于需要管理相关联数据集合的应用场景，如问答系统。在构建交互式应用时，例如一个随机问答程序，开发者常会遇到需要管理成对关联数据…

程序猿
2025年12月22日
0000
好文分享

R语言网络爬虫：高效解析HTML中内嵌的JSON数据

本教程详细介绍了如何使用R语言从包含JSON数据的HTML页面中提取并解析所需信息。针对网页源代码中JSON数据被HTML标签包裹的情况，我们将利用rvest包获取页面内容，并通过html_text()提取原始文本，随后借助jsonlite包的parse_json()函数将JSON字符串转换为R数据…

程序猿
2025年12月22日
0000
好文分享

解决Firebase数据写入时JavaScript模块作用域与事件处理问题

本教程旨在解决使用HTML和JavaScript向Firebase写入数据时，因JavaScript模块作用域导致函数未定义的问题。文章将详细解释type=”module”脚本的特性，并提供两种解决方案：将函数暴露到全局作用域（不推荐）和使用addEventListener进…

程序猿
2025年12月22日
0000
好文分享

自定义浏览器自动填充与搜索建议样式：CSS与JavaScript实践

本文深入探讨如何在不禁用%ignore_a_1%原生功能的前提下，自定义搜索框下自动弹出的历史搜索词或自动填充建议的样式。针对浏览器提供的自动填充和建议框，我们将介绍如何利用特定的CSS伪类（如-webkit-autofill）来调整其输入框本身的样式。文章将明确指出浏览器原生建议下拉框的样式限制，…

程序猿
2025年12月22日
0000
好文分享

表单中的隐私保护怎么实现？如何匿名化用户数据？

表单隐私保护需遵循数据最小化、加密传输存储、用户控制权及匿名化技术。1. 收集必要信息，避免过度采集；2. 使用HTTPS加密传输，防止数据被窃取；3. 敏感数据加密存储，如AES或SHA-256；4. 用户可查看、修改、删除个人数据，并提供清晰隐私政策；5. 采用数据脱敏、K-匿名性、L-多样性或…

程序猿
2025年12月22日
0000
好文分享

表单中的跨境传输怎么实现？如何合法转移数据？

跨境数据传输不仅需技术保障，更需合规应对，核心在于通过加密、访问控制等技术手段确保数据安全，同时依据GDPR、PIPL等法规履行告知同意、签署SCCs或采用BCRs等合法机制，实现数据跨境的合法合规流动。表单中的跨境传输，核心在于两点：技术上确保数据安全送达，以及法律上保障数据转移的合法合规性。这…

程序猿
2025年12月22日
0000

发表回复

登录后才能评论

追求性能第一部分：内联 C、OpenMP 和 Perl 数据语言 (PDL)

关于作者

相关推荐

发表回复