追求性能第一部分:内联 C、OpenMP 和 Perl 数据语言 (PDL)

追求性能第一部分:内联 c、openmp 和 perl 数据语言 (pdl)

有时,一个人的代码必须简单地执行,而诸如美观、“聪明”或对单一语言解决方案的承诺之类的原则则完全不适用。
在 tprc 我做了一个演讲(这里是幻灯片)关于如何做到这一点
可以针对生物信息学应用程序完成,但我认为有必要使用一个更简单的示例来说明最大化 perl 性能的潜在场所
程序员在数据密集型应用程序中工作时可以随意使用。

所以这是一个玩具问题来说明这些选项。给定一个非常大的双精度浮点数组使用以下函数将它们变换cos(sin(sqrt(x)))
该函数有 3 个嵌套的浮点运算。这是一个评估成本高昂的函数,尤其是在必须计算大量值的情况下。我们可以合理生成
使用以下代码快速获取 perl 中的数组值(以及我们将要检查的解决方案的一些副本):

my $num_of_elements = 50_000_000;my @array0 = map { rand } 1 .. $num_of_elements;    ## generate random numbersmy @array1 = @array0;                               ## copy the arraymy @array2 = @array0;                               ## another copymy @array3 = @array0;                               ## yet another copymy @rray4  = @array0;                               ## the last? copymy $array_in_pdl      = pdl(@array0);    ## convert the array to a pdl ndarraymy $array_in_pdl_copy = $array_in_pdl->copy;    ## copy the pdl ndarray

可能的解决方案包括以下:

在 perl 中使用 for 循环进行就地修改。

for my $elem (@array0) {    $elem = cos( sin( sqrt($elem) ) );}

使用内联 c 代码遍历数组并在 c 中就地转换。 。有效地使用 c 进行就地映射。在 c 中访问 perl 数组(c 中的 av*)的元素尤其如此
如果使用 perl 5.36 及更高版本,则性能更高,因为该版本的 perl 中引入了优化的获取函数。

void map_in_c(av *array) {  int len = av_len(array) + 1;  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    if (elem != null) {      double value = svnv(*elem);      value = cos(sin(sqrt(value))); // modify the value      sv_setnv(*elem, value);    }  }}

使用内联 c 代码来转换数组,但将转换分解为 3 个连续的 c for 循环。 这是一个真正关于权衡的实验:现代 x86 处理器有一个专门的,
向量化平方根指令,因此编译器也许可以弄清楚如何使用它来加速至少一部分计算。另一方面,我们将降低算术强度
每个循环并访问相同的数据值两次,因此可能会为这些重复的数据访问付出代价。

void map_in_c_sequential(av *array) {  int len = av_len(array) + 1;  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    if (elem != null) {      double value = svnv(*elem);      value = sqrt(value); // modify the value      sv_setnv(*elem, value);    }  }  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    double value = svnv(*elem);    value = sin(value); // modify the value    sv_setnv(*elem, value);  }  for (int i = 0; i < len; i++) {    sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above    double value = svnv(*elem);    value = cos(value); // modify the value    sv_setnv(*elem, value);  }}

使用 openmp 并行化 c 函数循环。 在上一篇文章中,我们讨论了如何从 perl 中控制 openmp 环境并编译 openmp 感知的 inline::c 代码
由 perl 使用,所以让我们将这些知识付诸实践!在程序的 perl 方面,我们将这样做:

use v5.38;use alien::openmp;use openmp::environment;use inline (    c    => 'data',    with => qw/alien::openmp/,);my $env = openmp::environment->new();my $threads_or_workers = 8; ## or any other value## modify number of threads and make c aware of the change$env->omp_num_threads($threads_or_workers);_set_num_threads_from_env();## modify runtime schedule and make c aware of the change$env->omp_schedule("guided,1");    ## modify runtime schedule_set_openmp_schedule_from_env();

在程序的 c 部分,我们将执行此操作(已经讨论了 openmp 环境的辅助函数
之前,因此这里不再重复)。

#include void map_in_c_using_omp(av *array) {  int len = av_len(array) + 1;#pragma omp parallel  {#pragma omp for schedule(runtime) nowait    for (int i = 0; i < len; i++) {      sv **elem = av_fetch_simple(array, i, 0); // perl 5.36 and above      if (elem != null) {        double value = svnv(*elem);        value = cos(sin(sqrt(value))); // modify the value        sv_setnv(*elem, value);      }    }  }}

perl 数据语言 (pdl) 可以拯救你。 pdl 模块集是另一种加速操作的方法,可以将程序员从 c 语言中解救出来。它还能在给定正确指令的情况下自动并行化,所以为什么不使用它呢?

use pdl;## set the minimum size problem for autothreading in pdlset_autopthread_size(0);my $threads_or_workers = 8; ## or any other value## pdl## use pdl to modify the array - multi threadedset_autopthread_targ($threads_or_workers);$array_in_pdl->inplace->sqrt;$array_in_pdl->inplace->sin;$array_in_pdl->inplace->cos;## use pdl to modify the array - single threadset_autopthread_targ(0);$array_in_pdl_copy->inplace->sqrt;$array_in_pdl_copy->inplace->sin;$array_in_pdl_copy->inplace->cos;

使用8个线程我们得到这样的东西

inplace benchmarksinplace  in         perl took 2.85 secondsinplace  in perl/mapcseq took 1.62 secondsinplace  in    perl/mapc took 1.54 secondsinplace  in   perl/c/omp took 0.24 secondspdl benchmarksinplace  in     pdl - st took 0.94 secondsinplace  in     pdl - mt took 0.17 seconds

使用16个线程我们得到了这个!

Starting the benchmark for 50000000 elements using 16 threads/workersInplace benchmarksInplace  in         Perl took 3.00 secondsInplace  in Perl/mapCseq took 1.72 secondsInplace  in    Perl/mapC took 1.62 secondsInplace  in   Perl/C/OMP took 0.13 secondsPDL benchmarksInplace  in     PDL - ST took 0.99 secondsInplace  in     PDL - MT took 0.10 seconds

一些观察:

openmp 和 pdl 的多线程 (mt) 会响应工作线程的数量,而解决方案则不会。因此,这些基准测试中纯 perl 和内联非 openmp 解决方案的时序给出了性能自然变化的想法用 c 语言编写地图版本的代码,性能提高了约 180%(对比 perl 和 perl/mapc)。在单线程中使用 pdl 性能提高了 285-300%(对比 pdl – st 和 perl 计时)。重复内存访问是要付出代价的(对比 perl/mapc 与 perl/mapcseq)openmp 和多线程 pdl 操作提供了类似的性能(尽管 pdl 在这些示例中显得更快)。代码运行速度快了 23-30 倍。总之,在 perl 中,有原生(pdl 模块)和外来(c/openmp)解决方案来加速数据密集型操作,那么为什么不广泛而明智地使用它们来提高 perl 程序的性能呢?

以上就是追求性能第一部分:内联 C、OpenMP 和 Perl 数据语言 (PDL)的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1456273.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
C++框架与其他语言框架在开发大型项目中的适用性
上一篇 2025年12月18日 08:38:56
如何为C++框架管理多个自定义扩展?
下一篇 2025年12月18日 08:39:08

相关推荐

  • 使用 C++ 构建高性能服务器架构的最佳实践

    遵循 c++++ 中构建高性能服务器架构的最佳实践可以创建可扩展、可靠且可维护的系统:使用线程池以重用线程,提高性能。利用协程减少上下文切换和内存开销,提升性能。通过智能指针和引用计数优化内存管理,避免内存泄漏和性能瓶颈。选择哈希表、数组和链表等高效的数据结构,优化数据访问和存储。充分利用现代 c+…

    2026年5月10日
    000
  • .NET中的仓储模式(Repository Pattern)是什么?如何解耦业务逻辑和数据访问?

    仓储模式是.NET中用于分离业务逻辑与数据访问的抽象层,通过定义如IUserRepository接口并结合依赖注入,实现对数据访问的具体技术解耦;业务逻辑仅依赖接口,可通过SqlUserRepository等具体实现操作数据库,而无需知晓底层细节;该模式提升可维护性、支持单元测试、降低耦合,并可配合…

    2026年5月10日
    000
  • 掌握Python中嵌套列表与字典的数据访问技巧

    本文详细介绍了在Python中如何高效且准确地访问复杂嵌套数据结构(特别是包含列表和字典的多层JSON数据)中的特定值。通过具体示例,文章解释了直接索引列表元素和字典键的正确方法,避免了常见的类型错误,并提供了处理多条记录和潜在数据缺失的健壮性建议,旨在帮助开发者熟练提取深层数据。 理解嵌套数据结构…

    2026年5月10日
    000
  • .NET中的WPF是什么?如何使用MVVM模式来构建桌面应用?

    WPF是.NET的UI框架,使用XAML实现界面与逻辑分离,支持数据绑定、样式模板和MVVM模式,通过ViewModel暴露数据与命令,View绑定其属性与ICommand实现交互,提升可维护性。 WPF(Windows Presentation Foundation)是 .NET 框架中的一个用于…

    2026年5月10日
    000
  • 指针和数组在C++中有什么区别 内存访问方式与使用场景对比

    指针和数组在C++中有什么区别 内存访问方式与使用场景对比指针和数组在C++中有什么区别 内存访问方式与使用场景对比指针和数组在C++中有什么区别 内存访问方式与使用场景对比指针和数组在C++中有什么区别 内存访问方式与使用场景对比

    指针和数组在c++++中本质不同,使用场景和内存访问方式也存在差异。1. 指针是变量,存储地址,可改变指向;数组是连续内存块,大小固定,不可赋值。2. 数组访问基于固定偏移,编译器直接计算地址;指针访问依赖当前地址,通过移动实现数据访问。3. 数组适合静态结构、保证内存连续的场景,如局部数据存储;指…

    2026年5月10日 用户投稿
    000
  • 前端基本面20

    前端开发实践:自动完成功能设计与实现 本文探讨如何设计和实现一个高效的前端自动完成功能,并重点关注其架构、API设计、性能优化和用户体验。 1. 数据序列化 (JSON.stringify) 在处理自动完成功能的数据时,JSON.stringify 用于将 JavaScript 对象转换为 JSON…

    2026年5月10日
    000
  • Golang反射与标签解析结合使用实例

    Golang反射结合结构体标签的核心优势在于提供运行时动态解析和操作结构体元数据的能力,实现高度灵活、解耦的系统设计。通过reflect.TypeOf(obj).Field(i).Tag.Get(“tag_name”)模式,可在不修改结构体的前提下集中管理JSON序列化、数据…

    2026年5月10日
    300
  • 如何计算C++结构体的大小?解析结构体内存对齐原则

    如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则如何计算C++结构体的大小?解析结构体内存对齐原则

    结构体内存对齐的原则包括:1. 结构体成员对齐,每个成员按自身大小对齐;2. 结构体整体对齐,整体大小需是对齐系数(通常为最大成员大小)的倍数;3. 填充字节插入以满足上述规则。例如,struct mystruct { char a; int b; char c;} 默认情况下会因填充导致大小为12…

    2026年5月10日 用户投稿
    000
  • C#中什么是依赖注入 C# ASP.NET Core依赖注入(DI)的实现原理

    依赖注入是ASP.NET Core实现IoC的核心机制,通过外部容器在运行时将服务实例自动传递给类的构造函数,降低耦合并提升可测试性与维护性。传统方式中类内部直接new依赖导致紧耦合,而DI通过构造函数接收依赖接口,由框架注入具体实现,使业务逻辑与实现分离。ASP.NET Core内置轻量级容器,基…

    2026年5月10日
    000
  • SIMD指令集优化:手写循环速度提升15倍实测

    SIMD指令集优化:手写循环速度提升15倍实测SIMD指令集优化:手写循环速度提升15倍实测SIMD指令集优化:手写循环速度提升15倍实测SIMD指令集优化:手写循环速度提升15倍实测

    simd指令集优化适合处理大规模并行计算任务,通过单指令多数据的方式实现性能提升。1. 确认代码中存在大量可并行操作的同类型计算,如图像或音频处理;2. 选择与目标平台和编译器兼容的指令集,如sse、avx或neon;3. 确保数据内存对齐以避免性能下降或崩溃;4. 使用intrinsic函数或手写…

    2026年5月10日 用户投稿
    000
  • Python字典数据结构优化与值提取教程

    本文旨在指导python初学者如何优化字典数据结构,以避免不必要的嵌套,并实现高效的值提取与数据处理。通过分析常见的数据结构设计误区,我们将展示如何构建简洁且功能强大的字典,从而简化后续的数据操作,如排序,并提升代码的可读性和维护性。 在Python编程中,字典(Dictionary)是一种非常灵活…

    2026年5月10日
    000
  • 即将上线的Gata(GATA币)是什么?怎么样?GATA币技术路径和代币经济学概述

    目录 什么是 Gata:定位和产品边界应用程序/入口点和“可验证数据表面”架构:执行网络 × 数据与数据挖掘 × 应用协同工作应用层数据和存储层执行和 DA 层代币经济学:供应、分配和效用代币效用生态系统伙伴关系和外部信号近期进展和路线图常问问题关键要点 gata 同时构建了“应用程序可用性”和“去…

    2026年5月10日
    100
  • 怎样用Golang实现高效文件压缩传输 集成zstd与snappy流式压缩

    怎样用Golang实现高效文件压缩传输 集成zstd与snappy流式压缩怎样用Golang实现高效文件压缩传输 集成zstd与snappy流式压缩怎样用Golang实现高效文件压缩传输 集成zstd与snappy流式压缩怎样用Golang实现高效文件压缩传输 集成zstd与snappy流式压缩

    在golang中实现高效的文件压缩传输,核心是利用io.reader和io.writer接口结合zstd或snappy进行流式压缩与解压缩。发送端通过打开文件reader并将数据写入连接网络的压缩器writer,接收端从网络reader读取压缩数据并通过解压器写入目标文件,形成管道模式。选择压缩算法…

    2026年5月10日 用户投稿
    100
  • C#项目结构如何组织?DDD(领域驱动设计)分层架构在C#中的最佳实践

    采用DDD时应分Domain、Application、Infrastructure、Presentation四层,每层职责分明且仅依赖下层。Domain包含实体、值对象、聚合根及领域事件,不依赖其他层;Application协调业务用例,调用领域对象但不含业务规则;Infrastructure实现仓…

    2026年5月10日
    100
  • js如何解析CAD文件 前端CAD图纸预览方案实现

    js如何解析CAD文件 前端CAD图纸预览方案实现js如何解析CAD文件 前端CAD图纸预览方案实现js如何解析CAD文件 前端CAD图纸预览方案实现js如何解析CAD文件 前端CAD图纸预览方案实现

    纯js直接解析#%#$#%@%@%$#%$#%#%#$%@_b5fde512c++76571c8afd6a6089eaaf42a文件难度较大,但可通过替代方案实现前端预览。常用方法包括:1.服务端转换,利用专业库将cad转为svg/pdf等格式,前端展示结果;2.使用webassembly运行c/c…

    2026年5月10日 用户投稿
    000
  • C++shared_ptr与多线程环境安全使用方法

    shared_ptr的引用计数操作线程安全,但其管理的对象及shared_ptr实例本身的并发修改需额外同步。多个线程可安全拷贝或销毁shared_ptr,因引用计数增减为原子操作;但若多线程读写shared_ptr指向的对象,则必须通过互斥锁等机制保证对象数据一致性;此外,当多个线程对同一shar…

    2026年5月10日
    000
  • Python字典数据结构优化与值提取实践

    本文旨在探讨Python中字典数据结构的常见误用,并提供优化方案,特别是在需要提取字典值进行进一步处理(如排序)时。通过一个生日管理应用的具体案例,我们将演示如何正确构建字典,从而简化值的访问和操作,避免因不当结构导致的困扰,并提升代码的可读性和效率。 1. 理解Python字典及其核心用途 Pyt…

    2026年5月10日
    000
  • JavaScript select 元素动态数据展示与常见问题解析

    本文深入探讨了在使用javascript动态填充并根据用户选择展示数据时,`select` 元素常见的交互问题。我们将重点解决 `onchange` 事件中 `this` 关键字的误解、如何正确获取选中的 `option` 元素及其数据,以及如何高效地从全局数据源中检索并格式化显示相关信息,尤其是在…

    2025年12月23日
    000
  • 掌握JavaScript异步编程:解决API数据初始undefined问题

    本文旨在解决JavaScript中常见的API数据初始为undefined的问题,特别是当异步操作(如fetch请求)未完成时访问数据。我们将深入探讨async/await语法,解释其如何通过等待Promise解决异步数据流,并提供一个具体的Web表单与Bored API交互的案例,展示如何正确地获…

    2025年12月23日
    000
  • 利用R语言通过API和JSON解析高效提取网页链接与数据

    本文旨在指导读者如何使用R语言中的`httr2`包,通过访问网页的底层JSON数据源来高效提取链接地址和下载文件,尤其适用于那些点击后直接触发下载的链接。我们将探讨如何识别、请求、解析JSON数据,并从中提取特定信息,最终实现无需浏览器自动化即可获取所需链接和文件的目的。 1. 挑战与解决方案概述 …

    2025年12月23日
    000

发表回复

登录后才能评论
关注微信