Python脚本处理海量数据导致内存溢出:优化策略
处理大型mongoengine数据库时,使用python脚本逐行读取并写入csv文件,当数据量超过10万条时,容易出现内存溢出(oom)错误,导致进程被系统强制终止。本文分析此问题的原因,并提供优化方案。
问题描述:
一个Python脚本循环读取大型MongoEngine数据库表,每次读取一行数据并追加到CSV文件中。当数据量达到10万级时,程序发生内存溢出,系统日志显示OOM错误,例如:
aug 22 18:59:13 ubuntu1 kernel: [35729.076177] oom-kill:constraint=constraint_none,nodemask=(null),cpuset=user.slice,mems_allowed=0,global_oom,task_memcg=/user.slice/user-1000.slice/user@1000.service/app.slice/snap.pycharm-professional.pycharm-professional.5bec252c-af46-4b4b-b24d-ca56f3e18cc8.scope,task=python,pid=82650,uid=1000aug 22 18:59:13 ubuntu1 kernel: [35729.076201] out of memory: killed process 82650 (python) total-vm:25980252kb, anon-rss:22958888kb, file-rss:0kb, shmem-rss:0kb, uid:1000 pgtables:45712kb oom_score_adj:0
使用memory_profiler工具分析,发现问题代码段:
Line # Mem usage Increment Occurrences Line Contents 443 557.3 MiB -906.4 MiB 47360 elif _attr_id in multiple_choices_attr_id_list: 444 557.3 MiB -723.6 MiB 37888 if isinstance(answer, list): 445 557.3 MiB -378176.5 MiB 19756656 answer = '|'.join([ 446 557.3 MiB -376003.6 MiB 19643112 str(option_id_name_dict.get(_id, '')) for _id in option_id_order_list if _id in answer 447 ]) 448 557.3 MiB -725.2 MiB 37888 _row.append(answer)
问题分析:
立即学习“Python免费学习笔记(深入)”;
memory_profiler显示的负增量并非内存减少,而是因为其测量的是代码执行之后的内存使用情况。问题在于445行和446行的列表推导式,它创建了一个巨大的中间列表,占用大量内存。即使'|'.join(...)完成,这个中间列表仍然存在,直到垃圾回收。由于数据量巨大,垃圾回收可能无法及时处理,导致OOM。
解决方案:
避免一次性创建大型列表,采用生成器或迭代器逐行处理数据,并在处理完一行后释放不再需要的变量。使用csv模块高效写入CSV文件,避免内存缓存过多数据。 考虑数据库的批量写入功能或分批处理,降低单次处理的数据量。

通过以上优化,可以有效避免Python脚本在处理海量数据时发生内存溢出。 建议结合实际数据量和系统资源,选择合适的优化策略。
以上就是Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1358044.html
微信扫一扫
支付宝扫一扫