Hash Aggregate通过哈希表分组聚合数据,适用于无序大表且分组较少场景;读取数据后提取分组键构建哈希表,累加聚合值并输出结果;当分组过多超出work_mem时会溢出到磁盘;相比需排序的GroupAggregate,Hash Aggregate更快但耗内存,常用于无索引或未排序的GROUP BY查询。

PostgreSQL 中的 HASHAGG(Hash Aggregate)是一种高效的聚合执行机制,主要用于处理带有 GROUP BY 的聚合查询。它通过构建哈希表来分组数据,然后在每个分组内计算聚合函数(如 COUNT、SUM、AVG 等),适用于大数据量但分组数量相对较小的场景。
Hash Aggregate 的基本工作流程
当 PostgreSQL 执行计划选择使用 Hash Aggregate 时,其内部大致按以下步骤运行:
读取输入数据:从子节点(如顺序扫描、索引扫描或其他操作)逐行读取原始数据。 提取分组键(GROUP BY 列):对每一行提取用于分组的字段值。 构建哈希表:以分组键为哈希键,在内存中创建一个哈希表。如果该分组键已存在,则更新对应聚合状态;若不存在,则插入新条目并初始化聚合状态(如 sum=0, count=1)。 累加聚合值:对于每个分组,持续更新聚合中间状态,例如将数值累加到 sum 中,或递增 count。 输出结果:所有输入行处理完毕后,遍历哈希表,将每个分组键及其最终聚合结果返回给上层节点。
何时使用 Hash Aggregate?
PostgreSQL 查询规划器会根据成本估算决定是否采用 Hash Aggregate。常见触发条件包括:
输入数据未排序,且没有可用的索引支持有序分组。 分组数量适中,可以在内存中容纳整个哈希表。 相比 Sort + Group Aggregate,Hash Aggregate 避免了显式排序开销,适合无序大数据集。
可以通过 EXPLAIN 查看执行计划中是否出现 HashAggregate 节点:
HashAggregate (cost=…)
Group Key: column_name
-> Seq Scan on table_name …
内存管理与磁盘溢出
Hash Aggregate 主要在内存中运行,但如果分组过多导致内存不足,PostgreSQL 支持将部分哈希桶写入磁盘(spill to disk),这一过程称为“hash 溢出”。
吐槽大师
吐槽大师(Roast Master) – 终极 AI 吐槽生成器,适用于 Instagram,Facebook,Twitter,Threads 和 Linkedin
94 查看详情
受参数 work_mem 控制:每个查询操作可使用的最大内存。 当哈希表超过 work_mem 限制时,系统会将部分数据写入临时文件,降低性能但保证查询能完成。 可通过增加 work_mem 或优化查询减少分组数来避免溢出。
与 Sort + Group Aggregate 的对比
PostgreSQL 还支持另一种聚合方式:先排序再分组(通常叫 GroupAggregate)。
GroupAggregate:要求输入按分组键排序,适合已有索引或上游已排序的情况,内存占用低,但排序本身可能昂贵。 HashAggregate:不要求排序,直接哈希分组,速度快但内存消耗高,不适合极高基数的分组。
例如,以下查询更可能走 HashAggregate:
SELECT category, SUM(price)
FROM products
GROUP BY category;
如果 category 没有索引或数据无序,PostgreSQL 很可能选择 Hash Aggregate 提高性能。
基本上就这些。Hash Aggregate 是 PostgreSQL 在处理非排序输入聚合时的核心优化手段,合理利用它能显著提升分析类查询效率。
以上就是postgresqlhashagg如何工作_postgresql聚合算法机制的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1085750.html
微信扫一扫
支付宝扫一扫