Hive 优化 tips

程序猿 • 2025年12月2日 22:06:09 • 数据库 • 阅读 0

尽量将小表放在join的左边，我们使用的Hive-0.90,所以是自动转化的，既把小表自动装入内存，执行map side join(性能好), 这是由参

一、 hive join优化
1. 尽量将小表放在join的左边，我们使用的hive-0.90,所以是自动转化的，既把小表自动装入内存，执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000l）参数控制（默认是25m），如果表文件大小在25m左右，可以适当调整此参数，进行map side join，避免reduce side join。也可以显示声明进行map join：特别适用于小表join大表的时候，select /*+ mapjoin(b) */ a.key, a.value from a join b on a.key = b.key
2. 注意带表分区的join，如：
select a.val, b.val from a left outer join b on (a.key=b.key) where a.ds=’2009-07-07′ and b.ds=’2009-07-07′
因为hive是先join再where的，所以如果在b中找不到a表的记录，，b表中的所以列都会列出null，包括ds列，这样left outer的查询结果与where子句无关了，解决办法：
select a.val, b.val from a left outer join b on (a.key=b.key and b.ds=’2009-07-07′ and a.ds=’2009-07-07′)
3. 怎样写exist/in子句？
hive不支持where子句中的子查询，sql常用的exist in子句需要改写。这一改写相对简单。考虑以下sql查询语句：
select a.key, a.value from a where a.key in (select b.key from b);
可以改写为
select a.key, a.value from a left outer join b on (a.key = b.key) where b.key null;
一个更高效的实现是利用left semi join改写为：
select a.key, a.val from a left semi join b on (a.key = b.key);
4. hive join只支持等值连接，不支持非等值连接。
5. 合理的使用map join，场合：小表a join 大表，
二、合理设置map与reduce的个数。
1、如何合并小文件，减少map数？
如果一个表中的map数特别多，可能是由于文件个数特别多，而且文件特别小照成的，可以进行如下操作，合并文件，：
set mapred.max.split.size=100000000; // 100m
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.combinehiveinputformat; // 合并小文件
2、如何适当的增加map数？
如果表a只有一个文件，大小为120m，包含几千万记录，可以考虑用多个map任务完成
set mapred.reduce.tasks=10;
create table a_1 as
select * from a
distribute by rand(123); //将a表的记录，随机的分散到包含10个文件的a_1表中
3、hive如何确定reduce数， reduce的个数基于以下参数设定：
hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1g）
hive.exec.reducers.max（每个任务最大的reduce数，默认为999）
计算reducer数的公式很简单n=min(参数2，总输入数据量/参数1)
即，如果reduce的输入（map的输出）总大小不超过1g,那么只会有一个reduce任务；所以调整以下参数：
set hive.exec.reducers.bytes.per.reducer=500000000; （500m）
set mapred.reduce.tasks = 15;
三、如果设计和使用bucket,
buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 hdfs 目录为：/wh/pvs/ds=20090801/ctry=us/part-00000； hash 值为 20 的 hdfs 目录为：/wh/pvs/ds=20090801/ctry=us/part-00020
所用场合：对某一列进行分区，比如对用户id进行分区，例如：
create table weblog (user_id int, url string, source_ip string)
> partitioned by (dt string)
> clustered by (user_id) into 96 buckets; // 按照日期分区后，再按照user_id把日志放在96个篮子里。插入数据的时候：
hive> set hive.enforce.bucketing = true;
hive> from raw_logs
> insert overwrite table weblog
> partition (dt=’2009-02-25′)
> select user_id, url, source_ip where dt=’2009-02-25′
四、 count(distinct)
当count distinct 的记录非常多的时候，设置以下两个参数：
hive> hive.map.aggr = true
hive> set hive.groupby.skewindata=true;
hive> select count (distinct gid) from cookie_label_summary where i_date=20130924;
五、 group by
group by的方法是在reduce做一些操作，这样会导致两个问题：
map端聚合，提前一部分计算：hive.map.aggr = true 同时设置间隔：hive.groupby.mapaggr.checkinterval
均衡处理：hive.groupby.skewindata
这是针对数据倾斜的，设为ture的时候，任务的reduce会把原来一个job拆分成两个，第一个的job中reduce处理处理不同的随即分发过来的key的数据，生成中间结果，再由最后一个综合处理。
六、 order by, sort by ,dristribute by,cluster by
1、 order by vs sort by： order by是在全局的排序，只用一个reduce去跑，所以在set hive.mapred.mode=strict 模式下，order by 必须limit，否则报错。sort by只保证同一个reduce下排序正确。
2、 distribute by with sort by: distribute by 是按指定的列把map 输出结果分配到reduce里。所以经常和sort by 来实现对某一字段的相同值分配到同一个reduce排序。
3、 cluster by 实现了distribute by+ sort by 的功能

Hive 的详细介绍：请点这里
Hive 的下载地址：请点这里

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

DB2缺省的事务及并发锁机制

上一篇 2025年12月2日 22:01:47

RMAN 配置保留策略

下一篇 2025年12月2日 22:07:24

好文分享

CSS的Word中的列表详解

在word中，列表也是使用频率非常高的元素。在css中，列表和列表项都是块级元素。也就是说，一个列表会形成一个块框，其中的每个列表项也会形成一个独立的块框。所以，盒模型中块框的所有属性，都适用于列表和列表项。除此之外，列表还有 3 个特有的属性 list-style-type、list-style…

程序猿
2025年12月24日
0000
好文分享

html5能否禁用搜索框自动填充_html5autocomplete关闭方法【教程】

禁用HTML5搜索框自动填充有五种方法：一、设autocomplete=”off”；二、随机化name/id值；三、用无效autocomplete值如”nope”；四、JS动态设置autocomplete；五、设autocomplete=”…

程序猿
2025年12月23日
0000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
2000
好文分享

html如何登录_使用HTML表单制作登录页面【登录】

需构建语义清晰、可访问性强的HTML登录表单：用method=”post”的form包裹username/password输入框与submit按钮，配label绑定、required验证、placeholder提示，action指向处理地址，并用div+style控制垂直布局…

程序猿
2025年12月23日
0000
好文分享

html5怎样插入带样式的docx_html5docx样式保留与展示方案【攻略】

无法直接嵌入.docx，需转换为HTML：一、前端用docxtemplater+html-docx-js生成内联样式HTML；二、后端用python-docx等转为语义化HTML+CSS；三、用Office Online Viewer iframe只读展示；四、用docx-preview库解析Blo…

程序猿
2025年12月23日
0000
html如何显示空格_html空格显示方法【详解】

HTML中空格被合并时，可用、标签、white-space属性、letter-spacing/word-spacing或加margin-left五种方法精确控制空格显示。如果您在HTML中直接输入多个空格，浏览器会将其合并为一个空格显示，导致无法呈现预期的空白效果。以下是实现HTML中空格精确显…

程序猿
2025年12月23日 • 好文分享
0000
好文分享

HTML如何实现条件判断_JavaScript逻辑控制应用【解析】

JavaScript提供五种条件判断方法：一、if语句基础分支；二、if-else if-else多条件选择；三、switch匹配离散值；四、三元运算符简化单层赋值；五、逻辑运算符组合复杂条件。如果您在HTML页面中需要根据特定条件动态显示内容或执行不同操作，则必须借助JavaScript来实现逻…

程序猿
2025年12月23日
0000
好文分享

HTML如何分段显示长文本_段落排版技巧解析【方案】

应使用语义化标签与CSS协同优化HTML长文本排版：一、用天然分段并规范嵌套；二、通过margin、text-indent、line-height精细控制间距缩进；三、以分组段落并视觉隔离；四、用强化内容层级与SEO；五、用word-wrap等属性处理超长无空格文本溢出。如果您在HTML中处理长文…

程序猿
2025年12月23日
0000
好文分享

用html如何编辑网页_使用HTML代码直接编辑网页【直接】

需用纯文本编辑器编写HTML文件，按DOCTYPE声明、html根元素、head标题、body内容结构编写，保存为UTF-8编码的.html文件，再用浏览器打开验证，修改后须手动保存并刷新。如果您希望直接使用HTML代码编辑网页，无需依赖可视化编辑器或内容管理系统，则需要通过纯文本编辑工具编写并保…

程序猿
2025年12月23日
0000
好文分享

html如何输入_在HTML表单中添加输入元素【元素】

在HTML表单中插入下划线需正确使用value、placeholder和label属性，确保原样显示与提交；避免被Markdown等解析器误处理；必要时用pattern正则校验输入是否含下划线。如果您需要在HTML表单中插入一个下划线字符（_）作为输入内容的一部分，或希望用户能在输入框中输入包含下…

程序猿
2025年12月23日
0000
好文分享

html5添加空格方法_实体空格与CSS间距设置【详解】

HTML5中控制空格与间距的方法包括：一、HTML实体（如、等）；二、CSS外边距/内边距；三、white-space属性；四、letter-spacing/word-spacing；五、Flexbox/Grid的gap布局。在HTML5中，直接输入多个空格字符通常会被浏览器自动合并为单个空格…

程序猿
2025年12月23日
0000
好文分享

HTML如何在浏览器显示_渲染原理与调试技巧【指南】

HTML渲染异常需按浏览器流程调试：解析DOM/CSSOM→构建渲染树→布局→绘制；用DevTools检查结构、样式、重绘/图层；排查display/visibility、浮动塌陷、定位基准等问题；验证DOCTYPE与HTML合法性。如果您在编写HTML代码后发现页面在浏览器中显示异常或渲染效果与…

程序猿
2025年12月23日
0000
好文分享

HTML文档如何正确保存_格式与编码设置【指南】

HTML文档显示乱码或样式异常，主因是编码设置错误；须用纯文本编辑器、保存为UTF-8无BOM格式、确保扩展名为.html、在head中声明，并用命令行校验BOM。如果您创建了一个HTML文档，但浏览器显示乱码或样式异常，则可能是由于文件保存格式或字符编码设置不正确。以下是确保HTML文档正确保存…

程序猿
2025年12月23日
0000
好文分享

html5如何文字换行_HTML5控制文本自动换行技巧【换行】

HTML5中文字不换行可采用五种方法：一、white-space属性控制空白处理；二、word-break强制断词；三、overflow-wrap智能换行；四、手动换行；五、结合width与text-align规范块级换行。如果您在HTML5页面中发现文字未能按预期换行，可能是由于CSS样式或HT…

程序猿
2025年12月23日
0000
好文分享

html如何举例_举例说明HTML代码的实际应用【实际】

HTML用于构建网页结构、超链接、图像、表单和表格：一用定义基础内容；二用实现外链、内链及新页跳转；三用嵌入图片并保障可访问性；四用收集用户数据；五用展示结构化数据。如果您希望在网页中展示结构化内容、创建交互元素或嵌入多媒体资源，则需要通过编写具体的HTML代码来实现。以下是HTML代码在实际场景…

程序猿
2025年12月23日
0000
好文分享

html5怎么编写诗_HTML5用分行加CSS设字体样式编诗歌内容【编写】

应采用语义化标签配合CSS实现诗歌排版：一用保留换行；二用控制单行样式；三用实现字级高亮；四用white-space与inline-block响应式分行；五用@font-face引入古典字体。 <img src="https://img.php.cn/upload/article/0…

程序猿
2025年12月23日
0000
好文分享

如何报错html_为HTML页面添加错误提示信息【提示】

HTML页面添加错误提示有五种方法：一、用try-catch捕获运行时错误并显示于DOM；二、用window.onerror监听未捕获脚本错误；三、用HTML5 validity API实现表单原生验证提示；四、重写console.error同步输出日志与界面提示；五、通过CustomEvent抛出…

程序猿
2025年12月23日
0000
好文分享

html5怎么确认密码_html5用两组input设相同name验证两次密码一致【验证】

可通过HTML5原生验证机制实现密码一致性校验，包括：一、用pattern配合JavaScript实时比对并调用setCustomValidity；二、用onsubmit拦截提交并严格比对；三、用blur事件结合data属性与CSS控制提示；四、用Constraint Validation API的…

程序猿
2025年12月23日
0000
好文分享

如何将文件存为html_将其他格式文件保存为HTML格式【保存】

可将非HTML文档转为浏览器可打开的HTML文件，方法包括：一、Word另存为网页；二、Typora导出Markdown；三、记事本手写HTML代码保存；四、LibreOffice导出HTML；五、在线工具转换。如果您拥有非HTML格式的文档（如Word、Markdown、纯文本等），但需要将其转…

程序猿
2025年12月23日
0000
好文分享

如何用html做朋友圈_用HTML模拟微信朋友圈界面【微信】

需用HTML构建静态布局并结合CSS实现微信朋友圈视觉效果与交互结构，包含基础结构法、Flex布局法、伪元素装饰法、数据驱动法及无障碍增强法五种方法。如果您希望在网页中模拟微信朋友圈的视觉效果和基本交互结构，则需要使用HTML构建静态布局，并结合CSS实现样式还原。以下是实现此界面的多种方法：一…

程序猿
2025年12月23日
0000

发表回复

登录后才能评论

Hive 优化 tips

关于作者

相关推荐

发表回复