9.4数据倾斜9.4.1合理设置Map数。通常情况下,作业会通过input的目录产生一个或多个map任务。主要的决定因素包括input的文件总个数、input的文件大小以及集群设置的文件块大小。是不是map数越多越好?答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成。而一个map任务启动和初始化的时间远远大于逻辑处理的时间,这会造成很大的资源浪费。同时可执行的map数也是受限的。是不是保证每个map处理接近128m的文件块,就高枕无忧了?答案也是不一定的。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或两个小字段,却有几千万的记录。如果map处理的逻辑比较复杂,用一个map任务去做肯定也比较耗时。针对上述问题,我们需要采取两种方式来解决:即减少map数和增加map数。9.4.2小文件合并以减少map数:CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。HiveInputFormat则没有这种功能。执行set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 9.4.3复杂文件增加Map数,当input的文件都很大且任务逻辑复杂时,map执行非常缓慢,可以考虑增加Map数,使每个map处理的数据量减少,从而提高任务的执行效率。增加map的方法为:根据computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M公式调整。
数据倾斜及其影响-[门老师教你快速看懂电子电路图].门宏.扫描版
相关推荐
历史服务器配置指南-[门老师详解电子电路图解读速成].门宏.扫描版
(1)配置历史服务器的设置,包括mapred-site.xml中的参数配置:mapreduce.jobhistory.address设为hadoop102:10020,mapreduce.jobhistory.webapp.address设为hadoop102:19888,并通过sbin/mr-jobhistory-daemon.sh start historyserver命令启动历史服务器。您可以通过访问http://192.168.1.102:19888/jobhistory查看作业历史记录。(2)创建原始数据表、空id表和合并后的数据表。
MySQL
2
2024-07-23
推测执行在电子电路图阅读中的应用
9.8推测执行在分布式集群环境中,因程序Bug(包括Hadoop本身的bug)、负载不均衡或资源分布不均等原因,可能导致同一作业的多个任务运行速度不同步。为避免这种情况,Hadoop引入了推测执行(Speculative Execution)机制,通过启动备份任务处理拖后腿的任务,最终选用最先成功完成的任务结果。配置方法:在Hadoop的mapred-site.xml文件中进行相应参数设置。
MySQL
0
2024-08-22
电流保护电路图应用解析
原理电流互感器是一种线性变压器,其输出电流与输入电流(被检测电流)以及线圈匝数成正比。
作用电流检测电路用于检测电流,保护压缩机。
DB2
3
2024-05-20
STC89C52单片机电路图
STC89C52单片机电路图是设计和开发嵌入式系统时的关键参考。该电路图包括主要的电子元件及其连接方式,帮助工程师理解和实施单片机控制器的基本原理。通过详细的布局和标识,用户可以轻松地构建和调试与STC89C52芯片相关的电子设备。
Informix
2
2024-07-30
使用MATLAB开发的ANN分类XOR门
利用MATLAB中的人工神经网络(ANN)对XOR门进行分类的方法。
Matlab
2
2024-07-15
MATLAB与PSpice电子电路设计:第五章资源
提供电子电路设计的MATLAB(.m文件)和PSpice(.pps文件)相关资源。
Matlab
2
2024-05-27
Oracle内部数据库培训指南(20门课程)
Oracle内部数据库培训指南详细介绍了20门必修课程,涵盖了从基础到高级的数据库管理技能。
Oracle
0
2024-09-27
MATLAB实现背景差分提取和波门跟踪技术
MATLAB实现了背景差分提取和波门跟踪技术,用于目标提取和跟踪。
Matlab
0
2024-09-01
单片机原理中部分译码法存储器连接电路图
单片机原理中部分译码法存储器连接电路图是单片机设计中的重要组成部分,用于实现特定功能的数据存储和处理。
Access
0
2024-08-09