datanode产线环境配置参数
1.NameNode数据目录
dfs.name.dir,dfs.namenode.name.dir
指定一个本地文件系统路径 , 决定NN在何处存放fsimage和editlog文件 。可以通过逗号分隔指定多个路径.目前我们的产线环境只配置了一个目录 , 并存放在了做了RAID1或RAID5的磁盘上 。
2.DataNode数据目录
dfs.data.dir,dfs.datanode.data.dir
指定DN存放块数据的本地盘路径 , 可以通过逗号分隔指定多个路径 。在生产环境可能会在一个DN上挂多块盘 。
3.数据块的副本数
dfs.replication
数据块的副本数 , 默认值为3
4.数据块大小
dfs.block.size
HDFS数据块的大小 , 默认为128M , 目前我们产线环境配置的是1G
文章图片
文章图片
5.HDFS做均衡时使用的最大带宽
dfs.datanode.balance.bandwidthPerSec
HDFS做均衡时使用的最大带宽 , 默认为1048576 , 即1MB/s , 对大多数千兆甚至万兆带宽的集群来说过小 。不过该值可以在启动balancer脚本时再设置 , 可以不修改集群层面默认值 。目前目前我们产线环境设置的是50M/s~100M/s
6.磁盘可损坏数
dfs.datanode.failed.volumes.tolerated
DN多少块盘损坏后停止服务 , 默认为0 , 即一旦任何磁盘故障DN即关闭 。对盘较多的集群(例如每DN12块盘) , 磁盘故障是常态 , 通常可以将该值设置为1或2 , 避免频繁有DN下线 。
7.数据传输连接数
dfs.datanode.max.xcievers
DataNode可以同时处理的数据传输连接数,即指定在DataNode内外传输数据使用的最大线程数 。官方将该参数的命名改为dfs.datanode.max.transfer.threads , 默认值为4096 , 推荐值为8192 , 我们产线环境也是8192
8.NameNode处理RPC调用的线程数
dfs.namenode.handler.count
【datanode产线环境配置参数】NameNode中用于处理RPC调用的线程数 , 默认为10 。对于较大的集群和配置较好的服务器 , 可适当增加这个数值来提升NameNodeRPC服务的并发度 , 该参数的建议值:集群的自然对数*20
python-c'importmath;printint(math.log(N)*20)'
我们800+节点产线环境配置的是200~500之间
9.NameNode处理datanode上报数据块和心跳的线程数
dfs.namenode.service.handler.count
用于处理datanode上报数据块和心跳的线程数量 , 与dfs.namenode.handler.count算法一致
10.DataNode处理RPC调用的线程数
dfs.datanode.handler.count
DataNode中用于处理RPC调用的线程数 , 默认为3 。可适当增加这个数值来提升DataNodeRPC服务的并发度 , 线程数的提高将增加DataNode的内存需求 , 因此 , 不宜过度调整这个数值 。我们产线环境设置的是10
11.DataNode最大传输线程数
dfs.datanode.max.xcievers
最大传输线程数指定在DataNode内外传输数据使用的最大线程数 。
这个值是指定datanode可同時处理的最大文件数量 , 推荐将这个值调大 , 默认是256 , 最大值可以配置为65535 , 我们产线环境配置的是8192 。
12.读写数据时的缓存大小
io.file.buffer.size
–设定在读写数据时的缓存大小 , 应该为硬件分页大小的2倍
我们产线环境设置的为65536(64K)
13.冗余数据块删除
在日常维护hadoop集群的过程中发现这样一种情况:
某个节点由于网络故障或者DataNode进程死亡 , 被NameNode判定为死亡 , HDFS马上自动开始数据块的容错拷贝;当该节点重新添加到集群中时 , 由于该节点上的数据其实并没有损坏 , 所以造成了HDFS上某些block的备份数超过了设定的备份数 。通过观察发现 , 这些多余的数据块经过很长的一段时间才会被完全删除掉 , 那么这个时间取决于什么呢?
该时间的长短跟数据块报告的间隔时间有关 。Datanode会定期将当前该结点上所有的BLOCK信息报告给NameNode , 参数dfs.blockreport.intervalMsec就是控制这个报告间隔的参数 。
- 新模型或能在可用数据很少的情况下做出环境预测
- 变电站气象环境监测预警装置在冬奥保电现场首次试点应用
- 索尼否认今年重启ps4生产线:压根没在去年年底结束
- 佳能珠海公司关闭生产线公告曝光数码相机年产能2000万台
- 佳能珠海公司宣布关闭生产线
- 公民生态环境行为规范中不包含以下哪一项(森林驿站2月9日每日一题答案)
- 呵护自然生态属于公民生态环境行为规范吗(森林驿站2月8日每日一题答案)
- 公民生态环境行为规范中不包含以下哪个方面(森林驿站2月7日每日一题答案)
- 可实现手部和环境追踪、苹果ar眼镜最早将于2025年发布
- 雪豹在野外环境最多可以生育几胎?(森林驿站1月31日每日一题答案)