为什么在Hadoop（HDFS）中块设置的很大？

分布式
2月 15, 2014
0 评论

相对于普通磁盘的块（4kb）来说HDFS的块要更大一些256M甚至更大（默认64M），如此设计的目的是为了减少在寻道上的开销。如果把HDFS块设置的足够大，那么从磁盘传输数据的时间将明显大于检索块头部信息的时间，因此HDFS中大文件传输的时间由多个块在磁盘上的传输速率来决定。

一种快速的计算方法为: 如果寻道时间在10毫秒左右,传输速率将是100MB/s,如果让寻道时间占1%的传输时间,我们需要设置块大小在100MB左右。HDFS默认是64MB，尽管许多HDFS平台默认使用128MB的块。随着新一代磁盘驱动器的发展，这个传输速度将不断打破，当然这个论点不会走得太远。

MapReduce中的Map任务在同一时间通常只在一个块上进行操作,所以如果实际中你的任务太少(少于集群中的节点数目)，集群中的节点并没有得到充分利用上，该任务并没有获得应有的运行速度。

u2

NOSQL , 分布式
11月 24, 2016
263 views

选择正确的数据库引擎(sql-engine)来访问Hadoop大数据

使用Hadoop数据库”SQL-on-Hadoop”技术，可使得我们可以使用熟悉的SQL语言来访问存储在Hadoop中的大数据。通过合理的查询优化等交给hadoop分布式计算处理，最后通过各种报表或分析工具来处理和研究数据。

Continue reading

分布式
11月 22, 2016
151 views

Hive 报 message:Metastore contains multiple versions 错误

[摘要] 早上看到从4点起所有 Hive 任务都跑失败了，手…

Continue reading

AI AI与机器学习技术

MCP Gateway 完全指南：企业级 AI Agent 的控制平面

由 u2
5月 17, 2026
26 views

技术深度解析：Model Context Protocol (MCP)

由 u2
5月 16, 2026
33 views

Hermes Agent 自动学习与成长原理深度解读

由 u2
5月 14, 2026
64 views

AI AI与机器学习

Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆，如何构建持续进化的 Agent

由 u2
5月 11, 2026
83 views

Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆，如何构建持续进化的 Agent

基于大模型的测试用例生成解决方案

由 u2
5月 10, 2026
91 views

从0到1搭建一个AI Token中转站：技术架构与实战指南

由 u2
5月 2, 2026
693 views