为什么在Hadoop(HDFS)中块设置的很大?

相对于普通磁盘的块(4kb)来说HDFS的块要更大一些256M甚至更大(默认64M),如此设计的目的是为了减少在寻道上的开销。 如果把HDFS块设置的足够大,那么从磁盘传输数据的时间将明显大于检索块头部信息的时间,因此HDFS中大文件传输的时间由多个块在磁盘上的传输速率来决定。

一种快速的计算方法为: 如果寻道时间在10毫秒左右,传输速率将是100MB/s,如果让寻道时间占1%的传输时间,我们需要设置块大小在100MB左右。HDFS默认是64MB,尽管许多HDFS平台默认使用128MB的块。随着新一代磁盘驱动器的发展,这个传输速度将不断打破,当然这个论点不会走得太远。

MapReduce中的Map任务在同一时间通常只在一个块上进行操作,所以如果实际中你的任务太少(少于集群中的节点数目),集群中的节点并没有得到充分利用上,该任务并没有获得应有的运行速度。

u2

Related Posts

选择正确的数据库引擎(sql-engine)来访问Hadoop大数据

使用Hadoop数据库”SQL-on-Hadoop”技术,可使得我们可以使用熟悉的SQL语言来访问存储在Hadoop中的大数据。通过合理的查询优化等交给hadoop分布式计算处理,最后通过各种报表或分析工具来处理和研究数据。

Read more

Hive 报 message:Metastore contains multiple versions 错误

[摘要] 早上看到从4点起所有 Hive 任务都跑失败了,手…

Read more

You Missed

Anthropic 指控阿里蒸馏攻击:AI 军备竞赛的拐点

  • u2
  • 6月 25, 2026
  • 34 views

当AI开始吃自己:数据污染正在成为大模型行业最隐秘的危机

  • u2
  • 6月 25, 2026
  • 38 views

Google 用 AI「杀死」Google

  • u2
  • 6月 22, 2026
  • 64 views

封禁Fable 5:当美国政府成为AI的”守门人”

  • u2
  • 6月 21, 2026
  • 88 views

27亿美元没留住的人,奥特曼等了十年

  • u2
  • 6月 19, 2026
  • 57 views

OpenAI Codex 发布角色插件:当AI开始理解「分析师」和「销售」是两种不同的物种

  • u2
  • 6月 15, 2026
  • 99 views
OpenAI Codex 发布角色插件:当AI开始理解「分析师」和「销售」是两种不同的物种