Apache Spark(火花)成为ASF的顶级项目

Apache软件基金会(ASF)高兴地宣布Apache spark(火花)已经从Apache孵化器毕业成为一个顶级项目(TLP),这标志着Spark项目的成功和稳定。Apache spark是一个开源的集群计算框架,为快速和灵活进行大规模数据分析而创立。Spark的出现引发了人们关于大数据的讨论,可以预测2014年将注定是Spark年。

根据Apache Spark官网的介绍,它采用的引擎将在内存中运行程序运算,这比Hadoop MapReduce快100倍,比磁盘快10倍以上。这也是为什么Cloudera已经集成到其Hadoop版本CDH(Cloudera Distribution including Apache Hadoop)上。Spark如此成功不仅是因为它是一个快速的引擎,但得益于过去6月以来快速发展,进入了Apache孵化器,贡献者包含含了25个组织的120多名开发人员。

Spark的创造者们加州大学伯克利分校已经创建了一个名为数据砖(Databricks)的公司,以实现该项技术的商业化。引用其CEO Ion Stoica(加州大学伯克利分校的教授)的话: Spark项目让企业更加容易的从大数据中提取有用的信息。现在加入开源社区,可以帮助人们加速开发和使用Apache Spark。

Spark的一个特性,它可以运行在Hadoop 2.0版本上。同时其合作项目Shark同样采用SQL-on-Hadoop引擎且可使用Apache Hive通用的语法,声称跟Spark一样比原始的MapReduce提升了10倍-100倍的性能。

Spark引发的另一个特性是,它允许开发人员使用Java,Python或Scala编写应用程序,并与Apache Hadoop集成,Spark非常适合机器学习,互动查询和流处理,并能读取HDFS,HBase,Cassandra以及任何Hadoop数据源。

雅虎对Spark成为Apache顶级项目表示了祝贺,Andrew Feng--雅虎杰出的架构师介绍了雅虎是如何帮助Hadoop和大数据相关技术的进化及发展,包括Spark。Spark对雅虎的发展做出了杰出的贡献,一直以来Apache Hadoop都是雅虎big-data平台的基础。

Apache Spark软件沿用了Apache License v2.0的许可。适合下一代大数据的应用程序:如那些需要极少延迟的查询,实时处理或迭代计算同类型的数据等等。Spark在技术上虽然是一个独立的项目,但它总是基Hadoop分布式文件系统而设计的。

尽管如此,有很多MapReduce上使用的工具Spark还没有提供(如Pig和Cascading),其实MapReduce在某些批作业上还是不错的。Cloudera创始人兼首席战略官Mike Olson说,即便目前Spark非常火爆,目前还是有很多工作仍然会在MapReduce运行。

原文 by Theodora Fragkouli

u2

Related Posts

rancher v2.x 初体验

rancher v2x

Read more

sqlalchemy.exc.TimeoutError: QueuePool limit of size 5 overflow 10 reached

Python3 + Flask + mysql5.7搭建的w…

Read more

You Missed

CodeGraph 让 AI 编程助手拥有”代码知识图谱”

  • u2
  • 5月 19, 2026
  • 97 views

MCP Gateway 完全指南:企业级 AI Agent 的控制平面

  • u2
  • 5月 17, 2026
  • 50 views

技术深度解析:Model Context Protocol (MCP)

  • u2
  • 5月 16, 2026
  • 56 views

Hermes Agent 自动学习与成长原理深度解读

  • u2
  • 5月 14, 2026
  • 104 views

Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent

  • u2
  • 5月 11, 2026
  • 99 views
Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent

基于大模型的测试用例生成解决方案

  • u2
  • 5月 10, 2026
  • 104 views