Apache Spark(火花)成为ASF的顶级项目

spark-logo
apache spark-logo

Apache软件基金会(ASF)高兴地宣布Apache spark(火花)已经从Apache孵化器毕业成为一个顶级项目(TLP),这标志着Spark项目的成功和稳定。Apache spark是一个开源的集群计算框架,为快速和灵活进行大规模数据分析而创立。Spark的出现引发了人们关于大数据的讨论,可以预测2014年将注定是Spark年。

根据Apache Spark官网的介绍,它采用的引擎将在内存中运行程序运算,这比Hadoop MapReduce快100倍,比磁盘快10倍以上。这也是为什么Cloudera已经集成到其Hadoop版本CDH(Cloudera Distribution including Apache Hadoop)上。Spark如此成功不仅是因为它是一个快速的引擎,但得益于过去6月以来快速发展,进入了Apache孵化器,贡献者包含含了25个组织的120多名开发人员。

Spark的创造者们加州大学伯克利分校已经创建了一个名为数据砖(Databricks)的公司,以实现该项技术的商业化。引用其CEO Ion Stoica(加州大学伯克利分校的教授)的话: Spark项目让企业更加容易的从大数据中提取有用的信息。现在加入开源社区,可以帮助人们加速开发和使用Apache Spark。

Spark的一个特性,它可以运行在Hadoop 2.0版本上。同时其合作项目Shark同样采用SQL-on-Hadoop引擎且可使用Apache Hive通用的语法,声称跟Spark一样比原始的MapReduce提升了10倍-100倍的性能。

Spark引发的另一个特性是,它允许开发人员使用Java,Python或Scala编写应用程序,并与Apache Hadoop集成,Spark非常适合机器学习,互动查询和流处理,并能读取HDFS,HBase,Cassandra以及任何Hadoop数据源。

雅虎对Spark成为Apache顶级项目表示了祝贺,Andrew Feng--雅虎杰出的架构师介绍了雅虎是如何帮助Hadoop和大数据相关技术的进化及发展,包括Spark。Spark对雅虎的发展做出了杰出的贡献,一直以来Apache Hadoop都是雅虎big-data平台的基础。

Apache Spark软件沿用了Apache License v2.0的许可。适合下一代大数据的应用程序:如那些需要极少延迟的查询,实时处理或迭代计算同类型的数据等等。Spark在技术上虽然是一个独立的项目,但它总是基Hadoop分布式文件系统而设计的。

尽管如此,有很多MapReduce上使用的工具Spark还没有提供(如Pig和Cascading),其实MapReduce在某些批作业上还是不错的。Cloudera创始人兼首席战略官Mike Olson说,即便目前Spark非常火爆,目前还是有很多工作仍然会在MapReduce运行。

原文 by Theodora Fragkouli