Apache Spark(火花)成为ASF的顶级项目

Apache软件基金会(ASF)高兴地宣布Apache spark(火花)已经从Apache孵化器毕业成为一个顶级项目(TLP),这标志着Spark项目的成功和稳定。Apache spark是一个开源的集群计算框架,为快速和灵活进行大规模数据分析而创立。Spark的出现引发了人们关于大数据的讨论,可以预测2014年将注定是Spark年。

根据Apache Spark官网的介绍,它采用的引擎将在内存中运行程序运算,这比Hadoop MapReduce快100倍,比磁盘快10倍以上。这也是为什么Cloudera已经集成到其Hadoop版本CDH(Cloudera Distribution including Apache Hadoop)上。Spark如此成功不仅是因为它是一个快速的引擎,但得益于过去6月以来快速发展,进入了Apache孵化器,贡献者包含含了25个组织的120多名开发人员。

Spark的创造者们加州大学伯克利分校已经创建了一个名为数据砖(Databricks)的公司,以实现该项技术的商业化。引用其CEO Ion Stoica(加州大学伯克利分校的教授)的话: Spark项目让企业更加容易的从大数据中提取有用的信息。现在加入开源社区,可以帮助人们加速开发和使用Apache Spark。

Spark的一个特性,它可以运行在Hadoop 2.0版本上。同时其合作项目Shark同样采用SQL-on-Hadoop引擎且可使用Apache Hive通用的语法,声称跟Spark一样比原始的MapReduce提升了10倍-100倍的性能。

Spark引发的另一个特性是,它允许开发人员使用Java,Python或Scala编写应用程序,并与Apache Hadoop集成,Spark非常适合机器学习,互动查询和流处理,并能读取HDFS,HBase,Cassandra以及任何Hadoop数据源。

雅虎对Spark成为Apache顶级项目表示了祝贺,Andrew Feng--雅虎杰出的架构师介绍了雅虎是如何帮助Hadoop和大数据相关技术的进化及发展,包括Spark。Spark对雅虎的发展做出了杰出的贡献,一直以来Apache Hadoop都是雅虎big-data平台的基础。

Apache Spark软件沿用了Apache License v2.0的许可。适合下一代大数据的应用程序:如那些需要极少延迟的查询,实时处理或迭代计算同类型的数据等等。Spark在技术上虽然是一个独立的项目,但它总是基Hadoop分布式文件系统而设计的。

尽管如此,有很多MapReduce上使用的工具Spark还没有提供(如Pig和Cascading),其实MapReduce在某些批作业上还是不错的。Cloudera创始人兼首席战略官Mike Olson说,即便目前Spark非常火爆,目前还是有很多工作仍然会在MapReduce运行。

原文 by Theodora Fragkouli

u2

Related Posts

rancher v2.x 初体验

rancher v2x

Read more

sqlalchemy.exc.TimeoutError: QueuePool limit of size 5 overflow 10 reached

Python3 + Flask + mysql5.7搭建的w…

Read more

You Missed

AI安全护栏:保护还是束缚?一场不对称的战争

  • u2
  • 3月 11, 2026
  • 17 views

从”养虾”到AI Agent爆发:2026年技术圈的新范式转移

  • u2
  • 3月 9, 2026
  • 34 views

提示词注入:AI时代最危险的漏洞,正在吞噬你的数据

  • u2
  • 3月 7, 2026
  • 78 views
提示词注入:AI时代最危险的漏洞,正在吞噬你的数据

潘多拉魔盒已打开:开源AI攻击平台正在血洗全球防火墙

  • u2
  • 3月 4, 2026
  • 86 views
潘多拉魔盒已打开:开源AI攻击平台正在血洗全球防火墙

雇佣AI员工,花钱上班:开发者的新”职场”荒诞剧

  • u2
  • 3月 1, 2026
  • 82 views
雇佣AI员工,花钱上班:开发者的新”职场”荒诞剧

OpenClaw 完整使用指南:自托管 AI Agent 的架构与实战

  • u2
  • 2月 25, 2026
  • 200 views
OpenClaw 完整使用指南:自托管 AI Agent 的架构与实战