Apache Spark（火花）成为ASF的顶级项目

Apache软件基金会(ASF)高兴地宣布Apache spark（火花）已经从Apache孵化器毕业成为一个顶级项目(TLP),这标志着Spark项目的成功和稳定。Apache spark是一个开源的集群计算框架，为快速和灵活进行大规模数据分析而创立。Spark的出现引发了人们关于大数据的讨论,可以预测2014年将注定是Spark年。

根据Apache Spark官网的介绍,它采用的引擎将在内存中运行程序运算，这比Hadoop MapReduce快100倍,比磁盘快10倍以上。这也是为什么Cloudera已经集成到其Hadoop版本CDH(Cloudera Distribution including Apache Hadoop)上。Spark如此成功不仅是因为它是一个快速的引擎,但得益于过去6月以来快速发展，进入了Apache孵化器,贡献者包含含了25个组织的120多名开发人员。

Spark的创造者们加州大学伯克利分校已经创建了一个名为数据砖（Databricks）的公司,以实现该项技术的商业化。引用其CEO Ion Stoica（加州大学伯克利分校的教授）的话： Spark项目让企业更加容易的从大数据中提取有用的信息。现在加入开源社区,可以帮助人们加速开发和使用Apache Spark。

Spark的一个特性,它可以运行在Hadoop 2.0版本上。同时其合作项目Shark同样采用SQL-on-Hadoop引擎且可使用Apache Hive通用的语法,声称跟Spark一样比原始的MapReduce提升了10倍－100倍的性能。

Spark引发的另一个特性是,它允许开发人员使用Java,Python或Scala编写应用程序，并与Apache Hadoop集成,Spark非常适合机器学习,互动查询和流处理,并能读取HDFS,HBase,Cassandra以及任何Hadoop数据源。

雅虎对Spark成为Apache顶级项目表示了祝贺,Andrew Feng－－雅虎杰出的架构师介绍了雅虎是如何帮助Hadoop和大数据相关技术的进化及发展,包括Spark。Spark对雅虎的发展做出了杰出的贡献,一直以来Apache Hadoop都是雅虎big-data平台的基础。

Apache Spark软件沿用了Apache License v2.0的许可。适合下一代大数据的应用程序：如那些需要极少延迟的查询,实时处理或迭代计算同类型的数据等等。Spark在技术上虽然是一个独立的项目,但它总是基Hadoop分布式文件系统而设计的。

尽管如此,有很多MapReduce上使用的工具Spark还没有提供(如Pig和Cascading)，其实MapReduce在某些批作业上还是不错的。Cloudera创始人兼首席战略官Mike Olson说,即便目前Spark非常火爆，目前还是有很多工作仍然会在MapReduce运行。

原文 by Theodora Fragkouli

运维速度

或者查看我们的热门类别...

运维速度

或者查看我们的热门类别...

Apache Spark（火花）成为ASF的顶级项目

u2

Related Posts

rancher v2.x 初体验

sqlalchemy.exc.TimeoutError: QueuePool limit of size 5 overflow 10 reached

You Missed

AI逃逸事件全解析：OpenAI模型自主攻破Hugging Face，安全范式正在重构

Kimi K3 冲击波：2.8 万亿参数的野心，和它背后的三场技术硬仗

Anthropic 指控阿里蒸馏攻击：AI 军备竞赛的拐点

当AI开始吃自己：数据污染正在成为大模型行业最隐秘的危机

Google 用 AI「杀死」Google

封禁Fable 5：当美国政府成为AI的”守门人”