Hadoop Storm Spark比较-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Hadoop Storm Spark比较

阅读量：4040 次

发布时间：2019-05-24

本文共 807 字，大约阅读时间需要 2 分钟。

Hadoop

Hadoop是磁盘级计算，进行计算时，数据在磁盘上，需要读写磁盘;

Hadoop M/R基于HDFS，需要切分输入数据、产生中间数据文件、排序、数据压缩、多份复制等，效率较低。

假设利用hadoop，则需要先存入hdfs，按每一分钟切一个文件的粒度来算（这个粒度已经极端的细了，再小的话hdfs上会一堆小文件），hadoop开始计算时，1分钟已经过去了，然后再开始调度任务又花了一分钟，然后作业运行起来，假设机器特别多，几钞钟就算完了，然后写数据库假设也花了很少的时间，这样，从数据产生到最后可以使用已经过去了至少两分多钟。

Strom

Storm是内存级计算，数据直接通过网络导入内存,磁盘访问延迟约为内存访问延迟的75000倍;

storm的网络直传、内存计算，其时延必然比hadoop的通过hdfs传输低得多；当计算模型比较适合流式时，storm的流式处理，省去了批处理的收集数据的时间；因为storm是服务型的作业，也省去了作业调度的时延。所以从时延上来看，storm要快于hadoop。

流式计算是数据产生时，则有一个程序去一直监控日志的产生，产生一行就通过一个传输系统发给流式计算系统，然后流式计算系统直接处理，处理完之后直接写入数据库，每条数据从产生到写入数据库，在资源充足时可以在毫秒级别完成。

Storm 基于ZeroMQ这个高性能的消息通讯库，不持久化数据；

=====================
两者面向的领域也不完全相同，一个是批量处理，基于任务调度的；另外一个是实时处理，基于流。
以水为例，Hadoop可以看作是纯净水，一桶桶地搬；而Storm是用水管，预先接好（Topology），然后打开水龙头，水就源源不断地流出来了

Spark

备注

注释：

1. 延时，指数据从产生到运算产生结果的时间，“快”应该主要指这个。

2. 吞吐，指系统单位时间处理的数据量。

转载地址：http://gdadi.baihongyu.com/

你可能感兴趣的文章

今日互联网关注(写在清明节后):每天都有值得关注的大变化

”舍得“大法：把自己的优点当缺点倒出去

[今日关注]鼓吹“互联网泡沫，到底为了什么”

[互联网学习]如何提高网站的GooglePR值

[关注大学生]求职不可不知——怎样的大学生不受欢迎

[关注大学生]读“贫困大学生的自白”

[互联网关注]李开复教大学生回答如何学好编程

[关注大学生]李开复给中国计算机系大学生的7点建议

[关注大学生]大学毕业生择业:是当"鸡头"还是"凤尾"?

[茶余饭后]10大毕业生必听得歌曲

gdb调试命令的三种调试方式和简单命令介绍

C++程序员的几种境界

VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法

VUE-Vue.js之$refs，父组件访问、修改子组件中的数据

Vue-子组件改变父级组件的信息

Python自动化之pytest常用插件

Python自动化之pytest框架使用详解

【正则表达式】以个人的理解帮助大家认识正则表达式

性能调优之iostat命令详解

性能调优之iftop命令详解

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-19 19:11:33 当前IP: 13.59.57.96 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我