首页 技术 正文
技术 2022年11月15日
0 收藏 367 点赞 3,157 浏览 1945 个字

关于对storm的介绍已经有很多了,我这里不做过多的介绍,我介绍一下我自己的学习路线,希望能帮助一些造轮子的同学走一些捷径,毕竟我也是站在前人总结整理的基础上学习了,如果有不足之处,还请大家不要喷我。

一.Storm的学习路线

  1.数据的操作方式

    storm对数据的操作有2种方式,一种是原始的spout bolt topology 操作(storm入门demo),另一种是trident操作(storm trident 的介绍与使用)。

    我们要掌握这2种数据的操作方式,原始的操作是storm本身底层对数据的操作,trident是将原始操作进行了抽象、封装,其底层还是靠原始操作完成的。

    storm的原始操作与trident操作区别:

      原始操作只是简单的对数据流进行了处理,中间不带有任务事务性的操作,以及是否保证数据确保被处理的问题,而trident是对原始操作更高的抽象,不用了再写

      spout、bolt,而是添加了聚合、DRPC、事务、数据持久化(stateQuery),以及确保了数据如何被处理的操作,在整体性能的稳定性上更稳定、更可靠。

    两者的选用:

      如果对性能的要求比较高,可以采用原始的操作,如果对性能的操作要求不是特别高,希望拥有可靠性、稳定性,可以采用trident操作。

  2.Storm 的原始操作步骤

    ①topology、spout、bolt 的编写。(编写各个类的实现,以及数据源输入的编写)

    ②需要对topology的并行度进行设置。(也就是你需要让Strom按多少个进程、多少个线程、多少个task来处理数据)

    ③对数据流的流向进行设置.(分组)

      (设置完并行度后需要对数据流的流向进行设置,你是按流中数据的某个字段来区分不同的流,还是按 随机分组、全局分组、无分组、直接分组、自定义分组等等)

    ④数据源输出的设置 (对数据处理完后是否要存到DB、file、消息中间件等等操作)

  3.Trident 操作

    ①topology的编写、以及各种function的编写

    ②需要对topology的并行度进行设置。

    ③对数据流向进行设置(分组)

    ④对数据流中的数据进行stateQuery操作(向流中添加数据、查询数据操作)

    ⑤数据源输出的设置 (对数据处理完后是否要存到DB、file、消息中间件等等操作)

    ⑥是否设置成DRPC远程调用接口

    在trident中不需要编写bolt,但是需要编写各类function来实现对数据的各种操作。

  4.事务

    在你实现了以上操作后,你需要对trident做进一步的了解,trident是如何实现batch事务的,如何保证强一致性的,如何保证数据被处理等等这些关键的实现原理,以及storm的原始操作,它是如何保证担保数据被处理的,这都需要我们做深一层次的学习和掌握,只有修炼好了内功,才能有更好的提高。

  

二.与Storm集成的架构学习

  1.整体介绍

    storm是实时处理数据的框架,强烈不建议读file,你想一下,你往一个文件里写数据,再把写入的数据读出来,这不是多此一举,不仅影响性能,整体的架构设计也不合理,因此需要一些数据采集框架去采集数据,然后交给storm来处理,storm处理完后,你可以把它写入任何你想要保存的地方。

  2.与storm集成的框架

    ①filebeat(日志采集工具) + logstash(日志采集处理) + storm  ==> db、file、kafka

      如果采集的日志量比较大可以在filebeat 和logsash中间添加redis 集群 或者kafka集群,以起到缓冲的作用

    ②filebeat(日志采集工具) +redis/kafka + logstash(日志采集处理) + storm  ==> db、file、kafka   

      在采集过程中可以通过添加中间层来缓冲logstash 的压力,让logstash平稳有序的将数据发送给storm进行处理

    ③flume + kafka + storm ==> db、file、kafka

       由于本人没有学习过flume,只是简单的了解过,也是日志采集的一种框架,这个需要大家根据个人情况学习掌握

    本人用了将近二个月的时间算是将storm学习了一遍,至于掌握的程度只能说算是一般,对一些概念、trident 函数的编写、reduce操作、stataQuery、transaction只是简单的了解了,知道大概,更深层次还需要进一步的学习。大学在学习过程中遇到什么问题,欢迎一起来探讨。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,498
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,911
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,745
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,501
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:8,139
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:5,303