伍佰目录 短网址
  当前位置:海洋目录网 » 站长资讯 » 站长资讯 » 文章详细 订阅RssFeed

浪院长 | spark streaming的使用心得

来源:本站原创 浏览:92次 时间:2022-06-21
浪院长 | spark streaming的使用心得

浪院长 浪尖聊大数据
今天,主要想聊聊spark streaming的使用心得。

1,基本使用

主要是转换算子,action,和状态算子,这些其实,就按照api手册或者源码里接口介绍结合业务来编码。
其实,想用好spark streaming 掌握spark core,spark rpc,spark 任务调度,spark 并行度等原理还非常有必要。

2,中间状态缓存

说到中间算子大家肯定都会想到UpdateStateByKey等状态。里面很多注意事项,比如顺序性,key的超时机制维护。这个适合数据量不多,尤其是key的维度不多,value不大的情况。
当然数据量上来了,要想维护中间状态怎么办?其实这个时候肯定是第三方存储,比如redis,alluxio。redis更适合那种key带超时机制的,并且数据量肯定不能过大。而alluxio就很适合那种高吞吐量的,比如去重统计。

3,结果输出

direct streaming能保证仅一次处理,但是要求输出存储支持密等性,或者主动将结果更改为存在更新不存在插入。当然,如果外部存储系统支持事务那就更嗨,能实现恰一次处理。
实际上在offset维护这个层面上,spark streaming 不同版本于kafka不同版本结合实现有很大不同。

4,监控告警及故障自动恢复

我觉得对于监控告警及故障自动恢复,重要程度不亚于业务场景。因为再好的业务实现,架不住系统挂掉你不知道。因为你总不能二十四小时盯着系统。而且很多公司对故障自动恢复都有kpi,比如3min,人工去检测故障并恢复不太可能,需要自己实现一套监控系统。

5,调优

调优对于spark streaming非常重要,因为一个批次处理延迟就会导致job堆积,结果输出延迟,深圳任务挂掉数据丢失。调优其实最注重对spark 原理把控,数据量的了解及资源和数据的关系。

6,源码

源码阅读,为了帮助大家更透彻的理解原理。主要会分三块:
spark streaming 与kafka-0.8.2 direct stream。
spark streaming 与kafka-0.8.2 receiver based stream。
spark streaming 与kafka-0.10.2 direct api。

  推荐站点

  • At-lib分类目录At-lib分类目录

    At-lib网站分类目录汇集全国所有高质量网站,是中国权威的中文网站分类目录,给站长提供免费网址目录提交收录和推荐最新最全的优秀网站大全是名站导航之家

    www.at-lib.cn
  • 中国链接目录中国链接目录

    中国链接目录简称链接目录,是收录优秀网站和淘宝网店的网站分类目录,为您提供优质的网址导航服务,也是网店进行收录推广,站长免费推广网站、加快百度收录、增加友情链接和网站外链的平台。

    www.cnlink.org
  • 35目录网35目录网

    35目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向35目录推荐、提交优秀网站。

    www.35mulu.com
  • 就要爱网站目录就要爱网站目录

    就要爱网站目录,按主题和类别列出网站。所有提交的网站都经过人工审查,确保质量和无垃圾邮件的结果。

    www.912219.com
  • 伍佰目录伍佰目录

    伍佰网站目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向伍佰目录推荐、提交优秀网站。

    www.wbwb.net