写在第27期周报
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:最流行的AI编程语言、Spark 2.3、Kafka分区机制介绍与示例、HBase学习之负载均衡、机器学习算法、Exactly Once。全是干货,希望大家喜欢!!!
#大数据和云计算技术社区#希望通过坚持定期分享能帮助同学在大数据学习道路上尽一份微博之力。相信长期坚持认真阅读周报的同学,在技术的道路上一定会日益精进!感谢编辑们的长期坚持!也请同学们继续打赏,支持社区,支持编辑们持续奉献高质量知识!
#大数据和云计算技术社区#长期招募有兴趣参与社区编辑和运营的同学,欢迎扫描文末二维码联系(参与社区工作,收获知识和进步,还有红包哦)。
特别提醒,文末有惊喜!
以下是正文,限于众编辑水平有限,不保证大家都喜欢。
1最流行的AI编程语言
AI?是不是听的很高大上的感觉,想不想试着了解一下AI的5种开发语言?Python、C++、java、LISP、Prolog相信我,总有一个是你喜欢的。
http://mp.weixin.qq.com/s/lugcwmcl5mbRhlN6849Lrw
2Spark 2.3
2018 年 2 月 28 日,Databricks 在官方工程博客上正式发布 Apache Spark 2.3.0。新版本继续向更快、更易用、更智能的目标迈进,引入了低延迟的持续处理能力和流到流的连接,让 Structured Streaming 达到了一个里程碑式的高度;使用 Pandas UDF 提升 PySpark 的性能;为 Spark 应用程序提供 Kubernetes 原生支持。其他改进特性:基于 Structured Streaming 的机器学习管道 API、MLlib 增强和Spark SQL 增强等。
http://mp.weixin.qq.com/s/SJ2P4oJtvsMgzCSH3DH4vA
3Kafka分区机制介绍与示例
用过Kafka的童鞋都知道,每个Topic一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个消费线程去分别消费 Topic 里面的数据。Kafka 存在 Consumer Group 的概念,也就是 group.id 一样的 Consumer,这些 Consumer 属于同一个Consumer Group,组内的所有消费者协调在一起来消费订阅主题(subscribed topics)的所有分区(partition)。当然,每个分区只能由同一个消费组内的一个consumer来消费。每个group的中的consumer应该消费哪些分区,这就需要用特定的策略来进行分配。本文对Kafka分区机制进行了详细讲解!
http://lxw1234.com/archives/2015/10/538.htm
4HBase学习之负载均衡
负载均衡是计算机网络领域的一个专业术语,该术语在分布式系统领域应用非常广泛。对于HBase来讲,不同节点(RegionServer)用户请求需要负载均衡技术,HBase通过Region数量实现简单的负载均衡,虽然这种方式比较简单,但官方认为这样的实现是最简洁、高效的,能够满足绝大部分的需求。接下来将介绍三种负载均衡计划的原理和应用场景,以及手动控制的负载均衡。
http://blog.csdn.net/u013080251/article/details/68947376
5机器学习算法
本文对获取关于重要机器学习概念知识的人们提供一些机器学习算法,同时免费提供相关的材料和资源
http://mp.weixin.qq.com/s/o1ke8jticohDHAXbgFbt4A
6Exactly Once
流计算引擎需要提供7×24的服务,一旦出错需要尽快的恢复,且恢复后的计算结果也尽可能不产生误差,所以其容错性就显得尤为重要。
http://mp.weixin.qq.com/s/XN-dAXSuXr1irGviVl9b9Q
007开心一刻
一只青蛙给牧师打电话,问自己的命运。牧师说:“明年,有一个年轻的姑娘会来了解你。”青蛙高兴的蹦了起来:“哦,真的吗?是在王子的婚礼上吗?”牧师说:“不,是在她明年的生物课上。”