当前位置:首页>正文

如何在spark中取出kafka队列的数据 spark从kafka读取数据遇到什么问题了吗

2023-06-15 22:50:53 互联网 未知

如何在spark中取出kafka队列的数据

spark streaming从1.2开始提供了数据的零丢失,想享受这个特性,需要满足如下条件: 1.数据输入需要可靠的sources和可靠的receivers 2.应用metadata必须通过应用driver checkpoint 3.WAL(write ahead log)

spark从kafka读取数据遇到什么问题了吗

你可以试一下这三种方法
1、At most once - 每条数据最多被处理一次(0次或1次),这种语义下会出现数据丢失的问题;

2、At least once - 每条数据最少被处理一次 (1次或更多),这个不会出现数据丢失,但是会出现数据重复;
3、Exactly once - 每条数据只会被处理一次,没有数据会丢失,并且没有数据会被多次处理,这种语义是大家最想要的,但是也是最难实现的。

相关文章