Flink 灵魂两百问，这谁顶得住？ (3)

日期：2021-05-24 栏目：程序人生浏览：次

35、运行几分钟就报了，看taskmager日志，报的是 failed elasticsearch bulk request null，可是我代码里面已经做过空值判断了呀而且也过滤掉了，flink版本1.7.2 es版本6.3.1

36、这种情况，我们调并行度还是配置参数好

37、大家都用jdbc写，各种数据库增删查改拼sql有没有觉得很累，ps.set代码一大堆，还要计算每个参数的位置

38、关于datasource的配置，每个taskmanager对应一个datasource?还是每个slot? 实际运行下来，每个slot中datasorce线程池只要设置1就行了，多了也用不到?

39、kafka现在每天出现数据丢失，现在小批量数据，一天200W左右, kafka版本为 1.0.0，集群总共7个节点，TOPIC有十六个分区，单条报文1.5k左右

40、根据key.hash的绝对值对并发度求模，进行分组，假设10各并发度，实际只有8个分区有处理数据，有2个始终不处理，还有一个分区处理的数据是其他的三倍，如截图

41、flink每7小时不知道在处理什么， CPU 负载每7小时，有一次高峰，5分钟内平均负载超过0.8，如截图

42、有没有Flink写的项目推荐？我想看到用Flink写的整体项目是怎么组织的，不单单是一个单例子

43、Flink 源码的结构图

44、我想根据不同业务表（case when）进行不同的redis sink（hash ，set），我要如何操作？

45、这个需要清理什么数据呀，我把hdfs里面的已经清理了启动还是报这个

46、在流处理系统，在机器发生故障恢复之后，什么情况消息最多会被处理一次？什么情况消息最少会被处理一次呢？

47、我检查点都调到5分钟了，这是什么问题

48、reduce方法后那个交易时间怎么不是最新的，是第一次进入的那个时间，

49、Flink on Yarn 模式，用yarn session脚本启动的时候，我在后台没有看到到Jobmanager，TaskManager，ApplicationMaster这几个进程，想请问一下这是什么原因呢？因为之前看官网的时候，说Jobmanager就是一个jvm进程，Taskmanage也是一个JVM进程

50、Flink on Yarn的时候得指定多少个TaskManager和每个TaskManager slot去运行任务，这样做感觉不太合理，因为用户也不知道需要多少个TaskManager适合，Flink 有动态启动TaskManager的机制吗。

51、参考这个例子，Flink 零基础实战教程：如何计算实时热门商品 | Jark's Blog，窗口聚合的时候，用keywindow，用的是timeWindowAll，然后在aggregate的时候用aggregate(new CustomAggregateFunction(), new CustomWindowFunction())，打印结果后，发现窗口中一直使用的重复的数据，统计的结果也不变，去掉CustomWindowFunction()就正常了？非常奇怪

52、用户进入产品预定页面（端埋点上报），并填写了一些信息（端埋点上报），但半小时内并没有产生任何订单，然后给该类用户发送一个push。 1. 这种需求适合用flink去做吗？2. 如果适合，说下大概的思路

53、业务场景是实时获取数据存redis，请问我要如何按天、按周、按月分别存入redis里？（比方说过了一天自动换一个位置存redis）

54、有人 AggregatingState 的例子吗, 感觉官方的例子和官网的不太一样?

55、flink-jdbc这个jar有吗？怎么没找到啊？1.8.0的没找到，1.6.2的有

56、现有个关于savepoint的问题，操作流程为，取消任务时设置保存点，更新任务，从保存点启动任务；现在遇到个问题，假设我中间某个算子重写，原先通过state编写，有用定时器，现在更改后，采用窗口，反正就是实现方式完全不一样；从保存点启动就会一直报错，重启，原先的保存点不能还原，此时就会有很多数据重复等各种问题，如何才能保证数据不丢失，不重复等，恢复到停止的时候，现在想到的是记下kafka的偏移量，再做处理，貌似也不是很好弄，有什么解决办法吗

转载注明出处：https://www.heiqu.com/wpdygj.html

Flink 灵魂两百问，这谁顶得住？ (3)

相关推荐