news 2026/6/15 13:49:52

记一次flink任务因sink表被锁住而引发的flink雪崩问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
记一次flink任务因sink表被锁住而引发的flink雪崩问题

前段线上用户频繁反馈,flink任务运行一段时间就失败了。然后查看flink UI管理界面,发现整个taskmanager都挂了

问题分析

收集了用户flink日志,主要是taskmanager日志

image

发现非内存因素OOM的,而是自主退出的。

关键因素由于取消任务超时180s引起的,taskmanager误判服务异常,自主退出

接着跟踪日志,找到经过多次重试,尝试恢复任务的地方

第一次重试

image

第二次重试,刚好间隔60s

image

总共重试3次了。超过180s

taskmanager打印退出日志

排查到根因是因为mysql业务操作引起的sink表被锁住导致无法写入。

接着排查60s时间,询问客户发现配置的数据源的socketTimeout为60s,对于实时场景,该超时时间过大了。

解决方案

业务层面,告知用户flink实时任务,尽量保证链路的纯粹,不要因为类似操作影响实时性。

flink层面:默认180s取消任务超时时间适当调大一些,task.cancellation.timeout

数据源层面: socket超时时间,不要过长,不然容易引起任务线程IO阻塞等待过大,无法及时响应一些内部状态变更,从而引发雪崩。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 10:39:35

电商网站中no-referrer-when-downgrade的实际应用案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个电商网站demo,展示no-referrer-when-downgrade策略在支付页面跳转、第三方服务集成等场景的应用。要求包含从HTTPS到HTTP支付网关的跳转示例,以及相…

作者头像 李华
网站建设 2026/6/15 12:52:48

ABAP 三种类型的内表读取性能测试

在做 SAP 项目时,性能问题往往不是出在数据库,也不是出在 CDS View 或者 OData 协议本身,而是出在最不起眼的一行代码:你选了哪一种 ABAP 内表。 很多人习惯性把结果集塞进一个 STANDARD TABLE,随后在循环里 READ TABLE ... WITH KEY 做查找。开发机上几千条数据跑得飞起…

作者头像 李华
网站建设 2026/6/14 11:41:57

2025_最新!网络安全漏洞平台合集 SRC靶场

【2025最新】网络安全挖洞平台大全,从零开始学SRC漏洞挖掘(建议收藏) 文章全面介绍了网络安全漏洞挖掘的各种平台,包括国内众测平台、高阶漏洞研究奖励计划、行业定向爆破平台以及各大企业应急响应中心(SRC)。同时提供了挖洞前的…

作者头像 李华
网站建设 2026/6/15 12:55:42

零基础学Vue3:Composition API入门指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个面向初学者的Composition API教学示例:1. 展示ref和reactive的基本使用 2. 演示简单的计算属性 3. 实现一个计数器组件 4. 添加一个方法切换主题色。代码要有详…

作者头像 李华
网站建设 2026/6/14 11:19:12

AI市场舆情分析榜,原圈科技引领2025真相洞察

摘要:2025年AI市场舆情分析与声量监测领域,原圈科技凭借全域数据融合与精准推理能力,成为行业真相洞察的引领者。原圈科技天眼AI市场洞察智能体突破传统数据孤岛,融合公私域数据,实现分钟级洞察与高效决策,…

作者头像 李华
网站建设 2026/6/10 12:07:06

AI如何解决MySQL大小写敏感配置冲突问题

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个AI辅助工具,用于自动检测MySQL服务器配置(lower_case_table_names)与数据字典设置之间的冲突。工具应能:1. 扫描服务器配置 2. 分析数据字典元数据 …

作者头像 李华