40:通信异常排查思路
一、本课学习目标
- 分类梳理FAB现场各类SECS/HSMS通信故障现象与根因
- 建立从物理层、网络层到应用层的分层排查逻辑
- 掌握断线、超时、乱码、无响应、间歇性断连的定位方法
- 熟练结合Ping、端口测试、抓包、日志综合排障
- 区分网络问题、配置问题、设备服务问题、EAP端问题
二、通信故障整体分层模型(由下至上排查)
- 物理层:网线、网口、交换机、供电、线路干扰
- 网络层:IP地址、网段、网关、防火墙、路由
- HSMS层:端口、Device ID、T3/T5超时、会话状态
- SECS-II应用层:SxFy报文、W位、订阅配置、设备GEM功能
排查原则:从底层到上层,先通网络,再查协议
三、故障1:完全无法建立连接,设备一直OFFLINE
现象
EAP界面设备灰色,始终无法联机,HSMS会话建立失败
分步排查
- 物理链路:检查网线插拔、网口指示灯、交换机端口状态,更换网线/端口测试
- 网络连通性:执行
ping 设备IP- Ping不通:IP错误、设备网卡故障、防火墙拦截、跨网段路由不通
- Ping正常:进入端口与服务排查
- 端口校验:确认机台HSMS监听端口与EAP配置一致,端口未被占用、未被防火墙屏蔽
- 设备服务:进入机台后台,确认HSMS/SECS服务已正常启动,GEM功能开启
- 核心配置:核对两端Device ID,ID不一致会出现TCP通但应用层完全无交互
四、故障2:连接正常,但下发指令普遍T3超时
现象
S1F1、S7F3等W=1请求报文发出后,长期收不到偶数F应答,日志报T3 Timeout
常见原因
- 机台控制器负载过高,消息处理卡顿、队列堆积
- T3应答超时参数设置过小,未匹配设备处理速度
- 大体积报文(完整Recipe)传输缓慢,超出超时阈值
- 设备GEM模块异常,收到报文但不处理、不回复
处理方案
- 临时调大T3超时时间(标准10s,卡顿可改为15~20s)
- 检查机台后台进程,关闭冗余程序降低负载
- 抓包确认报文完整送达设备,区分“未收到”和“收到不回复”
五、故障3:间歇性断线、频繁重连
现象
联机状态不稳定,时而ONLINE时而OFFLINE,自动反复重连
常见原因
- 网络侧:网线老化、水晶头接触不良、交换机端口故障、电磁干扰
- 心跳配置:T5心跳超时时间设置太短,网络轻微抖动即断链
- 设备侧:机台HSMS服务不稳定、偶发闪退、控制器休眠
- 流量压力:高频报文交互导致缓冲区溢出,主动断连
处理方案
- 更换网线、交换机端口,远离电机、高频设备减少干扰
- 合理调高T5心跳超时(常用30s)
- 监控设备服务运行状态,必要时重启机台通信服务
六、故障4:链路在线,但部分报文缺失/丢包
现象
基础握手、心跳正常,但S5报警、S6事件、S6F11工艺数据部分或全部不上报
常见原因
- CEID/ALID/Trace点位未订阅或订阅配置丢失
- 机台侧单独关闭某类报文上报开关
- EAP过滤规则错误,丢弃指定类型报文
- 网络不稳定,小概率丢包,长报文更容易丢失
排查
- 核对EAP订阅清单,对比原厂手册
- 机台后台检查对应上报功能开关
- 抓包全量监控,判断报文是设备未发出,还是EAP未接收
七、故障5:报文乱码、解析失败
现象
通信连接正常,但EAP日志提示数据解析错误、乱码、格式异常
常见原因
- 两端SECS数据编码、字符集不匹配
- 传输过程报文截断、字节丢失
- 设备固件/SECS版本与EAP协议版本不兼容
处理
- 统一字符编码格式
- 排查网络丢包问题
- 核对SECS/GEM版本,必要时升级适配
八、通用快速排查流程(现场标准步骤)
- 物理检查:网口、网线、交换机
- Ping测试:验证IP层连通性
- 端口测试:确认端口可正常访问
- 核对核心参数:IP、Port、Device ID、T3/T5
- 查看服务状态:机台HSMS、GEM服务是否运行
- 日志+抓包:定位报文收发、超时、丢包问题
- 配置复核:订阅项、过滤规则、协议版本
九、本课核心总结
- 通信故障分层排查:物理层 → 网络层 → HSMS层 → SECS应用层
- Ping通 ≠ 通信正常,Device ID错误是高频隐形故障
- T3对应应答超时,T5对应心跳断线,按需合理配置参数
- 间歇性断线优先查线路、干扰、心跳配置;报文缺失优先查订阅
- 日志初步定位问题,抓包作为最终判定依据
十、课后小作业
- 通信故障四层排查结构分别是什么?
- 指令频繁报T3超时,主要原因有哪些?
- 设备频繁断线重连从哪几方面排查?
- 链路正常但收不到报警、事件,大概率是什么问题?
- TCP能连通但SECS完全无业务报文,最常见原因?