k6 WebSocket压测全攻略：协议建模、连接生命周期与真实流量仿真-编程实验室

1. 为什么用k6测WebSocket不是“加个ws://就完事”——从一次线上告警说起

上周三下午四点十七分，我们监控系统突然弹出三条红色告警：核心交易看板的实时行情推送延迟突破800ms，错误率在30秒内从0.02%飙升至17.3%，下游三个业务方同时打来电话。运维同事第一反应是查Nginx和K8s ingress日志，网络层指标一切正常；后端团队紧急回滚了昨天刚上线的行情聚合服务，但延迟毫无改善。直到我翻出前端埋点里一条被忽略的细节：WebSocket connection closed with code 1009——这个状态码像一把钥匙，瞬间打开了排查方向：不是服务崩了，是连接撑不住了。

我们当时用的是一个自研的WebSocket网关，承载着日均420万终端的实时报价、订单状态、风控预警三类消息流。过去半年一直靠“看监控+人工压测”维系，直到这次告警才意识到：没人真正验证过它在5000并发连接、每秒2万条小消息（平均32字节）持续冲击下的真实表现。而市面上主流的JMeter插件对WebSocket的支持停留在“建立-发一条-断开”的玩具级阶段，根本模拟不了长连接保活、心跳续订、多路复用、消息乱序重排这些生产环境里的真实行为。

这就是为什么标题里强调“突破瓶颈”——k6本身不解决WebSocket协议栈问题，但它提供了唯一能把协议语义、连接生命周期、业务逻辑压力三者耦合建模的测试能力。它不像传统工具那样只测“能不能连”，而是测“连着的时候，系统在呼吸、心跳、吞吐、容错各环节是否还活着”。关键词里的“全攻略”，指的正是从协议握手细节、连接池管理、消息序列建模，到结果归因分析的完整闭环。如果你正在为实时音视频信令、在线教育白板协同、金融行情推送或IoT设备远程控制这类强实时场景做稳定性保障，这篇内容就是你跳过踩坑周期、直接拿到可交付压测方案的实操手册。它不讲抽象理论，只呈现我在三个不同规模项目中反复验证过的配置逻辑、参数依据和血泪教训。

2. WebSocket协议层与k6运行时的隐性冲突：为什么默认配置必然失败

2.1 握手阶段的“温柔陷阱”：Upgrade头与Sec-WebSocket-Key的生成逻辑

很多人第一次写k6 WebSocket脚本时，会直接套用HTTP模板：

import { check } from 'k6'; import ws from 'k6/ws'; export default function () { const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_test' } }; const res = ws.connect(url, params, function (socket) { socket.on('open', () => { console.log('connected'); }); }); }

这段代码在本地单机跑通毫无压力，但一旦并发量超过200，就会出现大量failed to establish WebSocket connection错误。原因藏在HTTP Upgrade握手的底层细节里。

WebSocket连接建立本质是HTTP/1.1协议升级过程。客户端必须发送包含以下关键字段的请求：

Connection: Upgrade
Upgrade: websocket
Sec-WebSocket-Key: 一个由16字节随机数据经Base64编码生成的字符串（RFC 6455要求）
Sec-WebSocket-Version: 13

k6的ws.connect()在内部调用时，会自动生成Sec-WebSocket-Key。但问题在于：这个生成过程依赖VU（Virtual User）实例的独立随机种子。当k6以--vus 1000 --duration 5m启动时，1000个VU几乎在同一毫秒内初始化，若宿主机熵池不足（常见于Docker容器或云函数环境），多个VU可能生成完全相同的Sec-WebSocket-Key。而严格遵循RFC的服务器（如Spring Boot WebFlux + Netty、Node.js ws库）会直接拒绝重复Key的请求，返回400 Bad Request，且不记录详细日志——这正是我们最初排查三天无果的根源。

解决方案不是禁用Key校验（那违背协议安全设计），而是强制每个VU使用独立熵源：

import { check } from 'k6'; import ws from 'k6/ws'; import { randomString } from 'https://jslib.k6.io/k6-utils/1.5.0/index.js'; export default function () { // 每个VU生成唯一Key，避免握手冲突 const key = btoa(randomString(16, 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789')); const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_test' }, headers: { 'Sec-WebSocket-Key': key, 'Sec-WebSocket-Version': '13', 'Connection': 'Upgrade', 'Upgrade': 'websocket' } }; const res = ws.connect(url, params, function (socket) { socket.on('open', () => { console.log(`VU ${__ENV.K6_VU_ID} connected with key ${key.slice(0,8)}...`); }); }); }

提示：randomString来自k6官方utils库，其内部使用crypto.getRandomValues()而非Math.random()，确保密码学安全随机性。实测在AWS EC2 t3.medium实例上，1000并发下握手失败率从32%降至0.01%以下。

2.2 连接池与TCP TIME_WAIT的隐形战争：为什么VU数≠真实连接数

另一个常被忽视的底层冲突是操作系统TCP连接管理机制。当k6以高并发创建WebSocket连接时，每个连接对应一个TCP socket。连接关闭后，socket进入TIME_WAIT状态，持续约60秒（Linux默认net.ipv4.tcp_fin_timeout）。这意味着：若你的测试脚本在1分钟内创建并关闭了5000个连接，系统将堆积近5000个TIME_WAITsocket，耗尽本地端口范围（默认32768-65535），后续连接必然失败。

k6的VU模型加剧了这一问题。默认情况下，每个VU独立执行脚本，连接建立后若未显式调用socket.close()，会在VU生命周期结束时由k6 runtime强制关闭——这触发了TCP四次挥手，进入TIME_WAIT。更糟的是，k6的--vus参数指定的是并发VU数，而非活跃连接数。例如设置--vus 1000 --duration 10m，若每个VU平均存活30秒，则实际峰值连接数可能只有300左右，但端口消耗却接近1000。

我们通过ss -s命令在压测机上抓取的真实数据如下：

配置参数	VU数	实际峰值连接数	TIME_WAIT数	端口耗尽告警
默认配置	1000	312	987	频繁触发
启用连接复用	1000	998	23	无
降低VU生命周期	1000	995	41	无

实现连接复用的关键，在于让单个VU管理多个业务会话，而非一个VU绑定一个连接：

import { check, sleep } from 'k6'; import ws from 'k6/ws'; import { randomIntBetween } from 'https://jslib.k6.io/k6-utils/1.5.0/index.js'; export default function () { const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_reuse' } }; // 单个VU建立连接，维持整个生命周期 const res = ws.connect(url, params, function (socket) { socket.on('open', () => { // 发送认证消息（假设JWT Token） socket.send(JSON.stringify({ type: 'auth', token: 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...' })); // 模拟业务消息循环 for (let i = 0; i < 50; i++) { const msg = JSON.stringify({ type: 'heartbeat', seq: i, ts: Date.now() }); socket.send(msg); sleep(randomIntBetween(100, 500)); // 随机间隔模拟真实行为 } }); socket.on('message', (data) => { // 处理服务器推送的消息 const parsed = JSON.parse(data); if (parsed.type === 'pong') { console.log(`Received pong: ${parsed.seq}`); } }); socket.on('close', () => { console.log('Socket closed'); }); }); }

注意：socket.on('open')回调内必须包含完整的业务逻辑，而非仅打印日志。k6的WebSocket对象在回调结束后不会自动销毁，只要VU还在运行，连接就保持活跃。这是实现长连接压测的基础前提。

2.3 心跳保活的双刃剑：如何避免“自己把自己踢下线”

WebSocket连接在公网环境下极易因中间代理（如CDN、企业防火墙）或NAT超时而静默断开。因此，99%的生产系统都实现了应用层心跳机制：客户端定期发送ping消息，服务端回复pong，双方据此判断连接健康度。

但k6脚本若机械复制这一逻辑，反而会成为压测干扰源。典型错误写法：

// ❌ 错误示范：在open回调内启动无限循环 socket.on('open', () => { setInterval(() => { socket.send(JSON.stringify({ type: 'ping' })); }, 30000); // 每30秒发一次 });

问题在于：setInterval创建的定时器与k6的VU生命周期解耦。当VU因--duration到期被k6强制终止时，定时器可能仍在后台运行，导致socket在已关闭状态下尝试发送数据，触发socket is not open异常，污染测试结果。

正确做法是使用k6原生的socket.setInterval()方法，它与VU生命周期绑定：

// ✅ 正确写法：使用k6内置心跳管理 socket.on('open', () => { // 启动心跳，30秒间隔 socket.setInterval(() => { socket.send(JSON.stringify({ type: 'ping' })); }, 30000); // 监听pong响应，验证服务端心跳处理能力 socket.on('message', (data) => { try { const msg = JSON.parse(data); if (msg.type === 'pong') { // 记录心跳延迟 const latency = Date.now() - msg.ts; check(latency, { 'heartbeat latency < 200ms': (t) => t < 200 }); } } catch (e) { // 忽略非JSON消息 } }); });

更重要的是，心跳频率必须与服务端配置严格匹配。我们曾在一个项目中将客户端心跳设为25秒，而服务端超时阈值为30秒——看似安全，实则因网络抖动导致部分心跳包延迟到达，服务端在第31秒判定连接失效并主动断开。最终解决方案是：客户端心跳间隔 = 服务端超时阈值 × 0.6。例如服务端设为30秒，则客户端心跳固定为18秒，留出足够缓冲空间。

3. 构建真实业务流量模型：从“发消息”到“模拟交易员行为”

3.1 消息类型权重与序列建模：为什么不能只发一种消息

很多团队的初始压测脚本只有一个socket.send()调用，内容是固定的JSON字符串。这种测试只能验证“单消息吞吐”，却完全脱离业务现实。以金融行情系统为例，一个真实交易员终端会混合接收三类消息：

消息类型	占比	平均大小	业务含义	服务端处理复杂度
`quote`（行情）	72%	48字节	股票最新买卖五档报价	低（内存拷贝+广播）
`order_update`（订单更新）	23%	128字节	用户下单/撤单/成交状态变更	中（DB事务+风控校验）
`risk_alert`（风控预警）	5%	256字节	账户风险指标越界通知	高（实时计算+多通道推送）

若压测时全部发送quote消息，服务端CPU可能只有30%利用率，但实际生产中risk_alert的突发流量会让CPU瞬间飙至95%。因此，k6脚本必须按真实比例混合发送：

import { check, sleep } from 'k6'; import ws from 'k6/ws'; import { randomItem, randomIntBetween } from 'https://jslib.k6.io/k6-utils/1.5.0/index.js'; const MESSAGE_TYPES = [ { type: 'quote', weight: 72, size: 48, payload: () => ({ symbol: randomItem(['AAPL', 'GOOGL', 'MSFT', 'TSLA']), bid: (Math.random() * 1000).toFixed(2), ask: (Math.random() * 1000).toFixed(2), ts: Date.now() }) }, { type: 'order_update', weight: 23, size: 128, payload: () => ({ order_id: `ORD_${Date.now()}_${Math.random().toString(36).substr(2, 9)}`, status: randomItem(['pending', 'filled', 'cancelled']), filled_qty: randomIntBetween(100, 10000), avg_price: (Math.random() * 100).toFixed(2), ts: Date.now() }) }, { type: 'risk_alert', weight: 5, size: 256, payload: () => ({ alert_id: `ALERT_${Date.now()}`, level: randomItem(['warning', 'critical']), metric: randomItem(['margin_ratio', 'position_concentration', 'volatility_spike']), value: (Math.random() * 100).toFixed(2), ts: Date.now() }) } ]; export default function () { const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_traffic_model' } }; const res = ws.connect(url, params, function (socket) { socket.on('open', () => { // 按权重随机选择消息类型 const messageType = weightedRandomChoice(MESSAGE_TYPES); const payload = messageType.payload(); socket.send(JSON.stringify({ type: messageType.type, data: payload, trace_id: `trace_${Date.now()}_${__ENV.K6_VU_ID}` })); // 模拟消息发送间隔（行情快，风控慢） const interval = messageType.type === 'quote' ? randomIntBetween(50, 200) : messageType.type === 'order_update' ? randomIntBetween(500, 2000) : randomIntBetween(5000, 15000); sleep(interval); }); }); } // 权重随机选择函数（避免引入外部库） function weightedRandomChoice(items) { const totalWeight = items.reduce((sum, item) => sum + item.weight, 0); let random = Math.random() * totalWeight; for (const item of items) { if (random < item.weight) return item; random -= item.weight; } return items[items.length - 1]; }

实测对比：纯quote消息压测显示服务端QPS达12万，但混合流量模型下QPS骤降至4.2万，且risk_alert消息的P99延迟从8ms升至217ms——这才是需要优化的真实瓶颈。

3.2 连接生命周期建模：模拟用户“登录-操作-退出”的完整路径

真实用户不会永远在线。他们打开App、登录、订阅行情、下单、查看持仓、最终退出。k6必须模拟这种有始有终的会话，而非永恒连接。我们定义了标准会话模板：

阶段	持续时间	关键动作	目标验证点
登录与认证	0.5-2秒	发送JWT Token，等待`auth_success`响应	认证服务吞吐与延迟
行情订阅	1-3秒	发送`subscribe`消息，接收`subscribed`确认	订阅服务内存占用与广播效率
持续交互	3-10分钟	混合发送行情/订单/风控消息	长连接稳定性与内存泄漏
主动退出	<0.5秒	发送`logout`，等待`logged_out`	连接清理速度与资源回收

实现该模型需利用k6的group()功能划分逻辑区块，并为每个阶段设置独立检查点：

import { check, group, sleep } from 'k6'; import ws from 'k6/ws'; import { randomIntBetween, randomString } from 'https://jslib.k6.io/k6-utils/1.5.0/index.js'; export default function () { const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_session_lifecycle' } }; const res = ws.connect(url, params, function (socket) { socket.on('open', () => { // 阶段1：登录认证 group('Login & Auth', () => { const authMsg = JSON.stringify({ type: 'auth', token: generateJWT(), client_id: `client_${randomString(8)}` }); const start = Date.now(); socket.send(authMsg); // 等待认证响应（设置超时） let authSuccess = false; const timeout = setTimeout(() => { console.log('Auth timeout'); }, 5000); socket.on('message', (data) => { try { const msg = JSON.parse(data); if (msg.type === 'auth_success') { clearTimeout(timeout); authSuccess = true; const latency = Date.now() - start; check(latency, { 'auth latency < 1000ms': (t) => t < 1000 }); } } catch (e) { // 忽略 } }); // 等待认证完成或超时 sleep(5); }); // 阶段2：行情订阅 group('Subscribe Quotes', () => { const symbols = ['AAPL', 'GOOGL', 'MSFT'].slice(0, randomIntBetween(1, 3)); socket.send(JSON.stringify({ type: 'subscribe', symbols: symbols })); // 等待订阅确认 sleep(1); }); // 阶段3：持续交互（主循环） group('Active Trading Session', () => { for (let i = 0; i < 30; i++) { // 模拟30次交互 const msgType = randomIntBetween(1, 100) <= 72 ? 'quote' : randomIntBetween(1, 100) <= 23 ? 'order_update' : 'risk_alert'; const payload = generateMessagePayload(msgType); socket.send(JSON.stringify({ type: msgType, data: payload, seq: i })); // 动态间隔：行情快，风控慢 const interval = msgType === 'quote' ? randomIntBetween(100, 300) : msgType === 'order_update' ? randomIntBetween(1000, 5000) : randomIntBetween(10000, 30000); sleep(interval); } }); // 阶段4：主动退出 group('Logout', () => { socket.send(JSON.stringify({ type: 'logout' })); sleep(0.5); }); }); }); } function generateJWT() { // 简化JWT生成（生产环境应使用真实签名） return `eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.${btoa(JSON.stringify({user_id: randomIntBetween(1000,9999), exp: Date.now() + 3600000}))}.signature`; } function generateMessagePayload(type) { switch(type) { case 'quote': return { symbol: randomItem(['AAPL', 'GOOGL', 'MSFT']), bid: (Math.random() * 1000).toFixed(2), ask: (Math.random() * 1000).toFixed(2) }; case 'order_update': return { order_id: `ORD_${Date.now()}`, status: randomItem(['pending', 'filled', 'cancelled']), qty: randomIntBetween(100, 10000) }; case 'risk_alert': return { alert_id: `ALERT_${Date.now()}`, level: randomItem(['warning', 'critical']), metric: 'margin_ratio' }; } }

经验之谈：我们发现83%的内存泄漏问题只在“长时间保持连接+频繁订阅/退订”场景下暴露。单纯测试“连接建立”或“单消息发送”永远无法触发这类深层缺陷。

3.3 流量突增建模：模拟开盘竞价、黑天鹅事件等极端场景

金融市场最危险的时刻不是平稳期，而是开盘集合竞价（30秒内订单量激增50倍）或突发新闻导致的闪崩（1秒内风控预警消息暴涨200倍）。k6的ramping-vus执行器专为此类场景设计：

import { check, sleep } from 'k6'; import ws from 'k6/ws'; export const options = { stages: [ { duration: '30s', target: 100 }, // 温和启动 { duration: '10s', target: 5000 }, // 10秒内冲到5000并发（模拟开盘） { duration: '2m', target: 5000 }, // 持续高压2分钟 { duration: '30s', target: 1000 }, // 30秒内降载至1000（模拟市场平静） { duration: '1m', target: 100 } // 恢复基础负载 ], thresholds: { // 关键指标熔断 'http_req_failed': ['rate<0.01'], // 错误率低于1% 'ws_connecting': ['p95<500'], // 连接建立P95延迟<500ms 'ws_messages_received': ['count>=1000'] // 每秒至少收到1000条消息 } }; export default function () { const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_spike_test' } }; const res = ws.connect(url, params, function (socket) { socket.on('open', () => { // 发送认证 socket.send(JSON.stringify({ type: 'auth', token: 'test_token' })); // 立即订阅热门股票 socket.send(JSON.stringify({ type: 'subscribe', symbols: ['AAPL', 'TSLA', 'NVDA', 'AMZN'] })); // 开始高频行情接收 socket.on('message', (data) => { try { const msg = JSON.parse(data); if (msg.type === 'quote') { // 记录接收时间用于延迟计算 const recvTime = Date.now(); const latency = recvTime - msg.ts; check(latency, { 'quote latency < 100ms': (t) => t < 100 }); } } catch (e) { // 忽略 } }); }); }); }

执行命令：

k6 run --execution-segment "0:1" --execution-segment-sequence "0:1" \ --out influxdb=http://localhost:8086/k6 \ spike-test.js

关键技巧：使用--execution-segment参数精确控制压测阶段。例如"0:1"表示只执行第一个stage（30秒温启），便于分段验证；"1:2"则专注测试突增阶段。配合InfluxDB+Grafana，可实时观察服务端GC频率、堆内存增长曲线与连接数变化的关联性——这才是定位“突增导致OOM”的黄金组合。

4. 结果诊断与根因定位：从数字到代码的完整归因链

4.1 k6原生指标的深度解读：哪些数字真正反映瓶颈

k6输出的默认指标看似丰富，但多数对WebSocket压测意义有限。我们必须聚焦以下5个核心指标：

指标名	k6原始名称	物理含义	健康阈值	异常根因指向
连接建立成功率	`ws_connecting`	客户端发起连接到收到`open`事件的比例	≥99.5%	服务端连接池耗尽、TLS握手失败、防火墙拦截
消息发送成功率	`ws_sending`	`socket.send()`调用成功返回的比例	≥99.9%	服务端写缓冲区满、连接已断开、消息序列错误
消息接收延迟P95	`ws_messages_received`的`p95`	从服务端发送到客户端`message`事件触发的时间	≤100ms	网络抖动、客户端处理阻塞、服务端广播队列积压
连接意外中断率	`ws_closed`的`code != 1000`计数	非正常关闭（如1006超时、1009消息过大）的比例	≤0.1%	服务端心跳超时、客户端内存不足、协议解析错误
内存泄漏迹象	`vus_max`与`vus_active`差值	VU数稳定但活跃连接数持续下降	差值<5%	服务端未正确清理连接、客户端未监听`close`事件

获取这些指标需在脚本中显式添加检查点：

import { check, group, sleep } from 'k6'; import ws from 'k6/ws'; export default function () { const url = 'ws://localhost:8080/ws'; const params = { tags: { my_tag: 'ws_diagnostic' } }; const res = ws.connect(url, params, function (socket) { const startTime = Date.now(); socket.on('open', () => { // 记录连接建立时间 const connectTime = Date.now() - startTime; check(connectTime, { 'ws_connecting_p95': (t) => t < 500 }); // 发送认证 socket.send(JSON.stringify({ type: 'auth', token: 'test' })); }); socket.on('message', (data) => { try { const msg = JSON.parse(data); if (msg.ts) { const latency = Date.now() - msg.ts; // 只对带时间戳的消息计算延迟 check(latency, { 'ws_messages_received_p95': (t) => t < 100 }); } } catch (e) { // 忽略 } }); socket.on('close', (code, reason) => { // 记录非正常关闭 if (code !== 1000) { console.log(`Unexpected close: ${code} - ${reason}`); // 此处可触发告警或记录到外部系统 } }); }); }

注意：ws_messages_received_p95指标必须基于服务端注入的时间戳（msg.ts），而非客户端接收时间。否则网络抖动会被误判为服务端性能问题。我们要求所有后端服务在发送消息前必须添加ts: Date.now()字段，这是跨团队约定的诊断契约。

4.2 服务端日志与k6指标的交叉验证：定位1009错误的完整链路

回到开头提到的1009错误，这是WebSocket协议中“消息过大”的状态码。但k6报告的只是客户端视角，要定位根因，必须构建端到端证据链。

第一步：k6侧捕获完整错误上下文

socket.on('error', (e) => { console.error(`WebSocket error: ${e.message}`, { url: url, vuId: __ENV.K6_VU_ID, timestamp: Date.now(), stack: e.stack }); }); socket.on('close', (code, reason) => { if (code === 1009) { console.error(`1009 Error - Message too big: ${reason}`, { vuId: __ENV.K6_VU_ID, url: url, timestamp: Date.now() }); } });

第二步：服务端日志增强（以Spring Boot为例）

@OnMessage public void onMessage(String message, Session session) { try { // 记录原始消息长度 log.info("Received message from {}: length={} bytes", session.getId(), message.length()); // 解析前校验长度 if (message.length() > 65536) { // 64KB限制 session.close(new CloseReason(CloseReason.CloseCodes.TOO_BIG, "Message exceeds 64KB limit")); log.warn("Session {} closed due to message too big: {} bytes", session.getId(), message.length()); return; } // 正常处理... } catch (Exception e) { log.error("Error processing message from {}", session.getId(), e); } }

第三步：网络层抓包验证（关键！）在服务端机器执行：

# 抓取WebSocket流量（过滤HTTP Upgrade后的TCP流） sudo tcpdump -i any -w ws_debug.pcap port 8080 and 'tcp[((tcp[12:1] & 0xf0) >> 2):4] = 0x81808080' # 或更简单：抓取所有到8080端口的包 sudo tcpdump -i any -w ws_debug.pcap port 8080 -C 100

用Wireshark打开ws_debug.pcap，过滤websocket，查看具体哪条消息触发了1009。我们曾在一个案例中发现：前端SDK在特殊网络条件下会将多条消息拼接成超长字符串发送，而服务端校验逻辑只检查单条消息长度——这暴露了客户端与服务端对“消息边界”理解不一致的根本问题。

第四步：构建归因表格将三方数据汇总为决策表：

时间戳	k6 VU ID	错误码	k6日志描述	服务端日志	TCP包长度	根因结论
14:22:03.128	872	1009	"Message too big"	"Session abc123 closed due to message too big: 72450 bytes"	72450	服务端限制64KB，客户端发送72KB
14:22:03.131	875	1009	"Message too big"	"Received message from xyz789: length=128 bytes"	128	客户端日志错误，实际是服务端其他逻辑抛异常

经验总结：80%的“1009”错误并非消息真的过大，而是服务端在处理过程中抛出未捕获异常，导致Netty框架默认返回1009。必须结合服务端ERROR日志与堆栈，才能穿透表象。

4.3 内存泄漏的渐进式验证：从k6指标到JVM堆转储

当k6报告显示vus_active随时间推移持续下降（如从1000降至850），而vus_max保持1000不变，这强烈暗示服务端存在连接泄漏。验证步骤如下：

步骤1：确认泄漏现象

# 运行压测并持续采样 k6 run --vus 1000 --duration 10m leak-test.js \ --out json=leak-result.json # 解析JSON结果，提取关键指标趋势 jq '.metrics."vus_active".values' leak-result.json | \ jq -r 'to_entries[] | "\(.key) \(.value)"' | \ head -20

步骤2：服务端JVM监控在压测开始前，启用JVM详细GC日志：

java -Xlog:gc*:gc.log:time -XX:+HeapDumpOnOutOfMemoryError \ -XX:HeapDumpPath=/tmp/heap.hprof \ -jar server.jar

步骤3：内存分析三连击

jstat实时观察：jstat -gc <pid> 5s查看OU（老年代使用率）是否持续上升
jmap抓取堆快照：jmap -histo:live <pid> > heap-histo.txt对比压测前后对象数量
MAT分析：用Eclipse Memory Analyzer打开heap.hprof，执行Leak Suspects Report

我们曾在一个案例中发现：Netty的ChannelHandlerContext对象数量与连接数1:1增长，但WebSocketServerProtocolHandler的引用链显示，每个Context都持有一个未释放的UserSession对象。根因是业务代码在channelInactive()中未调用`sessionManager