基于AIS数据集的机器学习船舶轨迹预测系统：新加坡水域的船只监视与流量管理解决方案-编程实验室

DL00369-基于机器学习的船舶轨迹预测含AIS数据集源码新加坡水域的海上监视面临着规模和船舶运动流量的挑战。每年约有近10万艘船只通过长达105公里的水道，占据了世界贸易货物的四分之一左右。我们的系统每天记录平均100万条船只信息，即每分钟跟踪约800艘船只。这些数字使得沿岸警察部队无法仅在发生事故时才巡逻船只，因此需要根据船只历史行动来预测其未来位置的技术。发送船舶移动信息的标准方式是通过自动识别系统（AIS）。 AIS数据集在本项目中用于分析和机器学习的训练与测试。

新加坡港口的繁忙程度超出常人想象——这片水域每天要处理全球四分之一的海运贸易量，相当于每分钟都有800艘船在狭窄航道里跳"海上芭蕾"。沿岸警察部队的巡逻艇根本来不及实时盯防，就像要在川流不息的十字路口手动指挥每一辆车。这时候，机器学习成了救命稻草，特别是那些藏在AIS数据里的航行规律。

先看数据长啥样。AIS报文就像船舶的微博，每几秒就更新一条动态：

import pandas as pd raw_data = pd.read_csv('ais_2023_sg.csv', parse_dates=['timestamp']) print(raw_data[['mmsi','lat','lon','sog','cog','timestamp']].head(3)) #0 4773078 1.265089 103.80815 12.3 158.2 2023-04-15 08:00:01 #1 5661120 1.271511 103.82367 8.7 172.5 2023-04-15 08:00:03 #2 4773078 1.265212 103.80838 12.1 157.9 2023-04-15 08:00:06

sog是航速(节)，cog是航向角。注意时间戳精度到秒，不同船舶的报文频率差异极大，货轮可能每分钟报一次，拖船可能每秒都在发。

处理这种时间不均衡的数据，我习惯用插值大法：

def resample_trajectory(df, freq='10S'): df = df.set_index('timestamp').groupby('mmsi').resample(freq).first() return df.interpolate(method='linear').reset_index()

这里每10秒插一个点，保持各船轨迹时间对齐。不过要注意有些船会突然离线几小时，这时候得设置最大间隔阈值，超过就认为轨迹中断。

特征工程阶段发现个有趣现象——船舶在特定区域的转向模式像极了司机变道：

# 计算加速度和转向率 df['accel'] = df.groupby('mmsi')['sog'].diff() / 3.6 # m/s² df['turn_rate'] = df.groupby('mmsi')['cog'].diff().abs() # 筛选异常机动 sudden_turn = df[(df.turn_rate > 30) & (df.sog > 5)] plt.scatter(sudden_turn.lon, sudden_turn.lat, c='red', s=5)

结果这些红点大多出现在港口出入口和分道通航区，说明这些位置需要模型特别关注转向特征。

模型选型试了LSTM和Transformer，最后发现带注意力机制的ConvLSTM效果最稳。核心结构长这样：

from keras.layers import ConvLSTM2D, Attention # 把轨迹转为时空网格 input_grid = layers.Input(shape=(12, 50, 50, 6)) # 12帧，50x50网格，6通道 x = ConvLSTM2D(filters=64, kernel_size=(3,3), return_sequences=True)(input_grid) x = Attention(use_scale=True)([x, x]) # 自注意力抓关键区域 output = layers.TimeDistributed(layers.Conv2D(2, (3,3)))(x) # 预测经纬度偏移

这里把海域划分成50x50的网格，每个格子包含船舶密度、平均速度等特征。ConvLSTM同时捕捉时空特征，比纯序列模型更适合处理船舶间的相互影响。

训练时发现个坑——直接预测绝对坐标会导致误差累积。改成预测相对位移后，30分钟轨迹的MSE从0.15降到0.08：

# 数据预处理时计算位移增量 df['delta_lat'] = df.groupby('mmsi')['lat'].diff().fillna(0) df['delta_lon'] = df.groupby('mmsi')['lon'].diff().fillna(0) # 损失函数加入航向约束 def nav_loss(y_true, y_pred): mse = tf.keras.losses.MSE(y_true, y_pred) direction_loss = 1 - tf.cos(y_true[:,:,:,1] - y_pred[:,:,:,1]) # 航向余弦损失 return mse + 0.3 * direction_loss

最后的可视化效果很有意思，预测轨迹（蓝色）和真实轨迹（红色）在分道通航区几乎重合，但在锚地区域会出现发散，毕竟抛锚的船随时可能起航：

plt.plot(pred_lon, pred_lat, 'b--', linewidth=2) plt.scatter(true_lon, true_lat, c='r', s=5, alpha=0.3) plt.gca().set_facecolor('#e6f3ff') # 浅蓝背景模拟海图

这套系统上线后，巡逻船的工作模式从"救火队"变成了"先知模式"，提前到高风险区域蹲守。不过最近有船员反馈，某些渔船故意走非常规路线来"调戏"AI——看来对抗样本的问题在现实世界同样存在，下次得把博弈论加进模型里了。

揭秘政务系统权限泄露风险：如何构建零信任Agent授权体系

第一章：政务系统权限泄露的现状与挑战近年来，随着“互联网政务服务”的深入推进，各级政府机构纷纷上线信息化系统以提升行政效率。然而，在系统快速迭代的过程中，权限管理机制的不完善导致多起敏感数据泄露事件频发&…

李华

解析大厂交错并联TCM PFC+LLC源代码及其在变频控制中的应用

大厂量产的交错并联TCM PFCLLC源代码变频控制PFC交错并联TCM PFCLLC的实现是一个非常经典且实用的电源拓扑方案，尤其是在大功率、高效率电源设计中。今天我来分享一下这个方案的代码实现思路，希望能给正在学习或开发相关电路的朋友们一些启发。 1. 什么…

李华

错过这一步，AI康复等于无效！医疗Agent方案动态校准必须掌握的6大要点

第一章：医疗康复 Agent 方案动态校准的核心意义在智能医疗系统中，康复 Agent 的行为策略直接影响患者的治疗效果与恢复进程。由于每位患者的生理状态、康复进度和响应模式存在差异，静态的康复方案难以适应长期、个性化的治疗需求。因此&#…

李华

农业无人机如何实现精准路径规划？9大核心技术全解析

第一章：农业无人机Agent路径规划概述在现代农业智能化转型中，农业无人机作为核心执行载体，其自主路径规划能力直接影响作业效率与资源利用率。通过构建多Agent系统模型，每架无人机被视为独立决策单元，能够在动态农田环…

李华

热点丨2025-2026中国经济年会下的企业机遇解读

2025年12月13日，由中国国际经济交流中心主办的“2025—2026中国经济年会”在北京隆重召开，本届年会以“贯彻落实中央经济工作会议精神，以高质量发展为‘十五五’开好局”为核心主题，汇聚宏观指标解读来年经济发展的核心脉络&#…

李华

【政务Agent权限控制终极指南】：破解高安全场景下的访问控制难题

第一章：政务Agent权限控制的核心挑战在政务系统中引入Agent技术以提升自动化服务能力的同时，权限控制成为保障数据安全与业务合规的关键环节。由于政务数据涉及公民隐私、公共安全及政府机密，Agent在执行任务时若缺乏精细化的权限管理机制&am…

李华