美股历史数据api限频后，如何分时段分批次抓取？-编程实验室

最近在做美股历史数据抓取的时候，我才真切感受到限频的尴尬。数据源再丰富，如果一味往接口上狂拉，限频规则就会立刻给你“降速”。我手上有几个项目，都涉及美股分时行情和历史交易数据，尤其是在回测策略和研究行情的时候，对数据量要求还挺大。慢慢摸索下来，抓取策略得更精细，不然很容易就遇到接口限制。

我用的美股历史数据api大部分都有每分钟或者每天的调用上限，如果按常规一口气拉半年数据，接口基本拦你在半路。一个直接的办法是分批次、分时段抓取，把大块数据拆成小块，这样不仅能避开限频，也方便后续处理和排错。

拆分时间段抓取

我一般会按天或者按周去拆数据块，具体要看你抓的数据粒度。像1分钟K线的数据量大，我会选择按天拆；如果是日线，按周或按月拆也够了。拆块的核心思路是：控制每次请求的数据量在接口允许范围内，同时保证时间段连续。

比如我想抓 2026 年前五个月的美股分钟级数据，我会先生成一个时间段列表，每天一个区间：

开始日期	结束日期
2026-01-01	2026-01-01
2026-01-02	2026-01-02
2026-05-17	2026-05-17
2026-05-18	2026-05-18

然后按照顺序去请求接口，每抓完一天，就保存数据并暂停几秒，避免瞬时请求太频繁被限流。这个“暂停”时间长度可以自己测，每个接口的限频策略不同，我一般是先小试几天，找到不触发限频的频率，再跑全量。

批量抓取与错误重试

网络环境和接口状态都不可能百分百稳定，有时候请求会失败或者返回部分数据。我通常会用一个队列或者列表，把待抓取的时间段放进去，抓完就从队列里删除。遇到失败的，就放回队列末尾，稍后再重试。这样即使中途出问题，也不会影响整体抓取。

在实际操作中，我会写一个简单的状态记录表，每条记录包含：

日期或时间段
请求状态（成功/失败）
数据文件名
重试次数

这样在抓取过程中就清晰明了，一旦出现问题，重启程序也能从上次中断的地方接着抓，而不用担心重复抓或者漏掉数据。

并发抓取策略

如果接口允许，我会考虑同时抓几个时间段的数据，但这要结合接口的限频规则。例如有些美股历史数据api支持每分钟一定请求数，我会在代码里加个简单的线程池，控制并发数，保证总请求频率不会超过限制。

Python里可以用concurrent.futures.ThreadPoolExecutor轻松实现：

from concurrent.futures import ThreadPoolExecutor import time def fetch_data(time_range): print(f"抓取时间段 {time_range}") time.sleep(1) # 模拟请求延迟 return f"数据_{time_range}" time_ranges = ["2026-05-16", "2026-05-17", "2026-05-18"] with ThreadPoolExecutor(max_workers=2) as executor: results = list(executor.map(fetch_data, time_ranges)) print(results)

这种方式保证不会瞬间发太多请求，同时可以利用并发节约整体抓取时间。

实时与历史结合的思路

在抓历史数据的同时，我也会关注实时数据。以AllTick API为例，它提供 WebSocket 接口，可以实时订阅 tick 级数据。这样一来，我就能边抓历史数据边监听最新行情，对策略回测和信号生成非常方便。接口调用方式很直观，Python 就能快速上手。

下面是一个 Python 的示例，展示如何订阅通用股票代码 STOCK_1 的实时交易数据：

import websocket import json url = "wss://apis.alltick.co/stock/ws" def on_message(ws, message): data = json.loads(message) print(f"收到数据: {data}") def on_open(ws): subscribe_msg = { "type": "subscribe", "symbol": "STOCK_1" } ws.send(json.dumps(subscribe_msg)) print("订阅成功: STOCK_1") ws = websocket.WebSocketApp(url, on_message=on_message, on_open=on_open) ws.run_forever()

抓下来的 tick 数据可以和历史数据结合，做到实时更新和策略回测一体化，非常适合量化研究或短线分析。

数据存储与管理

抓下来的数据量很容易达到几百 MB 到几 GB，所以管理方式得提前规划。我习惯用按天或者按月建目录，文件名包含股票代码和时间段，方便查找和更新。文件格式可以是 CSV 或 Parquet，Parquet 在大数据量下读写性能更好。

文件夹	文件名	说明
/data/STOCK_1/2026/05	STOCK_1_20260516.parquet	1分钟K线数据
/data/STOCK_1/2026/05	STOCK_1_20260517.parquet	1分钟K线数据
/data/STOCK_2/2026/05	STOCK_2_20260516.parquet	1分钟K线数据