AI 术语通俗词典：卷积核-编程实验室

卷积核是深度学习、卷积神经网络、计算机视觉和人工智能中非常重要的一个术语。它用来描述一种在输入数据上滑动扫描、用于检测局部特征的小型权重矩阵。换句话说，卷积核是在回答：模型怎样用一个小窗口在图像或信号中寻找边缘、纹理、形状等局部模式。

如果说卷积层负责从输入中提取局部特征，那么卷积核就是卷积层中真正执行“特征探测”的核心工具。它不是人工固定写死的模板，而是一组可以通过训练自动学习的参数。因此，卷积核常用于卷积神经网络（CNN）、图像分类、目标检测、图像分割、医学影像分析、语音处理和时间序列建模，是理解 CNN 的关键概念之一。

一、基本概念：什么是卷积核

卷积核（Kernel / Filter）是卷积层中的一个小型权重矩阵。

在图像处理中，一个常见的卷积核大小是：

例如，一个 3 × 3 卷积核可以写成：

其中：

• K 表示卷积核

• wᵢⱼ 表示卷积核中第 i 行、第 j 列的权重，这些权重会在训练过程中被模型学习

卷积核会在输入图像或特征图上滑动。每到一个位置，它都会覆盖输入中的一个局部区域，并计算加权求和。

假设输入局部区域为：

卷积输出可以写为：

其中：

• xᵢⱼ 表示输入局部区域中的数值

• wᵢⱼ 表示卷积核对应位置的权重

• b 表示偏置

• y 表示当前位置的输出响应

从通俗角度看，卷积核可以理解为：一个可学习的小型特征探测器。

它在输入上不断滑动，检查每个局部区域是否符合某种特征模式。

二、为什么需要卷积核

卷积核之所以重要，是因为图像、语音和时间序列中有大量局部结构。

以图像为例，单个像素通常意义有限，真正有意义的是多个像素组合形成的局部模式，例如：

• 边缘

• 角点

• 纹理

• 色块

• 轮廓

• 物体局部部件

如果使用普通全连接层处理图像，每个神经元都要连接所有像素，参数量会非常大，也难以充分利用图像的空间局部结构。

卷积核采用另一种思路：先从小范围局部区域中提取特征，再把同一个特征探测器应用到整张图像。

例如，一个检测“垂直边缘”的卷积核，不必只在图像左上角工作，它可以在整张图像上滑动，检查不同位置是否存在类似边缘。

从通俗角度看：

• 全连接层：一次性看全部输入

• 卷积核：用小窗口到处扫描局部特征

这种方式带来两个好处：

• 保留图像局部结构

• 大幅减少参数数量

因此，卷积核是卷积神经网络能够高效处理图像数据的重要原因。

三、卷积核的核心计算过程

卷积核的核心计算过程可以概括为：

覆盖局部区域 → 对应位置相乘 → 求和 → 得到一个输出值

假设一个输入区域为：

一个卷积核为：

那么该位置的卷积结果为：

计算得到：

这个卷积核左侧权重为正，右侧权重为负，因此它对左右方向的变化比较敏感，常可用于理解垂直边缘检测。

从通俗角度看：卷积核的权重决定它关注什么样的局部模式。

如果局部区域与卷积核关注的模式相似，输出响应就明显；

如果不相似，输出响应就较弱。

卷积核在输入上滑动后，会在每个位置产生一个响应值，所有响应值共同组成一张特征图。

可以表示为：

输入图像 → 卷积核滑动计算 → 特征图

四、卷积核为什么像“特征探测器”

卷积核常被理解为“特征探测器”，是因为不同卷积核可以对不同模式产生响应。

例如，在较浅的卷积层中，某些卷积核可能学习到：

• 水平边缘

• 垂直边缘

• 斜向边缘

• 明暗变化

• 简单纹理

在更深的卷积层中，卷积核看到的已经不是原始像素，而是上一层输出的特征图。此时它可能检测更复杂的模式，例如：

• 局部形状

• 纹理组合

• 眼睛轮廓

• 车轮结构

• 动物毛发模式

从通俗角度看：

• 浅层卷积核：检测简单视觉特征

• 中层卷积核：检测局部结构

• 深层卷积核：检测高级语义部件

这说明卷积核不是固定只能检测边缘。

在训练过程中，模型会根据任务自动调整卷积核权重，使它们逐渐学会对任务有用的局部模式。

例如，在猫狗分类任务中，有些卷积核可能逐渐对毛发纹理敏感，有些卷积核可能对眼睛、耳朵、鼻子等局部结构敏感。

因此，卷积核可以理解为：卷积神经网络自动学习出来的一组局部模式识别器。

五、卷积核大小：1×1、3×3、5×5

卷积核有不同大小，不同大小代表不同的局部观察范围。

1、1×1 卷积核

1×1 卷积核看起来很小，但非常有用。

对于单通道输入，1×1 卷积只作用于当前位置。

对于多通道输入，1×1 卷积可以在通道维度上进行组合。

例如，输入有 C 个通道，1×1 卷积核会把同一空间位置上的 C 个通道加权组合成新的输出通道。

从通俗角度看：1×1 卷积主要用于通道混合和通道变换。

它常用于：

• 改变通道数量

• 降低计算量

• 融合不同通道特征

• 构建轻量化网络结构

2、3×3 卷积核

3×3 卷积核是 CNN 中最常见的卷积核大小之一。

它每次观察一个 3 × 3 的局部区域，既能捕捉局部模式，又不会引入太多参数。

从通俗角度看：3×3 卷积核是在局部表达能力和计算效率之间较好的折中。

很多经典 CNN 会大量堆叠 3×3 卷积。多个 3×3 卷积层叠加后，可以逐渐扩大感受野，同时保持较好的非线性表达能力。

3、5×5 或更大卷积核

5×5、7×7 等较大卷积核可以一次观察更大范围。

它们的优点是感受野更大，但参数量和计算量也更高。

例如，单通道情况下：

5×5 卷积核的参数数量明显更多。

从通俗角度看：卷积核越大，一次看得越广，但计算成本也越高。

现代网络中，常通过堆叠多个小卷积核、使用空洞卷积或注意力机制等方式扩大信息范围。

六、卷积核与通道数

在实际 CNN 中，输入往往有多个通道。

例如，一张 RGB 图像有 3 个通道：

• 红色通道 R

• 绿色通道 G

• 蓝色通道 B

如果输入形状为：

其中：

• H 表示高度

• W 表示宽度

• C 表示输入通道数

那么一个卷积核通常不仅有空间大小，还会覆盖所有输入通道。

例如，对 RGB 图像使用一个 3×3 卷积核，它的实际权重形状可以理解为：

其中：

• 第一个 3×3 对应红色通道

• 第二个 3×3 对应绿色通道

• 第三个 3×3 对应蓝色通道

一个卷积核会把所有输入通道中的局部信息综合起来，输出一个特征图。

如果卷积层有 16 个卷积核，就会输出 16 个特征图：

从通俗角度看：

• 一个卷积核 → 输出一个通道

• 多个卷积核 → 输出多个通道

因此，卷积层中的 out_channels 实际上就是卷积核的数量。

例如，在 PyTorch 中：

nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)

表示：

• 输入有 3 个通道

• 使用 16 个卷积核

• 每个卷积核大小为 3×3，并覆盖 3 个输入通道

• 输出有 16 个通道

七、卷积核与步幅、填充、感受野

卷积核的效果还与步幅、填充和感受野有关。

1、步幅

步幅（Stride）表示卷积核每次滑动的距离。

如果 stride = 1，卷积核每次移动 1 个位置；

如果 stride = 2，卷积核每次移动 2 个位置。

从通俗角度看：

• stride 小：扫描更细，输出更大

• stride 大：扫描更稀，输出更小

较大的步幅可以降低输出尺寸和计算量，但也可能丢失细节。

2、填充

填充（Padding）是在输入边缘补像素，常见是补 0。

填充的作用是：

• 让卷积核能处理边缘区域

• 控制输出特征图尺寸

• 避免空间尺寸过快缩小

例如，3×3 卷积核如果使用 padding=1、stride=1，通常可以保持输入和输出的高度宽度相同。

3、感受野

感受野（Receptive Field）表示输出特征中某个位置能“看到”的输入范围。

单个 3×3 卷积核一次只能看到 3×3 区域。

但多个卷积层堆叠后，深层特征对应的感受野会逐渐变大。

从通俗角度看：浅层卷积核看局部小范围，深层卷积核通过层层堆叠能间接看到更大范围。

这使 CNN 可以从局部特征逐步形成全局理解。

八、卷积核的优势、局限与使用注意事项

1、卷积核的主要优势

卷积核最大的优势是能够高效提取局部特征。

它通过小窗口在输入上滑动，专门捕捉局部模式，非常适合图像、语音频谱和时间序列等具有局部结构的数据。

其次，卷积核使用参数共享。

同一个卷积核会在输入的不同位置重复使用，这大幅减少了参数量。

再次，卷积核具有一定平移等变性。

同一个特征出现在不同位置，卷积核都能检测到，只是输出响应位置会发生相应移动。

从通俗角度看，卷积核的优势在于：它用少量可学习参数，在整个输入上寻找同一种局部模式。

2、卷积核的主要局限

卷积核也有局限。

首先，普通卷积核一次只关注局部区域。

如果任务需要建模远距离依赖，单个小卷积核不够，需要堆叠多层、扩大卷积核、使用空洞卷积，或结合注意力机制。

其次，卷积核依赖空间或局部结构假设。

如果输入特征之间没有明确相邻关系，卷积可能并不合适。

再次，卷积核对旋转、尺度变化并不天然完全不变。

同一个物体如果旋转、缩放或发生形变，普通卷积核未必能自动完全适应，需要数据增强、池化、特殊结构或更多训练数据。

此外，卷积核学到的特征不一定容易解释。

浅层卷积核可能比较直观，深层卷积核往往对应复杂语义组合，难以直接命名。

3、使用卷积核时需要注意的问题

使用卷积核时，需要注意：

• 卷积核大小影响局部观察范围

• 卷积核数量决定输出通道数

• 输入通道数决定每个卷积核的深度

• 步幅影响输出尺寸和下采样程度

• 填充影响边缘信息和输出尺寸

• 多层小卷积核可以逐渐扩大感受野

• 图像任务中常用 3×3 卷积核作为基础选择

• 1×1 卷积核常用于通道变换和特征融合

从实践角度看，卷积核不是孤立存在的。它通常与激活函数、池化层、归一化层和残差连接共同构成完整 CNN 模块。

九、Python 示例

下面给出几个简单示例，用来帮助理解卷积核的基本使用。

示例 1：用 NumPy 手动计算一个卷积响应

import numpy as np # 输入局部区域（一个3x3图像块）X = np.array([ [1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 一个简单卷积核（垂直边缘检测核）K = np.array([ [1, 0, -1], [1, 0, -1], [1, 0, -1]]) # 对应位置相乘再求和（单次卷积操作，输出一个标量）y = np.sum(X * K) print("卷积响应：", y)

这个例子展示了卷积核的最基本计算方式：

局部区域 × 卷积核 → 求和 → 输出响应

其中，卷积核决定了模型关注怎样的局部模式。

示例 2：使用 PyTorch 创建卷积核

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 创建二维卷积层：输入3通道，输出16通道，卷积核3x3，步长1，padding=1保持尺寸conv = nn.Conv2d( in_channels=3, # 输入特征图通道数（如RGB图像） out_channels=16, # 输出特征图通道数（卷积核个数） kernel_size=3, # 卷积核大小（3x3） stride=1, # 步长 padding=1 # 填充（使得输出尺寸与输入相同）) # 卷积核权重形状：(out_channels, in_channels, kernel_height, kernel_width) = (16,3,3,3)print("卷积核权重形状：", conv.weight.shape)# 偏置形状：(out_channels,) = (16,)print("偏置形状：", conv.bias.shape)

输出中的卷积核权重形状通常为：

16 × 3 × 3 × 3

含义是：

• 16 表示有 16 个卷积核

• 3 表示输入通道数

• 3 × 3 表示每个卷积核的空间大小

也就是说，每个卷积核覆盖 3 个输入通道，并输出一个特征图。

示例 3：卷积核处理一批图像

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 创建二维卷积层：输入3通道，输出16通道，3x3卷积核，步长1，padding=1（保持尺寸）conv = nn.Conv2d( in_channels=3, # RGB图像通道数 out_channels=16, # 卷积核个数（输出通道数） kernel_size=3, # 卷积核大小 stride=1, # 步长 padding=1 # 填充使输出尺寸等于输入尺寸) # 生成一批随机输入：8张RGB图像，尺寸32x32x = torch.randn(8, 3, 32, 32) # 前向传播：通过卷积层y = conv(x) print("输入形状：", x.shape) # torch.Size([8, 3, 32, 32])print("输出形状：", y.shape) # torch.Size([8, 16, 32, 32])

这里：

• 输入形状为 8 × 3 × 32 × 32

• 输出形状为 8 × 16 × 32 × 32

含义是：8 张图像，每张图像经过 16 个卷积核，得到 16 张特征图。

因为设置了 padding=1、stride=1，所以空间尺寸仍然保持 32×32。

示例 4：不同卷积核大小的比较

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 输入张量：8张32x32的RGB图像（批量大小8，通道3，高32，宽32）x = torch.randn(8, 3, 32, 32) # 1x1 卷积：不改变空间尺寸，仅改变通道数（3→16）conv_1x1 = nn.Conv2d(3, 16, kernel_size=1) # 3x3 卷积：padding=1 保持输出尺寸与输入相同（32x32）conv_3x3 = nn.Conv2d(3, 16, kernel_size=3, padding=1) # 5x5 卷积：padding=2 保持输出尺寸与输入相同（32x32）conv_5x5 = nn.Conv2d(3, 16, kernel_size=5, padding=2) # 前向传播，得到各自的输出y1 = conv_1x1(x) # 形状 (8,16,32,32)y3 = conv_3x3(x) # 形状 (8,16,32,32)y5 = conv_5x5(x) # 形状 (8,16,32,32) print("1×1 卷积输出形状：", y1.shape)print("3×3 卷积输出形状：", y3.shape)print("5×5 卷积输出形状：", y5.shape)

这个例子中，由于设置了合适的 padding，三个卷积层的输出空间尺寸都保持为 32×32。

但它们的局部观察范围不同：

• 1×1 卷积主要混合通道信息

• 3×3 卷积观察较小局部区域

• 5×5 卷积观察更大局部区域

示例 5：卷积核 + ReLU 组成特征提取模块

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 构建特征提取器：两个卷积层 + ReLU激活feature_extractor = nn.Sequential( # 第一层卷积：输入3通道 → 16通道，3x3卷积核，padding=1保持尺寸 nn.Conv2d( in_channels=3, out_channels=16, kernel_size=3, padding=1 ), nn.ReLU(), # ReLU激活函数 # 第二层卷积：16通道 → 32通道，3x3卷积核，padding=1保持尺寸 nn.Conv2d( in_channels=16, out_channels=32, kernel_size=3, padding=1 ), nn.ReLU()) # 一批8张RGB图像，尺寸32x32x = torch.randn(8, 3, 32, 32) # 通过特征提取器，得到特征图features = feature_extractor(x) print("输入形状：", x.shape) # torch.Size([8, 3, 32, 32])print("输出特征形状：", features.shape) # torch.Size([8, 32, 32, 32])

这个模块可以理解为：

原始图像 → 初级卷积核提取特征 → ReLU → 更深卷积核提取更复杂特征

输出形状为：8 × 32 × 32 × 32，表示每张图像被转换成 32 个特征通道。

📘 小结

卷积核是卷积层中的核心权重矩阵，用来在输入图像或特征图上滑动扫描并提取局部特征。它通过对应位置相乘求和，判断局部区域是否具有某种模式。一个卷积核产生一张特征图，多个卷积核产生多个输出通道。对初学者而言，可以把卷积核理解为：卷积神经网络中可学习的小型特征探测器，它在整张输入上反复寻找边缘、纹理、形状等局部模式。

“点赞有美意，赞赏是鼓励”

AI 术语通俗词典：卷积核

别再为导入报错发愁了！手把手教你用Parasolid格式把SolidWorks模型完美导入Adams（附常见错误排查）

Elasticsearch：混合搜索新范式 - 零样本排序融合实战 (RRF)

2025届最火的十大AI写作平台横评

2025届必备的降重复率助手推荐榜单

提示词工程实战：从入门到精通的系统方法

从OpenMV2用到4的老玩家，聊聊那些年踩过的‘坑’：画面变绿只是冰山一角