news 2026/5/19 2:29:03

AI 术语通俗词典:卷积核

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 术语通俗词典:卷积核

卷积核是深度学习、卷积神经网络、计算机视觉和人工智能中非常重要的一个术语。它用来描述一种在输入数据上滑动扫描、用于检测局部特征的小型权重矩阵。换句话说,卷积核是在回答:模型怎样用一个小窗口在图像或信号中寻找边缘、纹理、形状等局部模式。

如果说卷积层负责从输入中提取局部特征,那么卷积核就是卷积层中真正执行“特征探测”的核心工具。它不是人工固定写死的模板,而是一组可以通过训练自动学习的参数。因此,卷积核常用于卷积神经网络(CNN)、图像分类、目标检测、图像分割、医学影像分析、语音处理和时间序列建模,是理解 CNN 的关键概念之一。

一、基本概念:什么是卷积核

卷积核(Kernel / Filter)是卷积层中的一个小型权重矩阵。

在图像处理中,一个常见的卷积核大小是:

例如,一个 3 × 3 卷积核可以写成:

其中:

• K 表示卷积核

• wᵢⱼ 表示卷积核中第 i 行、第 j 列的权重,这些权重会在训练过程中被模型学习

卷积核会在输入图像或特征图上滑动。每到一个位置,它都会覆盖输入中的一个局部区域,并计算加权求和。

假设输入局部区域为:

卷积输出可以写为:

其中:

• xᵢⱼ 表示输入局部区域中的数值

• wᵢⱼ 表示卷积核对应位置的权重

• b 表示偏置

• y 表示当前位置的输出响应

从通俗角度看,卷积核可以理解为:一个可学习的小型特征探测器。

它在输入上不断滑动,检查每个局部区域是否符合某种特征模式。

二、为什么需要卷积核

卷积核之所以重要,是因为图像、语音和时间序列中有大量局部结构。

以图像为例,单个像素通常意义有限,真正有意义的是多个像素组合形成的局部模式,例如:

• 边缘

• 角点

• 纹理

• 色块

• 轮廓

• 物体局部部件

如果使用普通全连接层处理图像,每个神经元都要连接所有像素,参数量会非常大,也难以充分利用图像的空间局部结构。

卷积核采用另一种思路:先从小范围局部区域中提取特征,再把同一个特征探测器应用到整张图像。

例如,一个检测“垂直边缘”的卷积核,不必只在图像左上角工作,它可以在整张图像上滑动,检查不同位置是否存在类似边缘。

从通俗角度看:

• 全连接层:一次性看全部输入

• 卷积核:用小窗口到处扫描局部特征

这种方式带来两个好处:

• 保留图像局部结构

• 大幅减少参数数量

因此,卷积核是卷积神经网络能够高效处理图像数据的重要原因。

三、卷积核的核心计算过程

卷积核的核心计算过程可以概括为:

覆盖局部区域 → 对应位置相乘 → 求和 → 得到一个输出值

假设一个输入区域为:

一个卷积核为:

那么该位置的卷积结果为:

计算得到:

这个卷积核左侧权重为正,右侧权重为负,因此它对左右方向的变化比较敏感,常可用于理解垂直边缘检测。

从通俗角度看:卷积核的权重决定它关注什么样的局部模式。

如果局部区域与卷积核关注的模式相似,输出响应就明显;

如果不相似,输出响应就较弱。

卷积核在输入上滑动后,会在每个位置产生一个响应值,所有响应值共同组成一张特征图。

可以表示为:

输入图像 → 卷积核滑动计算 → 特征图

四、卷积核为什么像“特征探测器”

卷积核常被理解为“特征探测器”,是因为不同卷积核可以对不同模式产生响应。

例如,在较浅的卷积层中,某些卷积核可能学习到:

• 水平边缘

• 垂直边缘

• 斜向边缘

• 明暗变化

• 简单纹理

在更深的卷积层中,卷积核看到的已经不是原始像素,而是上一层输出的特征图。此时它可能检测更复杂的模式,例如:

• 局部形状

• 纹理组合

• 眼睛轮廓

• 车轮结构

• 动物毛发模式

从通俗角度看:

• 浅层卷积核:检测简单视觉特征

• 中层卷积核:检测局部结构

• 深层卷积核:检测高级语义部件

这说明卷积核不是固定只能检测边缘。

在训练过程中,模型会根据任务自动调整卷积核权重,使它们逐渐学会对任务有用的局部模式。

例如,在猫狗分类任务中,有些卷积核可能逐渐对毛发纹理敏感,有些卷积核可能对眼睛、耳朵、鼻子等局部结构敏感。

因此,卷积核可以理解为:卷积神经网络自动学习出来的一组局部模式识别器。

五、卷积核大小:1×1、3×3、5×5

卷积核有不同大小,不同大小代表不同的局部观察范围。

1、1×1 卷积核

1×1 卷积核看起来很小,但非常有用。

对于单通道输入,1×1 卷积只作用于当前位置。

对于多通道输入,1×1 卷积可以在通道维度上进行组合。

例如,输入有 C 个通道,1×1 卷积核会把同一空间位置上的 C 个通道加权组合成新的输出通道。

从通俗角度看:1×1 卷积主要用于通道混合和通道变换。

它常用于:

• 改变通道数量

• 降低计算量

• 融合不同通道特征

• 构建轻量化网络结构

2、3×3 卷积核

3×3 卷积核是 CNN 中最常见的卷积核大小之一。

它每次观察一个 3 × 3 的局部区域,既能捕捉局部模式,又不会引入太多参数。

从通俗角度看:3×3 卷积核是在局部表达能力和计算效率之间较好的折中。

很多经典 CNN 会大量堆叠 3×3 卷积。多个 3×3 卷积层叠加后,可以逐渐扩大感受野,同时保持较好的非线性表达能力。

3、5×5 或更大卷积核

5×5、7×7 等较大卷积核可以一次观察更大范围。

它们的优点是感受野更大,但参数量和计算量也更高。

例如,单通道情况下:

5×5 卷积核的参数数量明显更多。

从通俗角度看:卷积核越大,一次看得越广,但计算成本也越高。

现代网络中,常通过堆叠多个小卷积核、使用空洞卷积或注意力机制等方式扩大信息范围。

六、卷积核与通道数

在实际 CNN 中,输入往往有多个通道。

例如,一张 RGB 图像有 3 个通道:

• 红色通道 R

• 绿色通道 G

• 蓝色通道 B

如果输入形状为:

其中:

• H 表示高度

• W 表示宽度

• C 表示输入通道数

那么一个卷积核通常不仅有空间大小,还会覆盖所有输入通道。

例如,对 RGB 图像使用一个 3×3 卷积核,它的实际权重形状可以理解为:

其中:

• 第一个 3×3 对应红色通道

• 第二个 3×3 对应绿色通道

• 第三个 3×3 对应蓝色通道

一个卷积核会把所有输入通道中的局部信息综合起来,输出一个特征图。

如果卷积层有 16 个卷积核,就会输出 16 个特征图:

从通俗角度看:

• 一个卷积核 → 输出一个通道

• 多个卷积核 → 输出多个通道

因此,卷积层中的 out_channels 实际上就是卷积核的数量。

例如,在 PyTorch 中:

nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3)

表示:

• 输入有 3 个通道

• 使用 16 个卷积核

• 每个卷积核大小为 3×3,并覆盖 3 个输入通道

• 输出有 16 个通道

七、卷积核与步幅、填充、感受野

卷积核的效果还与步幅、填充和感受野有关。

1、步幅

步幅(Stride)表示卷积核每次滑动的距离。

如果 stride = 1,卷积核每次移动 1 个位置;

如果 stride = 2,卷积核每次移动 2 个位置。

从通俗角度看:

• stride 小:扫描更细,输出更大

• stride 大:扫描更稀,输出更小

较大的步幅可以降低输出尺寸和计算量,但也可能丢失细节。

2、填充

填充(Padding)是在输入边缘补像素,常见是补 0。

填充的作用是:

• 让卷积核能处理边缘区域

• 控制输出特征图尺寸

• 避免空间尺寸过快缩小

例如,3×3 卷积核如果使用 padding=1、stride=1,通常可以保持输入和输出的高度宽度相同。

3、感受野

感受野(Receptive Field)表示输出特征中某个位置能“看到”的输入范围。

单个 3×3 卷积核一次只能看到 3×3 区域。

但多个卷积层堆叠后,深层特征对应的感受野会逐渐变大。

从通俗角度看:浅层卷积核看局部小范围,深层卷积核通过层层堆叠能间接看到更大范围。

这使 CNN 可以从局部特征逐步形成全局理解。

八、卷积核的优势、局限与使用注意事项

1、卷积核的主要优势

卷积核最大的优势是能够高效提取局部特征。

它通过小窗口在输入上滑动,专门捕捉局部模式,非常适合图像、语音频谱和时间序列等具有局部结构的数据。

其次,卷积核使用参数共享。

同一个卷积核会在输入的不同位置重复使用,这大幅减少了参数量。

再次,卷积核具有一定平移等变性。

同一个特征出现在不同位置,卷积核都能检测到,只是输出响应位置会发生相应移动。

从通俗角度看,卷积核的优势在于:它用少量可学习参数,在整个输入上寻找同一种局部模式。

2、卷积核的主要局限

卷积核也有局限。

首先,普通卷积核一次只关注局部区域。

如果任务需要建模远距离依赖,单个小卷积核不够,需要堆叠多层、扩大卷积核、使用空洞卷积,或结合注意力机制。

其次,卷积核依赖空间或局部结构假设。

如果输入特征之间没有明确相邻关系,卷积可能并不合适。

再次,卷积核对旋转、尺度变化并不天然完全不变。

同一个物体如果旋转、缩放或发生形变,普通卷积核未必能自动完全适应,需要数据增强、池化、特殊结构或更多训练数据。

此外,卷积核学到的特征不一定容易解释。

浅层卷积核可能比较直观,深层卷积核往往对应复杂语义组合,难以直接命名。

3、使用卷积核时需要注意的问题

使用卷积核时,需要注意:

• 卷积核大小影响局部观察范围

• 卷积核数量决定输出通道数

• 输入通道数决定每个卷积核的深度

• 步幅影响输出尺寸和下采样程度

• 填充影响边缘信息和输出尺寸

• 多层小卷积核可以逐渐扩大感受野

• 图像任务中常用 3×3 卷积核作为基础选择

• 1×1 卷积核常用于通道变换和特征融合

从实践角度看,卷积核不是孤立存在的。它通常与激活函数、池化层、归一化层和残差连接共同构成完整 CNN 模块。

九、Python 示例

下面给出几个简单示例,用来帮助理解卷积核的基本使用。

示例 1:用 NumPy 手动计算一个卷积响应

import numpy as np # 输入局部区域(一个3x3图像块)X = np.array([ [1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 一个简单卷积核(垂直边缘检测核)K = np.array([ [1, 0, -1], [1, 0, -1], [1, 0, -1]]) # 对应位置相乘再求和(单次卷积操作,输出一个标量)y = np.sum(X * K) print("卷积响应:", y)

这个例子展示了卷积核的最基本计算方式:

局部区域 × 卷积核 → 求和 → 输出响应

其中,卷积核决定了模型关注怎样的局部模式。

示例 2:使用 PyTorch 创建卷积核

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 创建二维卷积层:输入3通道,输出16通道,卷积核3x3,步长1,padding=1保持尺寸conv = nn.Conv2d( in_channels=3, # 输入特征图通道数(如RGB图像) out_channels=16, # 输出特征图通道数(卷积核个数) kernel_size=3, # 卷积核大小(3x3) stride=1, # 步长 padding=1 # 填充(使得输出尺寸与输入相同)) # 卷积核权重形状:(out_channels, in_channels, kernel_height, kernel_width) = (16,3,3,3)print("卷积核权重形状:", conv.weight.shape)# 偏置形状:(out_channels,) = (16,)print("偏置形状:", conv.bias.shape)

输出中的卷积核权重形状通常为:

16 × 3 × 3 × 3

含义是:

• 16 表示有 16 个卷积核

• 3 表示输入通道数

• 3 × 3 表示每个卷积核的空间大小

也就是说,每个卷积核覆盖 3 个输入通道,并输出一个特征图。

示例 3:卷积核处理一批图像

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 创建二维卷积层:输入3通道,输出16通道,3x3卷积核,步长1,padding=1(保持尺寸)conv = nn.Conv2d( in_channels=3, # RGB图像通道数 out_channels=16, # 卷积核个数(输出通道数) kernel_size=3, # 卷积核大小 stride=1, # 步长 padding=1 # 填充使输出尺寸等于输入尺寸) # 生成一批随机输入:8张RGB图像,尺寸32x32x = torch.randn(8, 3, 32, 32) # 前向传播:通过卷积层y = conv(x) print("输入形状:", x.shape) # torch.Size([8, 3, 32, 32])print("输出形状:", y.shape) # torch.Size([8, 16, 32, 32])

这里:

• 输入形状为 8 × 3 × 32 × 32

• 输出形状为 8 × 16 × 32 × 32

含义是:8 张图像,每张图像经过 16 个卷积核,得到 16 张特征图。

因为设置了 padding=1、stride=1,所以空间尺寸仍然保持 32×32。

示例 4:不同卷积核大小的比较

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 输入张量:8张32x32的RGB图像(批量大小8,通道3,高32,宽32)x = torch.randn(8, 3, 32, 32) # 1x1 卷积:不改变空间尺寸,仅改变通道数(3→16)conv_1x1 = nn.Conv2d(3, 16, kernel_size=1) # 3x3 卷积:padding=1 保持输出尺寸与输入相同(32x32)conv_3x3 = nn.Conv2d(3, 16, kernel_size=3, padding=1) # 5x5 卷积:padding=2 保持输出尺寸与输入相同(32x32)conv_5x5 = nn.Conv2d(3, 16, kernel_size=5, padding=2) # 前向传播,得到各自的输出y1 = conv_1x1(x) # 形状 (8,16,32,32)y3 = conv_3x3(x) # 形状 (8,16,32,32)y5 = conv_5x5(x) # 形状 (8,16,32,32) print("1×1 卷积输出形状:", y1.shape)print("3×3 卷积输出形状:", y3.shape)print("5×5 卷积输出形状:", y5.shape)

这个例子中,由于设置了合适的 padding,三个卷积层的输出空间尺寸都保持为 32×32。

但它们的局部观察范围不同:

• 1×1 卷积主要混合通道信息

• 3×3 卷积观察较小局部区域

• 5×5 卷积观察更大局部区域

示例 5:卷积核 + ReLU 组成特征提取模块

import torch # PyTorch框架import torch.nn as nn # 神经网络模块 # 构建特征提取器:两个卷积层 + ReLU激活feature_extractor = nn.Sequential( # 第一层卷积:输入3通道 → 16通道,3x3卷积核,padding=1保持尺寸 nn.Conv2d( in_channels=3, out_channels=16, kernel_size=3, padding=1 ), nn.ReLU(), # ReLU激活函数 # 第二层卷积:16通道 → 32通道,3x3卷积核,padding=1保持尺寸 nn.Conv2d( in_channels=16, out_channels=32, kernel_size=3, padding=1 ), nn.ReLU()) # 一批8张RGB图像,尺寸32x32x = torch.randn(8, 3, 32, 32) # 通过特征提取器,得到特征图features = feature_extractor(x) print("输入形状:", x.shape) # torch.Size([8, 3, 32, 32])print("输出特征形状:", features.shape) # torch.Size([8, 32, 32, 32])

这个模块可以理解为:

原始图像 → 初级卷积核提取特征 → ReLU → 更深卷积核提取更复杂特征

输出形状为:8 × 32 × 32 × 32,表示每张图像被转换成 32 个特征通道。

📘 小结

卷积核是卷积层中的核心权重矩阵,用来在输入图像或特征图上滑动扫描并提取局部特征。它通过对应位置相乘求和,判断局部区域是否具有某种模式。一个卷积核产生一张特征图,多个卷积核产生多个输出通道。对初学者而言,可以把卷积核理解为:卷积神经网络中可学习的小型特征探测器,它在整张输入上反复寻找边缘、纹理、形状等局部模式。

“点赞有美意,赞赏是鼓励”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/19 2:27:23

Elasticsearch:混合搜索新范式 - 零样本排序融合实战 (RRF)

1. Elasticsearch混合搜索的痛点与RRF的破局 第一次接触Elasticsearch混合搜索时,我被一个简单问题难住了:BM25检索出的文档分数在0-10之间,而向量搜索的相似度得分却是0-1范围。当我试图把这两种结果线性加权融合时,发现给BM25加…

作者头像 李华
网站建设 2026/5/19 2:23:56

2025届最火的十大AI写作平台横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当下,学术压力正日益增大,在此背景下许多学生以及研究者都有着迫切需…

作者头像 李华
网站建设 2026/5/19 2:23:48

2025届必备的降重复率助手推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 顺着人工智能技术迅猛发展的态势,论文AI工具在学术研究跟写作范畴正变为重要的变…

作者头像 李华
网站建设 2026/5/19 2:21:04

提示词工程实战:从入门到精通的系统方法

Prompt Engineering 实战:System Prompt、Few-shot、思维链一次性讲透Prompt 写得好,LLM 是你的超级员工;写得烂,它就是个胡说八道的实习生。这篇文章不讲理论,只讲你马上能用的 Prompt 技巧——每个都带代码示例。一、…

作者头像 李华