从CNN到RNN：拆解吴恩达《深度学习》课程中的核心项目，用Python代码复现一遍-编程实验室

从CNN到RNN：拆解吴恩达《深度学习》课程中的核心项目，用Python代码复现一遍

深度学习领域的学习者常常面临一个困境：理论知识看似掌握，但面对实际项目时却无从下手。吴恩达教授的《深度学习》课程以其系统性和实践性著称，但仅靠观看视频和完成课后练习，往往难以真正内化这些知识。本文将带你深入课程中的两个核心模块——卷积神经网络（CNN）和循环神经网络（RNN），通过完整的Python代码实现，将抽象的概念转化为可运行的解决方案。

1. 环境准备与工具选择

在开始复现经典模型之前，我们需要搭建一个高效且易于调试的开发环境。Google Colab因其免费的GPU资源和即开即用的特性，成为深度学习初学者的理想选择。以下是配置环境的详细步骤：

# 检查Colab的GPU配置 !nvidia-smi # 安装必要的库 !pip install tensorflow==2.8.0 keras numpy matplotlib pillow

对于本地开发环境，推荐使用Anaconda创建独立的环境：

conda create -n dl_projects python=3.8 conda activate dl_projects pip install tensorflow keras numpy matplotlib jupyter

常见问题排查：

如果遇到CUDA相关错误，请检查GPU驱动版本与TensorFlow版本的兼容性
内存不足时，可以尝试减小batch size或使用更轻量级的模型
Colab会话超时问题可通过定期保存或使用付费版本解决

提示：在项目开始前，建议在Colab或本地建立清晰的文件结构，如： /models /data /utils notebooks/

2. 卷积神经网络实战：从LeNet到ResNet

2.1 LeNet-5的实现与MNIST分类

LeNet-5是CNN的鼻祖级架构，理解它的设计思想对掌握现代卷积网络至关重要。让我们用Keras实现这个经典模型：

from tensorflow.keras import layers, models def build_lenet5(input_shape=(32, 32, 1), num_classes=10): model = models.Sequential([ layers.Conv2D(6, (5,5), activation='tanh', input_shape=input_shape), layers.AveragePooling2D(), layers.Conv2D(16, (5,5), activation='tanh'), layers.AveragePooling2D(), layers.Flatten(), layers.Dense(120, activation='tanh'), layers.Dense(84, activation='tanh'), layers.Dense(num_classes, activation='softmax') ]) return model # 数据预处理 from tensorflow.keras.datasets import mnist (train_images, train_labels), (test_images, test_labels) = mnist.load_data() train_images = train_images.reshape((60000, 28, 28, 1)).astype('float32') / 255 test_images = test_images.reshape((10000, 28, 28, 1)).astype('float32') / 255 # 模型训练 lenet = build_lenet5(input_shape=(28,28,1)) lenet.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) history = lenet.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels))

关键改进点：

将原始论文中的tanh激活函数替换为更现代的ReLU（实践中可以尝试）
使用Adam优化器替代传统的SGD
添加了批标准化层以加速训练（课程中后续会讲到）

2.2 ResNet34的实现与CIFAR-10实验

残差网络（ResNet）解决了深层网络训练中的梯度消失问题，其核心是跳跃连接（skip connection）。以下是简化版ResNet34的实现：

def residual_block(x, filters, kernel_size=3, stride=1): shortcut = x x = layers.Conv2D(filters, kernel_size, strides=stride, padding='same')(x) x = layers.BatchNormalization()(x) x = layers.Activation('relu')(x) x = layers.Conv2D(filters, kernel_size, padding='same')(x) x = layers.BatchNormalization()(x) if stride != 1 or shortcut.shape[-1] != filters: shortcut = layers.Conv2D(filters, 1, strides=stride)(shortcut) shortcut = layers.BatchNormalization()(shortcut) x = layers.add([x, shortcut]) return layers.Activation('relu')(x) def build_resnet34(input_shape=(32,32,3), num_classes=10): inputs = layers.Input(shape=input_shape) x = layers.Conv2D(64, 7, strides=2, padding='same')(inputs) x = layers.BatchNormalization()(x) x = layers.Activation('relu')(x) x = layers.MaxPooling2D(3, strides=2, padding='same')(x) # 堆叠残差块 filters = 64 for i, blocks in enumerate([3,4,6,3]): for j in range(blocks): stride = 2 if (i > 0 and j == 0) else 1 x = residual_block(x, filters, stride=stride) filters *= 2 x = layers.GlobalAveragePooling2D()(x) outputs = layers.Dense(num_classes, activation='softmax')(x) return models.Model(inputs, outputs)

注意：在实际训练CIFAR-10时，由于图像尺寸较小(32x32)，需要调整网络初始部分的stride参数，避免特征图过早缩小。

3. 序列模型实战：从基础RNN到LSTM文本生成

3.1 字符级文本生成模型

循环神经网络处理序列数据的能力在自然语言处理中表现突出。让我们实现一个基于LSTM的文本生成模型：

from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.utils import to_categorical import numpy as np def prepare_text_data(text, seq_length=100): tokenizer = Tokenizer(char_level=True) tokenizer.fit_on_texts([text]) sequences = [] next_chars = [] for i in range(0, len(text) - seq_length, 1): seq = text[i:i + seq_length] next_char = text[i + seq_length] sequences.append(seq) next_chars.append(next_char) X = np.zeros((len(sequences), seq_length, len(tokenizer.word_index)), dtype=np.bool) y = np.zeros((len(sequences), len(tokenizer.word_index)), dtype=np.bool) for i, seq in enumerate(sequences): for t, char in enumerate(seq): X[i, t, tokenizer.texts_to_sequences([char])[0][0]-1] = 1 y[i, tokenizer.texts_to_sequences([next_chars[i]])[0][0]-1] = 1 return X, y, tokenizer def build_lstm_model(vocab_size, seq_length=100): model = models.Sequential([ layers.LSTM(256, input_shape=(seq_length, vocab_size), return_sequences=True), layers.Dropout(0.2), layers.LSTM(256), layers.Dropout(0.2), layers.Dense(vocab_size, activation='softmax') ]) model.compile(loss='categorical_crossentropy', optimizer='adam') return model

训练技巧：

使用温度参数(temperature)控制生成文本的随机性
采用动态学习率调整策略（如ReduceLROnPlateau）
实现早停(EarlyStopping)防止过拟合

3.2 注意力机制实战

注意力机制极大提升了序列模型的性能。以下是简化版的注意力层实现：

class AttentionLayer(layers.Layer): def __init__(self, units): super(AttentionLayer, self).__init__() self.W1 = layers.Dense(units) self.W2 = layers.Dense(units) self.V = layers.Dense(1) def call(self, query, values): # query隐藏状态 shape == (batch_size, hidden_size) # values编码器输出 shape == (batch_size, max_len, hidden_size) # 扩展维度后相加 query_with_time_axis = tf.expand_dims(query, 1) score = self.V(tf.nn.tanh( self.W1(query_with_time_axis) + self.W2(values))) attention_weights = tf.nn.softmax(score, axis=1) context_vector = attention_weights * values context_vector = tf.reduce_sum(context_vector, axis=1) return context_vector, attention_weights

4. 项目进阶与调试技巧

4.1 模型可视化与理解

理解模型内部运作是调试的关键。TensorFlow提供了多种可视化工具：

# 模型结构可视化 from tensorflow.keras.utils import plot_model plot_model(lenet, to_file='lenet.png', show_shapes=True) # 训练过程监控 import matplotlib.pyplot as plt plt.plot(history.history['accuracy'], label='accuracy') plt.plot(history.history['val_accuracy'], label='val_accuracy') plt.xlabel('Epoch') plt.ylabel('Accuracy') plt.ylim([0, 1]) plt.legend(loc='lower right')

4.2 常见问题解决方案

梯度消失/爆炸：

使用梯度裁剪（clipvalue或clipnorm参数）
调整初始化方法（如He初始化）
添加批标准化层

过拟合：

增加Dropout层（0.2-0.5比例）
使用L1/L2正则化
数据增强（对图像特别有效）

# 图像数据增强示例 from tensorflow.keras.preprocessing.image import ImageDataGenerator datagen = ImageDataGenerator( rotation_range=20, width_shift_range=0.2, height_shift_range=0.2, horizontal_flip=True)

4.3 性能优化技巧

混合精度训练（现代GPU支持）：

policy = tf.keras.mixed_precision.Policy('mixed_float16') tf.keras.mixed_precision.set_global_policy(policy)

分布式训练（多GPU/TPU）：

strategy = tf.distribute.MirroredStrategy() with strategy.scope(): model = build_resnet34() model.compile(...)

模型量化（部署优化）：

converter = tf.lite.TFLiteConverter.from_keras_model(model) converter.optimizations = [tf.lite.Optimize.DEFAULT] quantized_model = converter.convert()