ESP32-CAM人脸识别糖果机：从硬件选型到AI模型部署的嵌入式AI实战-编程实验室

1. 项目概述

几年前，我在一个创客展上看到一个简单的红外感应糖果机，它会在你伸手时自动吐出一颗糖。这个想法很有趣，但总觉得少了点什么——它不认识我，对任何人都一样慷慨。这让我开始思考，能不能做一台“认识主人”的糖果机？一个只对熟悉面孔“微笑”的智能小管家。于是，这个基于ESP32-CAM的人脸识别糖果分发器的想法就诞生了。它不仅仅是一个玩具，更是一个将前沿的神经网络人脸识别技术，塞进一个巴掌大的嵌入式设备里的实践项目。整个过程充满了硬件选型的纠结、代码调试的煎熬，以及最终看到它准确认出我并吐出糖果时的成就感。如果你也对嵌入式AI、物联网设备开发感兴趣，或者单纯想做一个能“认人”的酷炫小装置，那么这篇从零到一的实战记录，或许能给你带来不少启发和可复现的细节。

这个项目的核心目标很明确：构建一个能通过摄像头实时识别人脸，并根据预设规则（比如“熟人无限畅吃，访客限量供应”）来控制糖果分发动作的独立设备。整个系统以ESP32-CAM模组为大脑，它集成了强大的双核处理器和Wi-Fi/蓝牙功能，足以在本地运行轻量级的人脸识别模型。OV2640摄像头负责捕捉图像，一块小小的OLED屏用于显示状态和交互信息，继电器则作为“开关”，在识别通过后短暂接通糖果机原有的电机电路。为了让设备更智能，我们还通过MQTT协议将其接入家庭自动化系统（如Home Assistant），实现远程状态监控和规则设置。最终成品是一个摆在桌面上，既能作为有趣的谈资，又能切实体验边缘AI计算魅力的完整项目。

2. 核心硬件设计与选型解析

2.1 主控与感知单元：ESP32-CAM与OV2640

选择ESP32-CAM作为核心，是我经过多方对比后的决定。市面上常见的方案有树莓派加摄像头、Arduino Uno加独立人脸识别模块等。树莓派性能强大，但功耗和体积对于这个常电桌面设备来说有点“杀鸡用牛刀”，且成本较高。而单纯的Arduino Uno计算能力又不足以在本地实时运行人脸识别算法。ESP32-CAM完美地找到了平衡点：它基于ESP32芯片，拥有双核240MHz的处理器、520KB SRAM和4MB的PSRAM，特别是后者，对于需要缓存图像数据进行处理的计算机视觉任务至关重要。其内置的Wi-Fi和蓝牙模块，也为物联网连接铺平了道路。最关键的是，它直接板载了一个摄像头接口和TF卡槽，极大简化了硬件连接。

摄像头选用的是与模组配套的OV2640传感器。这是一个200万像素的传感器，对于人脸识别应用来说绰绰有余。更高的像素意味着更大的图像数据量，会急剧增加ESP32的内存压力和识别耗时。OV2640支持输出多种分辨率的图像，在本项目中，我将它配置为QVGA（320x240）或更低的分辨率。这并非为了画面清晰度，而是出于性能考量：更小的图像尺寸能大幅减少需要处理的数据量，提高识别帧率，确保用户体验的流畅性。在实际测试中，将分辨率设为160x120，识别速度能有显著提升，且在通常的室内距离下，对识别准确率影响很小。

注意：ESP32-CAM模组有多种版本，务必选择带有外部PSRAM（通常标记为ESP32-CAM-MB）的型号。人脸识别库和图像缓冲非常消耗内存，没有这额外的4MB PSRAM，程序几乎无法运行。购买时可以向卖家确认这一点。

2.2 执行与交互单元：继电器、OLED与光电电阻

糖果分发器本身是一个现成的、带有基础红外感应出糖功能的商品。我的改造思路不是替换其核心电路，而是“赋能”它。原机的逻辑是：红外对管被手遮挡 -> 主控板驱动电机转动出糖。我需要插入一个“许可”机制。这就是继电器的作用。我选用了一个常用的5V单路继电器模块。将原电机供电线路中的一根线切断，两端分别接到继电器的常开（NO）端和公共（COM）端。这样，只有当ESP32-CAM控制继电器吸合时，电路才导通，电机才能工作。否则，即使手遮住了红外传感器，机器也不会动作。这是一种非侵入式的改造，安全且易于还原。

为了提供直观的人机交互，我添加了一块0.96英寸的I2C接口OLED显示屏（SSD1306驱动）。它被安装在底座上，用于显示当前状态（如“等待人脸”、“识别中：张三”、“糖果已发放”）、调试信息或简单的表情图标。在资源紧张的嵌入式系统中，这种低功耗、信息量直接的显示方式非常合适。

最巧妙的一个添加是光电电阻（LDR）。我的目标是复用原机的“手部接近”检测信号，但又不想去破解或焊接其原有的电路板（以免失去保修或引入不稳定因素）。我观察到，当原机检测到手部时，其板载的一颗白色LED会亮起。于是，我将一个LDR用热熔胶固定在这颗LED的正上方。当LED亮起，LDR感受到光强变化，电阻值改变。ESP32-CAM通过ADC（模数转换器）读取这个变化，就能间接知道“此时有手伸过来了”。这种方法实现了完美的电气隔离，我的电路和原机电路没有任何直接的电气连接，非常安全可靠。

2.3 供电与连接考量

ESP32-CAM在全速运行时的功耗不容小觑，尤其是Wi-Fi和摄像头同时工作时。使用电池供电会很快耗尽电量，且本项目需要持续在线，不适合深度睡眠模式。因此，我决定采用5V USB电源供电。我在底座侧面开了一个小孔，将USB线引入，直接连接到ESP32-CAM的5V和GND引脚。为了应对电机启动时可能产生的电压波动，我在电源输入引脚处并联了一个330μF的电解电容，起到缓冲和稳定电压的作用，能有效防止因瞬间压降导致的ESP32重启（即常见的“Brownout”错误）。

为了方便后续的固件更新和调试，我将ESP32-CAM的串口编程引脚（TX, RX, GPIO0, GND）通过杜邦线引到了一个便于插接的位置。因为人脸识别程序体积庞大，无法使用OTA（空中升级）功能，必须通过有线串口来烧录程序。提前规划好这个调试接口，能避免每次修改代码都要把机器大卸八块的麻烦。

3. 软件架构与关键代码实现

3.1 开发环境搭建与分区表定制

软件部分从搭建Arduino IDE开发环境开始。首先需要在“开发板管理器”中添加ESP32的开发板支持。这里有一个至关重要的细节：必须安装1.0.4版本的ESP32开发板包。更新的版本（如2.x）中某些库的变更可能会导致本项目依赖的人脸识别库编译失败。安装好后，选择“ESP32 Wrover Module”作为开发板。

接下来是最关键的一步：创建自定义分区表。ESP32的闪存空间需要被划分为不同的区域，用于存放程序代码（app）、文件系统（spiffs）、非易失性存储（nvs）等。标准的分区方案通常为OTA更新预留了空间（两个app分区），但我们的程序因为链接了人脸识别库，体积非常大，一个app分区就已经接近极限，根本没有空间再放第二个副本。因此，我们必须创建一个禁用OTA的单一大程序分区方案。

我创建了一个名为myPartitionForFR.csv的文件，内容如下：

# Name, Type, SubType, Offset, Size, Flags nvs, data, nvs, 0x9000, 0x5000, otadata, data, ota, 0xe000, 0x2000, app0, app, ota_0, 0x10000, 0x2F0000, spiffs, data, spiffs, 0x300000,0x100000,

这个方案将最大的连续空间（约3MB）分配给了app0分区。我们需要修改Arduino的配置文件，让这个分区表生效。找到boards.txt文件（通常在用户目录的Arduino15/packages下），在esp32wrover的配置段末尾添加：

esp32wrover.menu.PartitionScheme.myPartitionForFR=My FR partitioning - No OTA esp32wrover.menu.PartitionScheme.myPartitionForFR.build.partitions=myPartitionForFR esp32wrover.menu.PartitionScheme.myPartitionForFR.upload.maximum_size=2621440

重启Arduino IDE后，就可以在工具菜单的“Partition Scheme”中选择我们自定义的“My FR partitioning - No OTA”了。upload.maximum_size设置为2621440字节（2.5MB），这是对我们程序大小的一个软性限制提醒。

3.2 核心库依赖与功能任务划分

本项目需要引入几个重要的库：

ESP8266 and ESP32 OLED driver for SSD1306 displays：用于驱动OLED屏幕显示文本和图形。
PubSubClient：实现MQTT客户端功能，用于与Home Assistant等平台通信。
ArduinoWebSockets：用于在设备上创建WebSocket服务器，实现网页视频流和日志的实时推送。
ESP32 Camera和Face Recognition库：这是核心中的核心。前者提供了操作OV2640摄像头的统一接口，后者则包含了人脸检测和识别算法。通常需要从GitHub获取最新的相关库文件。

程序的主体结构基于FreeRTOS，这是ESP32内置的实时操作系统，允许我们方便地进行多任务管理。我将最消耗CPU资源的任务——人脸识别，单独分配到了一个任务（Task）中，并将其绑定到CPU Core 0上运行。这样做的目的是为了隔离高性能计算任务，避免它被其他琐碎事务（如网络处理、日志打印）阻塞。识别任务的基本流程是一个无限循环：从摄像头获取一帧图像 -> 进行人脸检测 -> 如果检测到人脸，则提取特征码 -> 与存储在Flash中的已知人脸特征码进行比对 -> 输出识别结果。

其他所有功能，包括Wi-Fi连接、MQTT通信、Web服务器、OLED刷新、光电电阻状态读取等，都放在另一个任务或setup/loop主循环中，它们主要运行在CPU Core 1上。通过合理的任务优先级设置和信号量等同步机制，可以确保系统响应流畅。

3.3 人脸识别流程与参数调优

人脸识别库的工作流程主要分两步：检测（Detection）和识别（Recognition）。检测阶段使用Haar级联分类器或类似算法在图像中框出人脸位置。识别阶段则对框出的人脸区域进行对齐，并输入到一个轻量级神经网络中，生成一个128维（或类似）的特征向量（也称为“人脸编码”）。

注册人脸时，系统会采集多张（例如5-10张）同一人的不同角度、表情的图片，分别生成特征向量，然后计算一个平均向量，并将其存入ESP32的Flash（如Preferences库或SPIFFS文件系统）中。识别时，将当前人脸的特征向量与存储的所有平均向量计算欧氏距离。距离越小，相似度越高。我们会设定一个阈值（如0.6），距离低于阈值则认为是同一个人。

参数调优是实战中的关键环节。在fr.recognize()函数或相关配置中，有几个关键阈值：

p_threshold：人脸检测的置信度阈值。调低它会让检测更敏感（在光线暗时也能检出），但也可能将非人脸物体误检为人脸。
r_threshold：识别阈值。这是最重要的参数。调低它（例如从0.8调到0.6）会放宽识别条件，让系统在光线不佳时也能认出你，但副作用是可能将相似的人误认为你（误识率升高）。对于糖果机这种非高安全场景，我倾向于适当调低（如0.65），以保证可用性。
o_threshold：可能是其他过滤阈值。需要根据实际库的文档进行调整。

我的经验是，在室内，确保人脸正面朝向摄像头，且光线均匀明亮，是保证识别率的基础。侧光、背光或光线过暗都会导致特征提取不准。可以在代码中添加一个环境光判断，如果太暗，可以通过OLED提示用户“光线不足”。

3.4 与Home Assistant的MQTT集成

为了让控制更便捷，我通过MQTT协议将糖果机接入了Home Assistant。ESP32作为MQTT客户端，连接到家庭内部的MQTT服务器（如Mosquitto）。它定期发布“心跳”消息到一个主题（如candy_dispenser/status），让HA知道设备在线。同时，它订阅一个命令主题（如candy_dispenser/command）。

在Home Assistant中，我创建了以下几个关键的实体：

一个二进制传感器：其状态由设备的心跳消息更新。如果超时未收到心跳，则显示为“离线”。这对于调试和监控非常有用。
多个按钮：每个按钮被按下时，HA会向candy_dispenser/command主题发布一条预定义的命令消息。例如：
- {"cmd":"enroll", "id":"primary"}：注册当前人脸为主用户。
- {"cmd":"delete", "id":"secondary"}：删除备用用户的人脸数据。
- {"cmd":"mode", "value":"normal"}：切换到正常识别模式。
- {"cmd":"debug", "value":"on"}：开启调试日志。

在ESP32的代码中，需要在MQTT回调函数里解析这些JSON格式的命令，并执行相应的操作。例如，收到注册命令后，系统会进入“学习模式”，采集当前摄像头前的人脸并存储。这种方式，使得通过手机上的HA App或者家里的智能面板来控制糖果机变得非常简单优雅，完全脱离了物理按钮的束缚。

4. 组装、调试与故障排查实录

4.1 机械组装与布线要点

组装过程需要耐心和细心。首先，完全拆解糖果机，熟悉其内部结构，特别是电机、红外对管和主控板的位置。用热熔胶将继电器固定在电机附近的塑料壳体上，注意不要妨碍齿轮转动。切断电机的一根电源线（用万用表确认哪一根是正极或负极，切断任意一根即可），将两截线头分别接在继电器的COM和NO端子上。

将LDR用热熔胶固定在原机状态LED的正上方，确保位置精准，并用导线将其与一个10kΩ的上拉电阻组成分压电路，连接到ESP32-CAM的一个ADC引脚（例如GPIO 15）。在底座上为OLED屏幕开方孔时，建议先用小钻头打一圈孔，再用锉刀修平，这样比直接用刀割更整齐。

布线是最大的挑战。建议使用不同颜色的杜邦线，并提前做好标签。电源线（5V， GND）务必足够粗（例如22AWG）。信号线可以细一些。将所有需要引出的线（摄像头、OLED的I2C线、LDR模拟线、继电器控制线、串口调试线）整理好，从电机盖板（Cover A）的预留孔穿出。在最终固定ESP32-CAM和摄像头之前，先规划好位置。OV2640的排线很短，通常只有10cm左右，这限制了摄像头的安装位置。我选择将ESP32-CAM主板贴在机器内壁，摄像头则用热熔胶固定在前面板内侧，镜头对准出糖口前方的区域。确保镜头前方没有塑料遮挡，如果有，需要小心地开一个透明窗或钻孔。

4.2 软件烧录与初始配置

硬件连接检查无误后，开始第一次烧录程序。使用FTDI串口模块（或类似的USB转TTL模块），将其VCC设为5V，然后按照以下顺序操作：

用杜邦线连接FTDI的TX->ESP32的RX， RX->ESP32的TX， VCC->5V， GND->GND。
关键一步：用一根跳线或镊子，将ESP32-CAM上的GPIO0引脚与GND引脚短接。这是让芯片进入“下载模式”的开关。
在保持GPIO0与GND短接的状态下，按下ESP32-CAM板上的复位（RST）按钮。
此时，在Arduino IDE中选择正确的端口，点击上传。
上传完成后，断开GPIO0与GND的短接，再次按下复位按钮，程序开始运行。

首次启动时，设备会尝试连接你在代码中预设的Wi-Fi网络。如果成功，OLED屏幕会显示IP地址。此时，它很可能处于“等待注册人脸”的模式。你可以通过访问http://[设备IP]来打开内置的Web服务器，查看实时视频流和日志。更推荐的方式是使用Home Assistant发送注册命令。

4.3 常见问题与解决方案速查表

在实际开发中，我遇到了不少坑，这里总结成表格，方便大家快速排查：

问题现象	可能原因	排查步骤与解决方案
编译错误，提示内存不足或分区太大	1. 未使用自定义分区表。 2. 开发板包版本不对。	1. 确认已在Arduino IDE中选择了“My FR partitioning - No OTA”。 2. 将ESP32开发板包降级至1.0.4版本。
上传程序失败，提示“连接超时”或“芯片同步错误”	1. GPIO0未在下载时接地。 2. 串口驱动问题或线缆接触不良。 3. 供电不足。	1. 严格遵循“短接GPIO0与GND -> 复位 -> 上传 -> 断开短接 -> 复位”的流程。 2. 更换USB线或串口模块，检查杜邦线连接。 3. 尝试通过USB单独为ESP32-CAM供电，而非通过FTDI模块供电。
设备不断重启，串口提示“Brownout detector was triggered”	电源电压不稳定，电机启动时造成瞬间压降。	1. 在ESP32的5V和GND引脚间并联一个100-470μF的电解电容。 2. 使用输出电流更足（如2A）的5V USB电源适配器。 3. 检查所有电源接头是否焊接或插接牢固。
Wi-Fi连接不稳定或无法连接	1. 天线接触不良（ESP32-CAM板载PCB天线或外接天线）。 2. 芯片本身射频性能问题。	1. 确保板载天线区域（金色的蛇形线）没有被金属外壳遮挡。如果使用外接天线，确保IPEX接头插紧。 2.这是一个我踩过的大坑：我曾遇到一个ESP32-CAM模组，无论如何调整天线、电容，Wi-Fi都极差。更换另一个同型号模组后问题消失，判断为个别芯片硬件缺陷。
人脸检测不到或识别率极低	1. 环境光线太暗。 2. 摄像头分辨率或图像质量设置不当。 3. 识别阈值设置过于严格。	1. 将设备放置在光线充足处，避免逆光。 2. 在代码中尝试降低摄像头分辨率（如`FRAMESIZE_QVGA`），并调整图像对比度、饱和度等参数。 3. 适当调低`r_threshold`参数值（在代码中搜索并修改）。
手部接近检测（LDR）不灵敏	1. LDR与LED对位不准。 2. ADC读取的阈值设置不合理。 3. ESP32的ADC2与Wi-Fi冲突。	1. 重新调整LDR位置，确保其正对LED。 2. 在串口监视器中打印出`analogRead`的原始值，观察手部遮挡前后数值的变化范围，据此调整代码中的判断阈值。 3.重要：ESP32的ADC2在Wi-Fi启动后无法使用。如果你的LDR接在了ADC2的引脚上（如GPIO12, 13, 14…），需要修改代码，在每次读取ADC前临时关闭Wi-Fi，读完后立即打开。或者，更简单的方法是将LDR换到ADC1的引脚（如GPIO32, 33, 34, 35, 36, 39）。
电机不动作，但识别和手部检测都正常	1. 继电器控制电路问题。 2. 继电器模块驱动逻辑不对。	1. 用万用表检查继电器线圈是否得电（控制引脚是否为高电平），触点是否导通。 2. 常见继电器模块是低电平触发还是高电平触发？确认你的代码控制逻辑与之匹配。通常`digitalWrite(pin, HIGH)`是吸合。
Web页面视频流卡顿或无法打开	1. 网络带宽或干扰。 2. ESP32单核处理能力瓶颈。	1. 确保设备与路由器距离不要太远。 2. 视频流传输非常消耗资源。如果非必要，可以在最终代码中注释掉Web服务器任务创建的代码，以释放CPU和内存资源给核心的识别任务。

4.4 功能优化与使用心得

经过一段时间的运行和调试，我总结出几点让设备更好用的优化建议：

关于糖果的选择：最初我用的软糖，结果发现它们容易粘连，有时会一次掉出一大把，有时又卡住不出。后来换成了表面光滑、形状规则的巧克力豆或硬糖，分发的一致性大大提高。也不要将糖果仓填得太满，给糖果之间留出流动的空间。

识别逻辑的细化：基础的“识别即发放”逻辑可以扩展。例如，在代码中为每个注册的用户添加一个“今日已领取次数”的计数器，结合ESP32的RTC或通过NTP获取网络时间，实现每日限额功能。数据可以存储在Preferences库中，即使断电也不会丢失。

功耗与性能平衡：如果希望更省电，可以让人脸检测任务间歇性运行，例如工作1秒，休眠2秒。在休眠期间，可以关闭摄像头模组。当光电电阻检测到手部接近时（这是一个低功耗的中断唤醒信号），再立刻全速启动识别流程。这样能在保持响应性的同时降低平均功耗。

增加反馈机制：除了OLED显示，还可以增加一个蜂鸣器或RGB LED。识别成功时发出悦耳的提示音或亮绿灯，识别失败或未注册时给出不同的声光提示，体验会更加友好。

这个项目从构思到实现，是一个典型的嵌入式系统开发全流程实践，涉及硬件集成、底层驱动、算法应用、网络通信和上层交互。它最吸引我的地方在于，用一个成本可控、体积小巧的设备，实现了端侧智能。所有的数据处理都在本地完成，没有隐私上传的担忧，响应速度也快。看到它准确识别出家人并愉快地“款待”，而对外卖小哥则毫无反应时，那种技术带来的精准和趣味性，正是创客精神的体现。希望这份详细的记录，能帮助你绕过我踩过的那些坑，顺利打造出属于你自己的、有“眼力见儿”的智能小装置。