8、开发与大模型对话的独立语音设备

时间:2024-07-09 06:59:42

一、设计原理

该系统的核心部分主要由ESP32-WROVER开发板和ESP32-CAM摄像头、MAX9814麦克风放大器模块、MAX98357功放、声音传感器和SU-03T语音识别芯片构成。通过使用ESP32-WROVER开发板,用户可以实现通过语音与ai进行交互并进行人脸识别。
系统中,从外部输入电源中获取电源,经过稳压处理,给整个模组供电,ESP32-WROVER主要用来控制整个系统,该设备通过声音传感器实时监听,当声音强度超过阈值后,接收来自MAX9814的语音信号采样值,进行数据处理,得到pcm音频的Base64编码字符串,然后通过ESP32-WROVER自带的wifi模块将pcm音频通过http请求发送至服务器,从响应中获取到ai回复后的音频,再通过MAX98357播放ai回复的音频,从而实现与ai实时语音交互。
人脸识别通过SU-03T监听唤醒词,设备唤醒后,控制ESP32-CAM摄像头开始拍照,在ESP32-CAM中将jpeg格式图片进行base64编码成字符串,通过串口传给ESP32-WROVER主控芯片。ESP32-WROVER通过自带的wifi模块将图片通过http请求发送至服务器,在服务器中进行人脸检测,若是认识的则回复招呼语句,若是陌生人则进行人脸绑定。

二、电路原理图及硬件配置

硬件配置:ESP32-WROVER开发板、ESP32-CAM摄像头、MAX9814音频放大模块、MAX98357音频功放模块、声音传感器、SU-03T语音识别模块。
整体硬件原理图:

实物实现图: