本套课程主要围绕本地语音paddlespeech的介绍与讲解。本课程将带来本地化语言合成语音识别的服务器部署课程,缩短与大厂的距离,站上同一起跑线,紧跟AI浪潮。人宅老师会详细讲解如何部署语音合成语音识别大模型 UE5如何封装和语音识别和语音合成接口,以及如何通过websocket接通流式语音识别和语音合成。
课程信息
教学总时长约7小时,使用软件:unreal engine。
适用行业:游戏引擎;难易度:高级。
交流答疑
对于课程内容相关的疑问,提供有交流群,不但可以在群里与同学交流,分享资料,与教程内容有关的技术问题还可以进入答疑专区寻求帮助。老师一般会在2个工作日内为您解答。
课程目录
第一章:PaddleSpeech基础
0101_本地部署PaddleSpeech
0102_python实现语音合成
0103_python实现语音识别
0104_声音分类
0105_声纹提取
0106_标点恢复
第二章:HTTP精简架构
0201_准备UE模块环境
0202_创建基础接通文件
0203_创建HTTP框架
0204_HTTP通用请求
第三章:定义请求和响应结构
0301_构建PaddleSpeech管理单例
0302_定义语音识别的请求和响应结构
0303_定义语音合成的请求和响应结构
0304_定义语音合成的流式请求
0305_定义语音分类的请求和响应
0306_定义文本处理的响应
0307_日志的错误反馈
第四章:Json解析
0401_Json序列化语音识别请求和响应
0402_Json序列化语音合成请求和响应
0403_Json序列化语音合成流式请求
0404_Json序列化语音分类请求和响应
0405_Json序列化文本后处理响应
0406_Json最后调整
第五章:HTTP打通PaddleSpeech
0501_封装语音合成请求
0502_封装语音合成响应代理
0503_测试语音合成蓝图API
0504_语音识别请求代码架构
0505_语音识别服务器测试
0506_解决语音识别服务器报错问题
0507_整合语音分类
0508_整合文本处理
0509_http流式语音合成整合
第六章:WebSocket流式语音识别
0601_websocket环境搭建
0602_websocket结构应用
0603_架构ASR服务器对接的Websocket框架
0604_ASR语音识别websocket协议分析
0605_websocket语音识别和语音合成架构
0606_封装websocket语音识别调用API
0607_定义请求和响应的json结构
0608_发送PCMBuffer到websocket服务器
0609_websocektASR语音识别测试
第七章:WebSocket流式语音合成
0701_演示websocket流式语音合成
0702_UE的websocket流式框架和API
0703_分析tts-websocket流式协议
0704_定义tts-websocket请求和响应结构
0705_UE处理websocket协议
0706_将流式语音合成暴露到蓝图
0707_测试UE版websocket流式语音合成
0708_测试UE版HTTP的流式语音合成
第八章:自定义服务器
0801_ASR语音识别流式服务器配置和启动
0802_标点符号预测服务器配置和启动
0803_语音合成服务器配置和启动
0804_多服务器配置和启动
0805_客户端的命令测试
第九章:声音训练和克隆
0901_音频数据采集
0902_线上v100-32G训练
0903_训练后的模型如何使用
DLC:番外篇
DLC01_介绍一下番外篇
DLC02_启动HTTP和WebSocket服务器
DLC03_Websocket麦克风流式语音识别
DLC04_Websocket流式语音合成
DLC05_HTTP的语音合成
DLC06_HTTP的合成
DLC07_HTTP的流式语音合成
DLC08_HTTP语音分类
DLC09_HTTP文本处理
DLC10_关于插件代码使用方面内容
多端支持
课程支持ios及Android端设备播放,您只需要登录各大手机应用平台,搜索“ABOUTCG学院“下载安装应用。
课程要求
本教学需要您对基础的3D概念和术语有一定的了解,比如Polygon,Edge,FaceAxis,Space,Map等。