基于深度学习的中文语音识别模型（支持wav、mp4、m4a等所有格式音频上传）

前言

该开源项目旨在提供一个能够自动检测并识别中文语音的模型，支持wav、mp4、m4a等格式的音频文件上传。无论是从录音设备中获取的wav文件，还是从视频中提取的mp4、m4a文件，我们的模型可以准确识别其中的中文文字内容。通过集成最先进的语音识别技术和深度学习算法，我们的模型能够快速、准确地将声音转换为文字，为用户提供便捷的语音识别体验。

主要功能：

支持多种常见音频格式，包括wav、mp4、m4a等。
实现中文语音自动检测和识别，识别准确率高。
提供简单易用的接口，方便开发者集成到自己的应用程序中。

✨ 中文音频测试：

测试音频文件下载（提供一个.m4a格式的中文人声音频）：

百度网盘分享的文件
链接：https://pan.baidu.com/s/1G4TxBwAFO2va34H7AY5iYQ?pwd=plmg 
提取码：plmg

百度网盘分享的文件
链接：https://pan.baidu.com/s/1Db0rSxh7cgsVG1-w7Uc0bw?pwd=touc 
提取码：touc

下载model文件后，内含三个model开头的.pt文件，请将model_Ct_punc.pt文件_Ct_punc部分删除后（即文件名改为model.pt）放在Ct_punc文件目录下。

同理将另外两个带后缀的模型下载后删除_Ct_punc部分后分别放在其对应的文件目录下

环境配置（推荐使用conda安装环境）

# 从github上Clone项目
git clone https://github.com/zxx1218/voice_translation.git

# 使用conda创建环境
conda create -n py310 python=3.10
conda activate py310

# cd到算法根目录下
cd speech_recognition

# 在根目录下安装依赖
pip install -r requirements.txt

如果您的显卡支持cuda 11.7及以上，可以直接使用conda导出的yaml文件一次性安装全部环境

# cd到算法根目录下
cd speech_recognition

# 安装conda导出的环境
conda env create -f environment.yml

# 激活环境
conda activate modelscope

测试音频文件准备好后放在speech_recognition/datasets目录下，然后开始执行测试，识别结果将打印在控制台

python voice_translation_test.py

测试音频截图👇

附

目前现存的中文音频翻译模型普遍存在标点符号的缺失问题，如果您需要中文标点符号添加请访问这篇CSDN文章，文章内提供一个中文标点重建的轻量级模型👇 基于深度学习的中文语音识别模型（支持wav、mp4、m4v格式音频上传）--提供源码和经训练的模型【已开源】

作者联系方式：

VX：Accddvva
QQ：1144968929

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Ct_punc		Ct_punc
Endpoint_detection		Endpoint_detection
Voice_translation		Voice_translation
datasets		datasets
README.md		README.md
environment.yaml		environment.yaml
punctuation_prediction_test.py		punctuation_prediction_test.py
requirements.txt		requirements.txt
voice_translation_test.py		voice_translation_test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基于深度学习的中文语音识别模型（支持wav、mp4、m4a等所有格式音频上传）

前言

✨ 中文音频测试：

附

作者联系方式：

About

Releases

Packages

Languages

zxx1218/voice_translation

Folders and files

Latest commit

History

Repository files navigation

基于深度学习的中文语音识别模型（支持wav、mp4、m4a等所有格式音频上传）

前言

✨ 中文音频测试：

附

作者联系方式：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages