A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统
阿里语音团队开源的文字转语音项目,3秒钟克隆一个人的声音,情绪还原度太强了。企鹅裙:373034592
hatTTS是专门为对话场景设计的文本转语音模型,例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。在HuggingFace中开源的版本为4万小时训练且未SFT的版本.
AI拟声: 克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time
基于websocket实现浏览器端文本、视频、语音的即时通讯,以及实时语音转文字
Easy-to-use Speech Toolkit including SOTA ASR pipeline, influential TTS with text frontend and End-to-End Speech Simultaneous Translation.