RevoSpeech

Revive and Evolve

Towards the Future

快速索引 | 论文笔记清单
音频编解码 SoundStream: [链接] Encodec: [链接] AudioLM 系列 AudioLM: [链接] MusicLM SingSong VALL-E VALL-EX 生成模型：GAN GAN 的基础（一）: [链接]
2023-05-28
- 论文笔记
阅读全文
开篇 | RevoSpeech 智能语音工作指南
智能语音是当今科技发展的热门方向之一。随着人工智能技术的不断进步，智能语音技术日趋成熟，在各个领域的应用也在不断增多，目前已在语音搜索、智能家居、语音助理等多个领域得进行落地，并且随着元宇宙、AIGC 等新产业的兴起焕发出新的活力。RevoSpeech 旨在推动智能语音的落地和普及，基于学术界近十年在语音处理、语音识别、语音合成等方向的技术突破，总结归纳智能语音的技术要点...
2023-05-28
- 技术思考
- 语音合成
- | 语音识别
阅读全文
生成模型基础 | GAN 的基础（一）
生成对抗网络（GAN，Generative Adversarial Nets）是 Yoshua Bengio 团队在 2014 年提出的，一作是 Ian Goodfellow。Yoshua Bengio 团队坚持认为：深度学习的目标是发现更丰富、更加层次化的模型，能够用来表示各种数据的概率分布。2014 年时，深度学习方法在判别式模型方面已经有很多突出的成果，用于将高维输...
2023-05-28
- 论文笔记
- 语音合成
- | 生成模型
- | 声码器
阅读全文
音频生成 | 基于语言建模的 AudioLM
音频生成（Audio Generation）是最近非常热门的方向，是AIGC的具体应用之一。相比于语音，音频包含的意义更广泛，不仅包含语音识别/语音合成所针对的人说话声，还包括音乐声、环境声、动物声等各种各样的声音。本文介绍 2022 年 9 月份 Google 提出的 AudioLM，将语言建模的思想应用在音频生成任务上，能够生成高质量的音频，并保持音频长时间范围的连...
2023-05-28
- 论文笔记
- 音频生成
- | 语音合成
阅读全文
音频编解码 | Encodec
Encodec 是 Meta AI 于 2022 年 10 月份发表的神经网络音频编解码方法，具有比之前 Google 的 SoundStream 更优的效果。思想上和 SoundStream 几乎没有差别，沿用了 Encoder-Decoder 结构和 VQ 向量量化方法。本文对 Encodec 与 SoundStream 一致的部分不予赘述，只分析相关的改进部分。SoundStream 的论文解读详见链接。
2023-05-28
- 论文笔记
阅读全文
音频编解码 | SoundStream
SoundStream 是谷歌 2021 年提出的一种神经网络音频编解码器，能够在传统编解码器通常使用的比特率下，高效地压缩语音、音乐等各类音频，SoundStream 在音频压缩、音频降噪及音频生成（比如 Google 2022 年 9 月提出的 AudioLM 和 2023 年 1 月提出的 MusicLM）等任务中都有所应用。本文对 SoundStream 的原始论文进行分析和解读。
2023-05-28
- 论文笔记
- 音频生成
- | 音频编解码
阅读全文
数据集 | 开源语音数据库汇总
This is a curated list of open speech datasets for speech-related research (mainly for Automatic Speech Recognition). Over 110 speech datasets are collected, and more than 70 datasets can be downloaded directly without further registration or application.
2023-05-28
- 数据集
- 语音合成
- | 语音识别
阅读全文

快速索引 | 论文笔记清单

开篇 | RevoSpeech 智能语音工作指南

生成模型基础 | GAN 的基础（一）

音频生成 | 基于语言建模的 AudioLM

音频编解码 | Encodec

音频编解码 | SoundStream

数据集 | 开源语音数据库汇总