快速索引 | 论文笔记清单
音频编解码 SoundStream: [链接] Encodec: [链接] AudioLM 系列 AudioLM: [链接] MusicLM SingSong VALL-E VALL-EX 生成模型:GAN GAN 的基础(一): [链接]开篇 | RevoSpeech 智能语音工作指南
智能语音是当今科技发展的热门方向之一。随着人工智能技术的不断进步,智能语音技术日趋成熟,在各个领域的应用也在不断增多,目前已在语音搜索、智能家居、语音助理等多个领域得进行落地,并且随着元宇宙、AIGC 等新产业的兴起焕发出新的活力。RevoSpeech 旨在推动智能语音的落地和普及,基于学术界近十年在语音处理、语音识别、语音合成等方向的技术突破,总结归纳智能语音的技术要点...生成模型基础 | GAN 的基础(一)
生成对抗网络(GAN,Generative Adversarial Nets)是 Yoshua Bengio 团队在 2014 年提出的,一作是 Ian Goodfellow。Yoshua Bengio 团队坚持认为:深度学习的目标是发现更丰富、更加层次化的模型,能够用来表示各种数据的概率分布。2014 年时,深度学习方法在判别式模型方面已经有很多突出的成果,用于将高维输...音频生成 | 基于语言建模的 AudioLM
音频生成(Audio Generation)是最近非常热门的方向,是AIGC的具体应用之一。相比于语音,音频包含的意义更广泛,不仅包含语音识别/语音合成所针对的人说话声,还包括音乐声、环境声、动物声等各种各样的声音。 本文介绍 2022 年 9 月份 Google 提出的 AudioLM,将语言建模的思想应用在音频生成任务上,能够生成高质量的音频,并保持音频长时间范围的连...音频编解码 | Encodec
Encodec 是 Meta AI 于 2022 年 10 月份发表的神经网络音频编解码方法,具有比之前 Google 的 SoundStream 更优的效果。思想上和 SoundStream 几乎没有差别,沿用了 Encoder-Decoder 结构和 VQ 向量量化方法。本文对 Encodec 与 SoundStream 一致的部分不予赘述,只分析相关的改进部分。SoundStream 的论文解读详见链接。
音频编解码 | SoundStream
SoundStream 是谷歌 2021 年提出的一种神经网络音频编解码器,能够在传统编解码器通常使用的比特率下,高效地压缩语音、音乐等各类音频,SoundStream 在音频压缩、音频降噪及音频生成(比如 Google 2022 年 9 月提出的 AudioLM 和 2023 年 1 月提出的 MusicLM)等任务中都有所应用。本文对 SoundStream 的原始论文进行分析和解读。
数据集 | 开源语音数据库汇总
This is a curated list of open speech datasets for speech-related research (mainly for Automatic Speech Recognition). Over 110 speech datasets are collected, and more than 70 datasets can be downloaded directly without further registration or application.
Revive and Evolve
Towards the Future