• 快速索引 | 论文笔记清单

    音频编解码 SoundStream: [链接] Encodec: [链接] AudioLM 系列 AudioLM: [链接] MusicLM SingSong VALL-E VALL-EX 生成模型:GAN GAN 的基础(一): [链接]
  • 开篇 | RevoSpeech 智能语音工作指南

    智能语音是当今科技发展的热门方向之一。随着人工智能技术的不断进步,智能语音技术日趋成熟,在各个领域的应用也在不断增多,目前已在语音搜索、智能家居、语音助理等多个领域得进行落地,并且随着元宇宙、AIGC 等新产业的兴起焕发出新的活力。RevoSpeech 旨在推动智能语音的落地和普及,基于学术界近十年在语音处理、语音识别、语音合成等方向的技术突破,总结归纳智能语音的技术要点...
  • 生成模型基础 | GAN 的基础(一)

    生成对抗网络(GAN,Generative Adversarial Nets)是 Yoshua Bengio 团队在 2014 年提出的,一作是 Ian Goodfellow。Yoshua Bengio 团队坚持认为:深度学习的目标是发现更丰富、更加层次化的模型,能够用来表示各种数据的概率分布。2014 年时,深度学习方法在判别式模型方面已经有很多突出的成果,用于将高维输...
  • 音频生成 | 基于语言建模的 AudioLM

    音频生成(Audio Generation)是最近非常热门的方向,是AIGC的具体应用之一。相比于语音,音频包含的意义更广泛,不仅包含语音识别/语音合成所针对的人说话声,还包括音乐声、环境声、动物声等各种各样的声音。 本文介绍 2022 年 9 月份 Google 提出的 AudioLM,将语言建模的思想应用在音频生成任务上,能够生成高质量的音频,并保持音频长时间范围的连...
  • 音频编解码 | Encodec

    Encodec 是 Meta AI 于 2022 年 10 月份发表的神经网络音频编解码方法,具有比之前 Google 的 SoundStream 更优的效果。思想上和 SoundStream 几乎没有差别,沿用了 Encoder-Decoder 结构和 VQ 向量量化方法。本文对 Encodec 与 SoundStream 一致的部分不予赘述,只分析相关的改进部分。SoundStream 的论文解读详见链接

  • 音频编解码 | SoundStream

    SoundStream 是谷歌 2021 年提出的一种神经网络音频编解码器,能够在传统编解码器通常使用的比特率下,高效地压缩语音、音乐等各类音频,SoundStream 在音频压缩、音频降噪及音频生成(比如 Google 2022 年 9 月提出的 AudioLM 和 2023 年 1 月提出的 MusicLM)等任务中都有所应用。本文对 SoundStream 的原始论文进行分析和解读。

  • 数据集 | 开源语音数据库汇总

    This is a curated list of open speech datasets for speech-related research (mainly for Automatic Speech Recognition). Over 110 speech datasets are collected, and more than 70 datasets can be downloaded directly without further registration or application.