type
status
date
slug
summary
tags
category
icon
password
上次编辑时间
Nov 4, 2024 05:00 AM
什么是语音模型里的全双工?
全双工(Full-duplex)在语音模型中指的是一种能够同时进行语音输入和输出的通信模式。这意味着模型可以在听取用户说话的同时也能够进行回应,类似于人类之间的自然对话。这种技术对于创建更加流畅、自然的语音交互体验至关重要,尤其是在语音助手和实时语音翻译等应用中。
主要突破:
语音段落划分:不同发言者的讲话部分分开
重叠的语音:多个说话者同时说话
打断和插话:插入自己的评论
关键点
因果关系
因果卷积:确保输出的当前时刻仅依赖于当前及之前时刻的输入.Mimi使用蒸馏将非因果的高级语义信息转移到因果模型生成的标记中
语义量化器和声学量化器
语义量化器:在量化过程中,它会提取语音中与语义相关的高层次特征。这部分是通过与一个自监督语音模型进行知识蒸馏得到的
声学量化器:其他的量化层(一共七层)设计为残差量化层,用于捕捉与声音细节相关的低层次声学信息
RQ-transformer
包含一个 时间 Transformer,与论文中描述的 Helium 的架构相同, 以及一个更小的 深度 Transformer。
为了对来自Moshi和用户的音频流以及Moshi的文本token进行联合建模,采用与流式推理兼容的depth transformer,来自Helium的文本token作为depth transformer的输入引导语义和声学token的生成。
Mimi 数据流处理与生成过程
mimi数据流处理
生成的音频块开始时包括1920个音频样本点,经过编码后产生了8个token,经过mimi.encode后生成了9个tokens,其中第1个为text tokens,包含了token ID.此ID可用于此后的append text生成文本。
mimi数据流生成
将24kHz的音频波形通过4个跨步因子为(4,5,6,8)的卷积块以及最终的步长为2的1D卷积,得到12.5Hz的音频帧(接近text tokens的生成帧率),添加至Transformer.再使用Q=8个量化器,每个量化器具有的码本大小.其中第一个量化器用于语义生成,其余量化器用于补充声学信息, 之后的transformer将文本流W插入为V中的第一个子序列,使其充当语义符元生成的词缀,再对齐文本和音频符元
正在进行的工作
不连接后面的神经解码器部分,转而使mimi输出音频向量与gaussian avatar的骨骼绑定对齐,实现Audio driven talking-head实现唇动和面部动作、表情生成。
- Author:Waang Rui
- URL:https://atrionline.me//article/moshi
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts