type
status
date
slug
summary
tags
category
icon
password
上次编辑时间
Nov 4, 2024 06:52 AM
论文汇总(做了一些标注)
模型评估标准
峰值信噪比是一个重要的评价参数,用于衡量图像的质量和噪声水平。FID是计算真实图像和生成图像的特征向量之间距离的一种度量。LMD是用于评估面部图像生成质量的指标,它用于度量生成的面部图像与真实面部图像之间的面部特征点的距离,以衡量生成的面部图像与真实面部图像之间的相似性。
实际训练
所给的显卡资源无法训练部分项目。以Hallo为例,所需的环境为Ubuntu20.04及以上,显卡需要3090及以上(显存8G及以上)
1.Hallo/Hallo2
产品效果不错:动作丰富质量高,呈现效果较wav2lip佳,支持头部姿态控制
缺点:运行时间长,图片必须呈正方形;原版只支持英文.不支持长视频(60s左右分辨率会降低)。在某些测试情况下,并没有按照音频的时长来生成视频
优点:稳定且实时的具有泛化音频-唇形同步功能
首先想自己获得May数据集,但因为HUBERT这个模型在该服务器上无法访问(在huggingface上),故采取下载预训练的模型(链接见下)的做法。(训练的过程比较耗时,4090显卡两个模型都训练完大概需要十几个小时)但在推理测试/命令行推理时出现以下错误
因为版本冲突问题无法安装pytorch3d,所以不能进行训练。可以采用colab等方式进行演示。
3.wav2lip
使用LRS2数据集和训练好的唇音同步鉴别器用于训练,发现测试过程中的sync_loss一直难以降到0.75以下,从而导致训练过程sync_loss一直不参与训练,训练失败。
具有技术突破性,但是因为年代较前,性能方面不及Genfaceplusplus.
- Author:Waang Rui
- URL:https://atrionline.me//article/audio-driven-first-week
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!