【AI视频生成神器!让老外说中文,口型自然,不限语言,多用途,还不快来试试!(懒羊羊唱歌也可以)】萍聚社区-德国热线-德国实用信息网学习小组

新闻发表于 2023-11-17 04:37

AI视频生成神器!让老外说中文,口型自然,不限语言,多用途,还不快来试试!(懒羊羊唱歌也可以)

作者：晨夕驿站
第一种：直接使用现成网站（heygen）

AI视频生成网站：

HeyGen - AI Video Generatorwww.heygen.com/

只有一次机会可以免费生成一个一分钟之内的视频，这个网站我不过多讲解，可以看一下下面这个视频的效果：

原视频来源于展亚鹏先生。
第二种：本地生成（通过开源项目）

所需工具：

Whisper语音转文字：

Release Version 1.8.1 · Const-me/Whisper (github.com)github.com/Const-me/Whisper/releases/tag/1.8.1

AI声音克隆 :

So-VITS-SVC（显存超过6GB使用）

链接：提取码：97kr

https://pan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97krpan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97krpan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97kr

一键生成对口型视频！Wav2Lip离线版：

https://www.freedidi.com/10734.htmlwww.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbHdROVFGSU1hV3h0MW1MbzZVT3FsamZidDh1QXxBQ3Jtc0ttYkRjZWpNdW5wd0VOVEZ1cUQxMFNLRDgwVy1UcGRVcy1DeWtyZWkxbnpmUFlaYkF1WHhNVTMtMHNKQV9NY3ZBbW9iZ0pWNDI0cS15TVpENF91WEh1aFlibjBWYjF0NWlCQ2o1WlgxZURZbHdfa0w5bw&q=https%3A%2F%2Fwww.freedidi.com%2F10734.html&v=N3CTgtz3GMc
1.Whisper（生成字幕稿）

（1）打开链接，下载下图压缩包，解压

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEgXgVlDphXyegbze95zheeMW9bcichHj2GyfHQlCYLUo7Ug4U7ZHUXyQ/640?wx_fmt=jpeg

（2）下载模型，打开该网址ggerganov/whisper.cpp at main，下载ggml-medium.bin模型

打开Whisper软件，添加模型位置，点击ok

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xECxBtXwUBPqLevC8UKiafLPGNxGGp06d181tAprufteic40Vha2iamT33g/640?wx_fmt=jpeg

（3）准备语音文件，越清晰越好，提取出文字

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEC3glDGjxAO6wzbbibRbHlr2vZ5y0cLficGZUSrr6MgZXrDxtEjI9ibvfA/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE777UklibEvqAe4CC8jeK2VNAyE36RHwic6er3O0rWABZx6XwlPREicabg/640?wx_fmt=jpeg

（4）翻译成英文

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xECpNTC8zu15IxZp2KL7SK0bZic1ibM4cVruhYTE04pHzCEuFfQyh9Gltg/640?wx_fmt=jpeg

2.AI 声音克隆！堪称翻唱神器，文字转语音、语音转换，！So-VITS-SVC 使用教程

（1）提取So-VITS-SVC

链接：

https://pan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97krpan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97kr

提取码：97kr
（2）打开UVRS文件夹，打开安装软件（可以很清晰的分离人身和伴奏）

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEENgYQyRUn4A0obS8giawAW7YFibnqicQ8kVdUy75EHemicISRPQsKF7cyQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEAXwo8QQIHLxTVhXicGzF7GwVoX43j0aToQibSEeKARCiarExRa6iaWePww/640?wx_fmt=jpeg

安装完成之后，解压模型

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE8GCIIGYpIWa0kYw0OZYcybyzCd0dcDoPRf5OaoibyjibG49nvzTwZm7g/640?wx_fmt=jpeg

使用UVRS，选择输入文件夹，输出文件夹，下面步骤按照下图

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE8qJHBoeTQTuGnhBxhQgU6Dg6Pv1oHBweq6MzrZaCeAibAwrVESS9FFA/640?wx_fmt=jpeg

第一步分离伴奏

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEklv17t2VgwKkCvUt2lKp7f2FeIjjfzCuswEAQV4d6SfWmDMBvQn43A/640?wx_fmt=jpeg

第二步消除混响和声

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xERIkD2QiaJZGvP2VGBp6HuAF3iawl21Clpibvib2gdicmINjEbgq6XCRA9Jg/640?wx_fmt=jpeg

（3）准备数据集

可以去网上下载视频，用上面的工具分离人声，最好不低于30分钟

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEk4Y5n33TnsPp5vWIHh0L5JXfuqVf1NNwiaGbmGM0qXaF2ICPGn7uXsQ/640?wx_fmt=jpeg

把音频文件重命名（不然后面训练会出错），下载重命名工具，解压，拉到文件夹下，双击打开

https://www.freedidi.com/wp-content/uploads/2023/06/%E6%89%B9%E9%87%8F%E9%87%8D%E5%91%BD%E5%90%8D.rarwww.freedidi.com/wp-content/uploads/2023/06/%E6%

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE7n2xicdJA6CjAUmWKFuZneEFvTPfFekmsQ1SCAGplQrFtyYDAWepc2A/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEVILqeicPOWYGic1F8vU3WV7cf9tvBkYRlOyJOQJ5CmicfuTDXuqttCUOQ/640?wx_fmt=jpeg

（4）音频切片

Audio Slicer 进行音频分割切片，每段长度最好别超过7秒

位置: ....\So-VITS-SVC\Audio Slicer（音频切分）\slicer-gui,解压缩，打开，找到运行程序文件

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEdL9p2LAiagnVYEXOFVZDmc68rfQSg2VGlicXBg1aBsCGs1JBmvjhQuXg/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE1XIP0yLia9kxCGfrvo1I8JUGiaNibibHlZZu2YcLibfAAlfU7MiapwNKv1FA/640?wx_fmt=jpeg

选择输出文件夹，把准备好的音频拖进去，点击start，查看基本不要超过16秒就好，重命名

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xESXPVBI6pWicYpvfaXxxEND47ejyD2ibLWp1VE055F2Wn9clPuhoYbypA/640?wx_fmt=jpeg

（5）运行So-VITS-SVC进行训练（显存超过6GB使用）

位置：..\So-VITS-SVC\新版整合包\so-vits-svc，打开，切好的音频文件夹放入根目录的 dataset_raw 下

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEu6pbThtn8ic7hLShgu3vkjhR70LcqshqZldxBj2WWqb5x269Ra8FsicA/640?wx_fmt=jpeg

接着启动webui.bat，初始化并启动WebUI……初次启动可能会花上较长时间

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEC7rAKjQ3Quv6CCU3klI75dtNL433gDAcyibibaF7e4uicicUqoyYnevX6w/640?wx_fmt=jpeg

成功打开，点击训练，点击识别数据集，点击数据预处理



https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xESISBfrWcgcaibzBLoPJ4B3UIiaOS8hZL7Ricxc4wWvWRdLfibIPyDobyOQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xECksLqo4tAXZribRGhmKQo2qHvRRvbOQ11UxQQXU9GWEia99kGeJn0CBw/640?wx_fmt=jpeg

设置训练参数

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEgKibicib9lCSppjoHibqZgzaVHokTuibLYpkELibFyZXLiaSrUwajZlYClribQ/640?wx_fmt=jpeg

点击从头开始训练，训练时间非常漫长,暂停Ctrl+c ，下次打开，点击继续上一次训练进度

想查看训练结果，找到ensorboard.bat打开，进入网址，点击audio，查看效果，效果可以，结束训练。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEyzgdCWzpibv8RSpwgZNvUVLUnjle6SH4hlC4ibTwu1mPOePbBG5VGjSQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEmYR66kYyX8CRh35KicW5JTS1kiaa6gbYU0Rdn06VhJ8GPYA5XXV1FAbA/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE04UJz48xpuJ26xibZXyE4icicwdkV3fT3yeCVck0Max7vphPmiaK4xXBDQ/640?wx_fmt=jpeg

接下来，进行推理，点击推理，选择模型，数值越大，效果越好，模型编码器自动匹配，配置文件选择自带的config.json

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE5ULQfibNUebdQibkDjszib74RS3GNnlWp8Af7Kvp4MGa9rYZbRMR9tDmA/640?wx_fmt=jpeg

点击加载模型，显示模型加载成功，点击上传之前分离好的原唱音频。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEW96RPeTj7iaGyibv8rkNPWPs4lkRicuPjnqJXqHgdhMwibicom1sWowibJBg/640?wx_fmt=jpeg


点击音频转换，等待几分钟，转换成功，点击下载

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE9k55brQ9MDPzsPQbwNOVyRjjS5eicXGe50EEibSDMnwNv1KzoXhjsyag/640?wx_fmt=jpeg

生成的音频没有背景音乐，需要用到Adobe Audition(接着跳转（7）步)

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEiaKmpBHSnSzOSRY4BgLicgAcz4xZhgJDkSvEVSdf0LfyITbdhib5mDbibw/640?wx_fmt=jpeg

（6）运行DDSP-SVC（显存小于6GB）

显存小于6GB，给大家介绍另外一个AI变声软件DDSP-SVC，这个软件对电脑配置要求要低一些，但是转换效果也会比so-vits-svc差了点，但是软件还是在优化升级中，目前合成音频效果也是不错的。

链接：

https://pan.baidu.com/s/1T7Qg5jIyaiS55ngzX54aEA?pwd=juhypan.baidu.com/s/1T7Qg5jIyaiS55ngzX54aEA?pwd=juhy

提取码：juhy

打开webui,选择智能音频切片

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xERXHlvuGoOH8y2Xt2ENL64Y7qRzEUiaWmluI1YRThTEG4VQTGQkbaI5g/640?wx_fmt=jpeg

选择训练，点击【一键划分数据集】按钮，选出验证集音频文件

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xESw8PE6zd0FZ2VceKQibVRqaAhibFQjfvH4qFsnLkXwA0r78HHfsFsg5Q/640?wx_fmt=jpeg

确认训练集和验证集正确放置后请选择训练编码器和f0提取算法

编码器：hubertsoft: 咬字较为清晰 |contentvec(768l12): 音色更为还原

f0算法：crepe: 抗噪能力较强但预处理速度慢 |parselmouth: 抗噪能力较弱但预处理速度快

注意，不同编码器训练出来的模型不通用，并且对应不同的配置文件，在推理时选择不匹配的配置文件会导致错误

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEibwzeL4KJezwu0ooh1wzUltPhiaTwl9xxIAv1g6fuwU8eYlB4ZvMm5kQ/640?wx_fmt=jpeg

点击数据预处理，等待生成



设置训练参数

总共需要训练两个模型一个是DDSP模型另一个是扩散模型，下面大部分参数保持默认即可，如果你的显卡显存比较低比如2G，可以在缓存数据这里选择CPU，同时batch_size也要适当降低，大显存可以不用修改。扩散模型配置里训练数据类型，如果你的显卡是20系列或更高，可以选择fp16或bf16，可以加快训练速度，如果训练时提示RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16，就是不支持bf16,可以选择前面的fp16,如果还是不支持就再朝前选择fp32,注意更换选择训练数据类型之后要点击按钮【写入配置文件】，然后再去点击下面的训练模型按钮，都设置完成后点击按钮写入配置文件。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEAjwmibTibHevUa57qBicghribpjxg1SjVUSfLB7YRvibzSW6dBe2ARgkWpA/640?wx_fmt=jpeg

点击开始训练，选择从头开始训练，然后点击训练DDSP模型，然后系统就会打开终端窗口输出训练信息，如果不想训练了的话可以按住ctrl+c终止训练，DDSP模型和扩散模型是分开独立训练的

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE7ql9QZEkGvvGrqJyHNW7RJXbmxic2KrHRX2jeva7IicVFEkvp4Nr19Kg/640?wx_fmt=jpeg

打开tendorboard查看训练状态，选中正在训练的模型点击打开tensorboard按钮，等到终端输入如下图http://localhost:6006/信息的时候将网址复制到浏览器地址栏打开就可以。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEBlP7Ex0PzTMTick4H5fwjmDTueibFED8JDl119icSfyEg4VOPX2P7K1Nw/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEQEpSa2n86C3RuFHMbFalmU9DyCjicgNgnZWS6FZf3xictK1AaNOYeDTg/640?wx_fmt=jpeg

训练步数越大越好，在训练过程中终端会输出loss值，当值很低不再变的时候就可以停止训练了，可以转去训练下一个模型。如果停止后想接着训练，可以选择继续上一次的训练进度接着训练。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEtla4uN3q5FSujwRon3q85BPYaGvPto7m6XJdmS42dOngW2CI9GO8uw/640?wx_fmt=jpeg

两个模型都训练完成之后，点击推理，点击刷新选项，选择DDSP模型和扩散模型，选择最大的步数。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEy8deMzF612eRKeiblVclv5JFHq1NMMP8bwciad2IeZg6ELLMibUp0tIiaA/640?wx_fmt=jpeg

上传待转换的纯人声音频文件，其它设置保持默认即可，点击下面的音频转换按钮开始转换音频。f0提取算法（如果出现音域内哑音可以尝试更换为parselmouth或其他算法）

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEcCUHicSibIwxdAjtiazTSJKibxomGAsgeibxdibu0UWWf3NKRBzQib6pgVZ8A/640?wx_fmt=jpeg

实时声音转换：在终端里面输入workenv\python.exe gui_diff.py运行，选择想用的模型，选择输入输出设备，点击开始音频转换按钮即可。
（7）使用Adobe Audition（将背景和人声合在一起）

位置：...\So-VITS-SVC\Adobe Audition\Adobe Audition 2022 SP

点击Set-up.exe,进行安装

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEuhp7NfiakU5smtYIricCNLLrCOicOq69b3tD3cB8mQTX5ViaOGoDJbEqhA/640?wx_fmt=jpeg

点击文件，新建多轨会话

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xENjCFNwYtnMLh77srTGP8QEYPdPKQNHSyzTewC8oxHNTYT83aRYJsXA/640?wx_fmt=jpeg

3.一键生成对口型视频！Wav2Lip离线版

下载：链接：

https://pan.baidu.com/s/1cbxCUvNr_X5GujXTd8xcvg?pwd=dox8pan.baidu.com/s/1cbxCUvNr_X5GujXTd8xcvg?pwd=dox8

提取码：dox8

解压，打开，选择模型，有两个，wav3lip_gan.pth一个对视频，另一个对图片，点击开始生成

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEwkGMRWdsg8v1vRF9tyFiarZRUVFicP37pGj9wy1DlKkXVZFRs89OJDIQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEeTWAjQvgt6uDeer3Xb29Yq6O8HueERtkg0PzlDC2F7EaP3XI1qG2Ng/640?wx_fmt=jpeg

正在生成

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEy1ch2MWeicaLicqRxVta8OLdj6BB1G5G7RlEL7B06QAeQOoWGGu3I2Dg/640?wx_fmt=jpeg

注意请训练自己的声音，如果训练别人的声音请获得授权，仅限个人研究学习及娱乐使用，切勿违规使用该软件。

欢迎加入【AI&ChatGPT】破局俱乐部，一起AI创富

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xENuEZRNoeWnL2ywrMLS5VGj38YNCicf7dRJkhkEXibabX8wq3X8d3e9bg/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEAelVc2qEvohiaeVNtInThx11Zl3dwQIC7iaBtsTiaCYuh69xQ9fHiaVzow/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE2aRIt4v333SyPgz1EO7BsEAxJLoLEyaTfva1CKiaJx6kHrJsfWl6d8Q/640?wx_fmt=jpeg

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI视频生成神器!让老外说中文,口型自然,不限语言,多用途,还不快来试试!(懒羊羊唱歌也可以)