新闻 发表于 2023-11-17 04:37

AI视频生成神器!让老外说中文,口型自然,不限语言,多用途,还不快来试试!(懒羊羊唱歌也可以)

作者:晨夕驿站
第一种:直接使用现成网站(heygen)

AI视频生成网站:

HeyGen - AI Video Generatorwww.heygen.com/

只有一次机会可以免费生成一个一分钟之内的视频,这个网站我不过多讲解,可以看一下下面这个视频的效果:

原视频来源于展亚鹏先生。
第二种: 本地生成(通过开源项目)

所需工具:

Whisper语音转文字:

Release Version 1.8.1 · Const-me/Whisper (github.com)github.com/Const-me/Whisper/releases/tag/1.8.1

AI声音克隆 :

So-VITS-SVC(显存超过6GB使用)

链接:提取码:97kr

https://pan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97krpan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97krpan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97kr

一键生成对口型视频!Wav2Lip离线版:

https://www.freedidi.com/10734.htmlwww.youtube.com/redirect?event=video_description&redir_token=QUFFLUhqbHdROVFGSU1hV3h0MW1MbzZVT3FsamZidDh1QXxBQ3Jtc0ttYkRjZWpNdW5wd0VOVEZ1cUQxMFNLRDgwVy1UcGRVcy1DeWtyZWkxbnpmUFlaYkF1WHhNVTMtMHNKQV9NY3ZBbW9iZ0pWNDI0cS15TVpENF91WEh1aFlibjBWYjF0NWlCQ2o1WlgxZURZbHdfa0w5bw&q=https%3A%2F%2Fwww.freedidi.com%2F10734.html&v=N3CTgtz3GMc   
1.Whisper(生成字幕稿)

(1)打开链接,下载下图压缩包,解压

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEgXgVlDphXyegbze95zheeMW9bcichHj2GyfHQlCYLUo7Ug4U7ZHUXyQ/640?wx_fmt=jpeg

(2)下载模型,打开该网址ggerganov/whisper.cpp at main,下载ggml-medium.bin模型

打开Whisper软件,添加模型位置,点击ok

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xECxBtXwUBPqLevC8UKiafLPGNxGGp06d181tAprufteic40Vha2iamT33g/640?wx_fmt=jpeg
   
(3)准备语音文件,越清晰越好,提取出文字

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEC3glDGjxAO6wzbbibRbHlr2vZ5y0cLficGZUSrr6MgZXrDxtEjI9ibvfA/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE777UklibEvqAe4CC8jeK2VNAyE36RHwic6er3O0rWABZx6XwlPREicabg/640?wx_fmt=jpeg

(4)翻译成英文   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xECpNTC8zu15IxZp2KL7SK0bZic1ibM4cVruhYTE04pHzCEuFfQyh9Gltg/640?wx_fmt=jpeg

2.AI 声音克隆!堪称翻唱神器,文字转语音、语音转换,!So-VITS-SVC 使用教程

(1)提取So-VITS-SVC

链接:

https://pan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97krpan.baidu.com/s/1Y77bU0W8bBb-kIg8qwewWg?pwd=97kr

提取码:97kr
(2)打开UVRS文件夹,打开安装软件(可以很清晰的分离人身和伴奏)   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEENgYQyRUn4A0obS8giawAW7YFibnqicQ8kVdUy75EHemicISRPQsKF7cyQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEAXwo8QQIHLxTVhXicGzF7GwVoX43j0aToQibSEeKARCiarExRa6iaWePww/640?wx_fmt=jpeg

安装完成之后,解压模型   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE8GCIIGYpIWa0kYw0OZYcybyzCd0dcDoPRf5OaoibyjibG49nvzTwZm7g/640?wx_fmt=jpeg

使用UVRS,选择输入文件夹,输出文件夹,下面步骤按照下图

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE8qJHBoeTQTuGnhBxhQgU6Dg6Pv1oHBweq6MzrZaCeAibAwrVESS9FFA/640?wx_fmt=jpeg

第一步 分离伴奏   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEklv17t2VgwKkCvUt2lKp7f2FeIjjfzCuswEAQV4d6SfWmDMBvQn43A/640?wx_fmt=jpeg

第二步 消除混响和声   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xERIkD2QiaJZGvP2VGBp6HuAF3iawl21Clpibvib2gdicmINjEbgq6XCRA9Jg/640?wx_fmt=jpeg

(3)准备数据集

可以去网上下载视频,用上面的工具分离人声,最好不低于30分钟

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEk4Y5n33TnsPp5vWIHh0L5JXfuqVf1NNwiaGbmGM0qXaF2ICPGn7uXsQ/640?wx_fmt=jpeg
   

把音频文件重命名(不然后面训练会出错),下载重命名工具,解压,拉到文件夹下,双击打开

https://www.freedidi.com/wp-content/uploads/2023/06/%E6%89%B9%E9%87%8F%E9%87%8D%E5%91%BD%E5%90%8D.rarwww.freedidi.com/wp-content/uploads/2023/06/%E6%

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE7n2xicdJA6CjAUmWKFuZneEFvTPfFekmsQ1SCAGplQrFtyYDAWepc2A/640?wx_fmt=jpeg


https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEVILqeicPOWYGic1F8vU3WV7cf9tvBkYRlOyJOQJ5CmicfuTDXuqttCUOQ/640?wx_fmt=jpeg

(4)音频切片

Audio Slicer 进行音频分割切片,每段长度最好别超过7秒   

位置: ....\So-VITS-SVC\Audio Slicer(音频切分)\slicer-gui,解压缩,打开,找到运行程序文件

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEdL9p2LAiagnVYEXOFVZDmc68rfQSg2VGlicXBg1aBsCGs1JBmvjhQuXg/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE1XIP0yLia9kxCGfrvo1I8JUGiaNibibHlZZu2YcLibfAAlfU7MiapwNKv1FA/640?wx_fmt=jpeg

选择输出文件夹,把准备好的音频拖进去,点击start,查看基本不要超过16秒就好,重命名   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xESXPVBI6pWicYpvfaXxxEND47ejyD2ibLWp1VE055F2Wn9clPuhoYbypA/640?wx_fmt=jpeg

(5)运行So-VITS-SVC进行训练(显存超过6GB使用)

位置 :..\So-VITS-SVC\新版整合包\so-vits-svc,打开,切好的音频文件夹放入根目录的 dataset_raw 下

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEu6pbThtn8ic7hLShgu3vkjhR70LcqshqZldxBj2WWqb5x269Ra8FsicA/640?wx_fmt=jpeg
   

接着启动webui.bat,初始化并启动WebUI……初次启动可能会花上较长时间

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEC7rAKjQ3Quv6CCU3klI75dtNL433gDAcyibibaF7e4uicicUqoyYnevX6w/640?wx_fmt=jpeg

成功打开,点击训练,点击识别数据集,点击数据预处理

         

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xESISBfrWcgcaibzBLoPJ4B3UIiaOS8hZL7Ricxc4wWvWRdLfibIPyDobyOQ/640?wx_fmt=jpeg
   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xECksLqo4tAXZribRGhmKQo2qHvRRvbOQ11UxQQXU9GWEia99kGeJn0CBw/640?wx_fmt=jpeg

设置训练参数

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEgKibicib9lCSppjoHibqZgzaVHokTuibLYpkELibFyZXLiaSrUwajZlYClribQ/640?wx_fmt=jpeg

点击从头开始训练,训练时间非常漫长,暂停Ctrl+c ,下次打开,点击继续上一次训练进度   

想查看训练结果,找到ensorboard.bat打开,进入网址,点击audio,查看效果,效果可以,结束训练。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEyzgdCWzpibv8RSpwgZNvUVLUnjle6SH4hlC4ibTwu1mPOePbBG5VGjSQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEmYR66kYyX8CRh35KicW5JTS1kiaa6gbYU0Rdn06VhJ8GPYA5XXV1FAbA/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE04UJz48xpuJ26xibZXyE4icicwdkV3fT3yeCVck0Max7vphPmiaK4xXBDQ/640?wx_fmt=jpeg

接下来,进行推理,点击推理,选择模型,数值越大,效果越好,模型编码器自动匹配,配置文件选择自带的config.json   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE5ULQfibNUebdQibkDjszib74RS3GNnlWp8Af7Kvp4MGa9rYZbRMR9tDmA/640?wx_fmt=jpeg

点击加载模型,显示模型加载成功,点击上传之前分离好的原唱音频。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEW96RPeTj7iaGyibv8rkNPWPs4lkRicuPjnqJXqHgdhMwibicom1sWowibJBg/640?wx_fmt=jpeg

         
点击音频转换,等待几分钟,转换成功,点击下载   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE9k55brQ9MDPzsPQbwNOVyRjjS5eicXGe50EEibSDMnwNv1KzoXhjsyag/640?wx_fmt=jpeg

生成的音频没有背景音乐,需要用到Adobe Audition(接着跳转(7)步)

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEiaKmpBHSnSzOSRY4BgLicgAcz4xZhgJDkSvEVSdf0LfyITbdhib5mDbibw/640?wx_fmt=jpeg

(6)运行DDSP-SVC(显存小于6GB)

显存小于6GB,给大家介绍另外一个AI变声软件DDSP-SVC,这个软件对电脑配置要求要低一些,但是转换效果也会比so-vits-svc差了点,但是软件还是在优化升级中,目前合成音频效果也是不错的。   

链接:

https://pan.baidu.com/s/1T7Qg5jIyaiS55ngzX54aEA?pwd=juhypan.baidu.com/s/1T7Qg5jIyaiS55ngzX54aEA?pwd=juhy

提取码:juhy

打开webui,选择智能音频切片

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xERXHlvuGoOH8y2Xt2ENL64Y7qRzEUiaWmluI1YRThTEG4VQTGQkbaI5g/640?wx_fmt=jpeg

选择训练,点击【一键划分数据集】按钮,选出验证集音频文件

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xESw8PE6zd0FZ2VceKQibVRqaAhibFQjfvH4qFsnLkXwA0r78HHfsFsg5Q/640?wx_fmt=jpeg

确认训练集和验证集正确放置后请选择训练编码器和f0提取算法

编码器:hubertsoft: 咬字较为清晰 |contentvec(768l12): 音色更为还原   

f0算法:crepe: 抗噪能力较强但预处理速度慢 |parselmouth: 抗噪能力较弱但预处理速度快

注意,不同编码器训练出来的模型不通用,并且对应不同的配置文件,在推理时选择不匹配的配置文件会导致错误

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEibwzeL4KJezwu0ooh1wzUltPhiaTwl9xxIAv1g6fuwU8eYlB4ZvMm5kQ/640?wx_fmt=jpeg

点击数据预处理,等待生成

         

设置训练参数

总共需要训练两个模型一个是DDSP模型另一个是扩散模型,下面大部分参数保持默认即可,如果你的显卡显存比较低比如2G,可以在缓存数据这里选择CPU,同时batch_size也要适当降低,大显存可以不用修改。扩散模型配置里训练数据类型,如果你的显卡是20系列或更高,可以选择fp16或bf16,可以加快训练速度,如果训练时提示RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16,就是不支持bf16,可以选择前面的fp16,如果还是不支持就再朝前选择fp32,注意更换选择训练数据类型之后要点击按钮【写入配置文件】,然后再去点击下面的训练模型按钮,都设置完成后点击按钮写入配置文件。   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEAjwmibTibHevUa57qBicghribpjxg1SjVUSfLB7YRvibzSW6dBe2ARgkWpA/640?wx_fmt=jpeg

点击开始训练,选择从头开始训练,然后点击训练DDSP模型,然后系统就会打开终端窗口输出训练信息,如果不想训练了的话可以按住ctrl+c终止训练,DDSP模型和扩散模型是分开独立训练的   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE7ql9QZEkGvvGrqJyHNW7RJXbmxic2KrHRX2jeva7IicVFEkvp4Nr19Kg/640?wx_fmt=jpeg

打开tendorboard查看训练状态,选中正在训练的模型点击打开tensorboard按钮,等到终端输入如下图http://localhost:6006/信息的时候将网址复制到浏览器地址栏打开就可以。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEBlP7Ex0PzTMTick4H5fwjmDTueibFED8JDl119icSfyEg4VOPX2P7K1Nw/640?wx_fmt=jpeg
   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEQEpSa2n86C3RuFHMbFalmU9DyCjicgNgnZWS6FZf3xictK1AaNOYeDTg/640?wx_fmt=jpeg

训练步数越大越好,在训练过程中终端会输出loss值,当值很低不再变的时候就可以停止训练了,可以转去训练下一个模型。如果停止后想接着训练,可以选择继续上一次的训练进度接着训练。

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEtla4uN3q5FSujwRon3q85BPYaGvPto7m6XJdmS42dOngW2CI9GO8uw/640?wx_fmt=jpeg

两个模型都训练完成之后,点击推理,点击刷新选项,选择DDSP模型和扩散模型,选择最大的步数。   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEy8deMzF612eRKeiblVclv5JFHq1NMMP8bwciad2IeZg6ELLMibUp0tIiaA/640?wx_fmt=jpeg

上传待转换的纯人声音频文件,其它设置保持默认即可,点击下面的音频转换按钮开始转换音频。f0提取算法(如果出现音域内哑音可以尝试更换为parselmouth或其他算法)

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEcCUHicSibIwxdAjtiazTSJKibxomGAsgeibxdibu0UWWf3NKRBzQib6pgVZ8A/640?wx_fmt=jpeg

实时声音转换:在终端里面输入workenv\python.exe gui_diff.py运行,选择想用的模型,选择输入输出设备,点击开始音频转换按钮即可。   
(7)使用Adobe Audition(将背景和人声合在一起)

位置:...\So-VITS-SVC\Adobe Audition\Adobe Audition 2022 SP

点击Set-up.exe,进行安装

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEuhp7NfiakU5smtYIricCNLLrCOicOq69b3tD3cB8mQTX5ViaOGoDJbEqhA/640?wx_fmt=jpeg

点击文件,新建多轨会话   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xENjCFNwYtnMLh77srTGP8QEYPdPKQNHSyzTewC8oxHNTYT83aRYJsXA/640?wx_fmt=jpeg

3.一键生成对口型视频!Wav2Lip离线版

下载:链接:

https://pan.baidu.com/s/1cbxCUvNr_X5GujXTd8xcvg?pwd=dox8pan.baidu.com/s/1cbxCUvNr_X5GujXTd8xcvg?pwd=dox8

提取码:dox8

解压,打开,选择模型,有两个,wav3lip_gan.pth一个对视频,另一个对图片,点击开始生成   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEwkGMRWdsg8v1vRF9tyFiarZRUVFicP37pGj9wy1DlKkXVZFRs89OJDIQ/640?wx_fmt=jpeg

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEeTWAjQvgt6uDeer3Xb29Yq6O8HueERtkg0PzlDC2F7EaP3XI1qG2Ng/640?wx_fmt=jpeg

正在生成   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEy1ch2MWeicaLicqRxVta8OLdj6BB1G5G7RlEL7B06QAeQOoWGGu3I2Dg/640?wx_fmt=jpeg

注意请训练自己的声音,如果训练别人的声音请获得授权,仅限个人研究学习及娱乐使用,切勿违规使用该软件。

欢迎加入【AI&ChatGPT】破局俱乐部,一起AI创富   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xENuEZRNoeWnL2ywrMLS5VGj38YNCicf7dRJkhkEXibabX8wq3X8d3e9bg/640?wx_fmt=jpeg
   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xEAelVc2qEvohiaeVNtInThx11Zl3dwQIC7iaBtsTiaCYuh69xQ9fHiaVzow/640?wx_fmt=jpeg
   

https://mmbiz.qpic.cn/sz_mmbiz_jpg/hlAYhtKlibdEibmZnBuzB767ibWp5DD57xE2aRIt4v333SyPgz1EO7BsEAxJLoLEyaTfva1CKiaJx6kHrJsfWl6d8Q/640?wx_fmt=jpeg
   

         





页: [1]
查看完整版本: AI视频生成神器!让老外说中文,口型自然,不限语言,多用途,还不快来试试!(懒羊羊唱歌也可以)