训练很简单,自己去弄。最后只有2个文件有用一个是config.json,另外一个是训练的 步数.pt。
合成,他是将音色进行替换,理论上说,你可以让一个人说各种样的语言,只要训练一次。实际上也确实可行的。
所以说,你得先用edge等其他声音合成一个,然后在替换他的声音
edge的服务.
tts_gender:"Male"(Female)-----这个就没用(直接None,羽毛把我坑了,直接填"",他会自动变成None)
tts_lang:"Auto"(语言根据文字自动识别--最好自己写,比如zh-TW-HsiaoChenNeural.zh-XiaoXiaoNeural ,每个地方有方言的,最好能匹配)
tts_rate:"+0%"(倍速-1~3)
tts_volume:"+0%" (音量-1~3)
#他是在基于可视化平台写的,我改了他的代码,写了一个新的,用于命令行
.\workenv\python.exe tts.py("你好啊,我是数字人","zh-TW-HsiaoChenNeural","+0%","+0%","")
他会默认把音频放到当前目录的tts.wav下(我们只要保证每次只合成一个就不会覆盖冲突)
-m 模型路径.pth(需要改的)
-c 配置文件路径config.json(需要改的)
-cl 0自动切片 可以不写
-n 音频地址.wav(需要改的-且必须放在raw目录下)
-t 0音调高低,不用改
-s 说话人的名称
-a true开启f0自动预测音高(外部不生效,不知道为什么,这里直接改了源码写死为true。反正也不拿来唱歌)
-f0p harvest这个合成语音效果最好
推理
python inference_main.py -m "logs/44k/G_50400.pth" -c "configs/config.json" -n "ly" -a true -f0p "harvest" -s "ja"
代码里会加.wav(-n选项)
在so-vits目录下
.\workenv\python.exe inference_main.py -m "logs/44k/G_50400.pth" -c "configs/config.json" -n "ly" -f0p "harvest" -s "ja"
生成的结果会在result里面(格式:输入音频的名称-配置参数-配置参数.flac)
没代码?github自己下
https://github.com/svc-develop-team/so-vits-svc
整合包,bilibili搜so-vits