• so-vits语音合成


    训练很简单,自己去弄。最后只有2个文件有用一个是config.json,另外一个是训练的 步数.pt。

    合成,他是将音色进行替换,理论上说,你可以让一个人说各种样的语言,只要训练一次。实际上也确实可行的。

    所以说,你得先用edge等其他声音合成一个,然后在替换他的声音


    1.选择对应的音频(微软生成的部分)

    edge的服务.
    tts_gender:"Male"(Female)-----这个就没用(直接None,羽毛把我坑了,直接填"",他会自动变成None)
    tts_lang:"Auto"(语言根据文字自动识别--最好自己写,比如zh-TW-HsiaoChenNeural.zh-XiaoXiaoNeural ,每个地方有方言的,最好能匹配)
    tts_rate:"+0%"(倍速-1~3)
    tts_volume:"+0%" (音量-1~3)

    #他是在基于可视化平台写的,我改了他的代码,写了一个新的,用于命令行

    .\workenv\python.exe tts.py("你好啊,我是数字人","zh-TW-HsiaoChenNeural","+0%","+0%","")

    他会默认把音频放到当前目录的tts.wav下(我们只要保证每次只合成一个就不会覆盖冲突)

    2.推理的部分

    -m 模型路径.pth(需要改的)
    -c 配置文件路径config.json(需要改的)
    -cl 0自动切片 可以不写
    -n 音频地址.wav(需要改的-且必须放在raw目录下)
    -t 0音调高低,不用改
    -s 说话人的名称
    -a true开启f0自动预测音高(外部不生效,不知道为什么,这里直接改了源码写死为true。反正也不拿来唱歌)
    -f0p harvest这个合成语音效果最好

    推理
     

    python inference_main.py -m "logs/44k/G_50400.pth" -c "configs/config.json" -n "ly" -a true -f0p "harvest" -s "ja"

    代码里会加.wav(-n选项)
    在so-vits目录下

    .\workenv\python.exe inference_main.py -m "logs/44k/G_50400.pth" -c "configs/config.json" -n "ly" -f0p "harvest" -s "ja"


    生成的结果会在result里面(格式:输入音频的名称-配置参数-配置参数.flac)

    没代码?github自己下

    https://github.com/svc-develop-team/so-vits-svc

    整合包,bilibili搜so-vits

  • 相关阅读:
    【AXI】解读AXI协议乱序机制
    python经典100题之判断今年的第几天
    聊聊jedis连接池的预热
    【C#】C#调用进程打开一个exe程序
    进军多项式(三):Chirp Z-Transform
    【云备份|| 日志 day1】项目认识 && 环境准备
    11月22日星期三今日早报简报微语报早读
    Xml转json
    【面试经典150 | 数组】删除有序数组中的重复项 II
    [.NET6]使用ML.NET+ONNX预训练模型整活B站经典《华强买瓜》
  • 原文地址:https://blog.csdn.net/qq_38403590/article/details/134403767