码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 最新千万级中文语音语料开源数据整理分享


        本语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。

        本语料比较原始数据而言,更加清晰和自然,减少了噪声的干扰,减少了因说话人说话不连贯造成的不自然。

        本语料包含文本、语音和说话人3个方面的信息,可适用于多种语音相关的任务。

        

         资源整理自网络,下载及获取见源地址:https://github.com/fighting41love/zhvoice

        本语料由智浪淘沙(https://github.com/zhilangtaosha)清洗和处理。

        处理方法

        用python的工具模块aukit处理音频,降噪和去除静音。

        pip install aukit from aukit import remove_noise, remove_silence

        用python的工具模块phkit处理文本,文本正则化和汉字转拼音。

        pip install phkit from phkit import text_to_sequence, pinyin

    应用场景

        ·  用于语音克隆模型,可直接用于githup的语音克隆项目zhrtvc。

        ·  用于语音合成模型,用标贝开源的中文标准女声音频zhbznsyp数据集,或者筛选音质较好,和目标声音相似的说话人语音及其文本。

        ·  用于声码器模型,即由语音特征转为语音信号的模型。用语音数据,可结合aukit的音频转频谱。

        from aukit import linear_spectrogram, mel_spectrogram, world_spectrogram

        用于语音编码器模型,即把语音编码到预定维度的向量空间。

        用于声纹识别模型,用语音和对应的说话人标签。

        用于语音识别模型,用语音和文本,可以适当加噪声。

    下载路径

        百度网盘:

    链接: https://pan.baidu.com/s/1uHXE2WIt0kdm_dPSej-TtA

        提取码: i5b3

    文件介绍

        info:各个数据集的源数据信息,包含源数据出处、简介等。

        text:语音语料对应的文本,包含文本、相对路径、说话人、参考拼音等信息。

        sample:样本语音,每个说话人一个音频。

        metadata:语料元数据,一行对应一个音频文件,每行的格式音频相对路径\t汉字文本\n。

        zh*:zh开头的是语料文件,目录结构:根目录下包含metadata.csv和语音文件目录。一个说话人对应一个子目录,音频是mp3格式。metadata.csv的数据结构和metadata的一样,记录当前数据集的信息。

    统计信息

        character_W: 字符个数,单位:万字。包括汉字、英文字母和标点符号。

        duration_H: 语音时长,单位:小时。

        n_audio_per_speaker:每个说话人的音频数量。

        n_minute_per_speaker:平均每个说话人的音频总时长,单位:分钟。

        n_speaker:说话人个数。

        sentence_W:文本数目,单位:万条。

        size_MB:音频占用存储空间,单位:MB。

        注意:

        total是全部数据集合集的结果。

        音频的采样率是16k。

    往期精品内容推荐

    发论文拿推荐信!伯克利教授计算机科研项目招生

    想成为NLP算法工程师缺项目经验?看完这个,入职第一天即可产生价值!

    自动驾驶最全基础知识、课程、论文、数据集、开源软件等资源整理分享

    邱锡鹏DL经典教材-《神经网络与深度学习》免费pdf及ppt分享

    22年秋招 NLP算法工程师从入门到进阶线路分享

    2020年新书-《神经网络新手入门必备数学基础》免费pdf分享

    NLP必备书籍-《自然语言处理手册第二版》免费pdf分享

    李沐中《动手学深度学习》最新版免费分享

    波士顿动力量产工业级-Spot敏捷移动机器人

  • 相关阅读:
    高数 | 导数极限定理、分段点求导能不能用公式?导数和导数的极限?
    UE的Blend Profile
    Spring -IOC理念
    KubeEdge:下一代云原生边缘设备管理标准DMI的设计与实现
    Python解决图文验证码登录识别(1)
    构建“零工市场小程序”,服务灵活就业“大民生”
    linux下命令行静默安装oracle11G简要步骤
    如何优雅的比较两个对象是否相等
    【华为OD机试真题 python】 字符串比较【2022 Q4 | 200分】
    [0xGame 2023 week2] pwn/crypto/reverse
  • 原文地址:https://blog.csdn.net/lqfarmer/article/details/127457618
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号