码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能


    引言

    2023年,IT领域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。

    Whisper是一款自动语音识别系统,可以识别来自99种不同语言的语音并将其转录为文字。

    如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。

    想象一下,在企业应用领域,我们能够利用Whisper将语音转化为文字,然后再借助ChatGPT来进行翻译或总结。

    接下来,我们将以实际操作为出发点,逐步向您介绍如何利用AI实现音频、视频的内容总结。

    前期准备

    GPU

    首先,我们需要解决硬件方面的问题。

    虽然OpenAI提供了HTTP API来调用Whisper,但对于企业而言,将内部内容交给OpenAI始终存在一定的安全风险。

    本地运行AI模型则需要大量的计算资源。

    如果仅使用CPU进行计算,一个大约10分钟的语音转录任务可能需要花费4倍以上的时间。

    因此,我们必须引入GPU进行计算加速。

    考虑到Colab在国内无法访问,我们建议在Kaggle上运行演示。

    请大家注册Kaggle账户,并完成手机号验证(Kaggle的GPU需要完成手机号验证后才能使用)。


    Azure ChatGPT

    ChatGPT是我们语音内容总结的核心工具。

    我们建议使用Azure OpenAI服务。

    您可以参考以下文章来申请:Azure OpenAI Service申请教程

    kintone

    kintone是我们用来存储记录的平台。我们需要创建一个名为“Reports”的应用程序(APP),并定义以下表单字段:

    运行

    您可以在这里找到演示代码:

    GitHub - kintone-samples/SAMPLE-kintone-narrator-cn: Utilize AI to summarize video/audio content and upload it to Kintone.

    点击“open in kaggle”。

    00164f6dc8a7463221b0c1bb9b2d132

    请按照以下步骤操作:

    1.点击Edit,进入编辑状态

    00164f6dd30805db352f635f6511303


     

    2.在右侧的Notebook options中,我们需要将Acceleator选为GPU T4*2

    00164f6de1cb8f79ede4e3cedd09de5

    00164f6de75531264fadfc118551c7e

    注:

    1. 没验证手机的账户不会显示Acceleator选项。

    2. GPU P100不支持当前默认float16运算,选择该显卡的用户请将“语音转录&对齐”中的compute_type设为float32。

    3. TPU尚未测试支持。

    3.找到名为“Azure OpanAI ChatGPT 总结”和“将总结内容上传”的代码单元(cell),然后根据您自己的环境设置进行配置。

    00164f6e1d975a5e44ae378895cf138

    00164f6e294a2cedda5abe87c7d923b

    4.点击页面上方的“Run All”按钮以开始运行演示。

    00164f6e0f2c6d0a761f9e64df41428

    等待程序运行结束即可。

    下面我将对会每个代码单元的功能进行简要说明,感兴趣的可以继续往下研究:

    Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

  • 相关阅读:
    E. Hanging Hearts(树形dp)
    Spring(六)注解开发
    关于二进制
    linux 模型属性attribute
    Linux停止Java服务
    【MATLAB教程案例15】基于WOA鲸鱼优化算法的函数极值计算matlab仿真及其他应用
    CLion 2023:专注于C和C++编程的智能IDE mac/win版
    通过vNode实现给列表字段打标签
    Docker-安装(Linux,Windows)
    vue2 在 template 中使用 sass 变量
  • 原文地址:https://blog.csdn.net/cybozu/article/details/133013302
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号