绿色小软件下载
当前位置:首页 >> 新闻资讯 >> 技术文档 >> 如何使用语音到文本转换器

如何使用语音到文本转换器

詹姆斯·高斯林 技术文档 22

Vovsoft语音转文本转换器支持离线和在线语音引擎。离线Vosk连续听写?在线OpenAI(Whisper)深图微软Azure IBM云离线语音引擎离线语音识别引擎不需要互联网连接,它们在您的计算机上本地运行。然而,它们往往不如在线模型准确,尤其是在复杂的语音或口音中。此外,它们可能会消耗更多的本地资源,从而可能减慢您的系统速度。Vosk如何使用Vosk(离线-文件到文本)Vosk是一个离线工作的语音识别工具包,支持20多种语言。它在您自己的计算机上执行语音到文本的转换。在任何情况下,都不会将文件发送到互联网。Vosk需要一个“models”目录,其中包含语言数据。Vovsoft语音到文本转换器嵌入了轻量级的英语和法语模型。

如何使用语音到文本转换器

如果您需要其他语言或对结果不满意,请按照以下步骤操作:转到https://alphacephei.com/vosk/models并免费下载任何模型文件。将模型文件解压缩到models文件夹中。示例:C:\程序文件(x86)\WOVSOFT\语音到文本转换器\vosk\models重新启动VOVSOFT语音到文本转换程序。


请注意。使用此功能需要.NET Framework 4.8。这个版本的。NET Framework预装在大多数Windows 10和Windows 11系统上。Vosk需要64位Windows。Vosk建议使用16GB RAM,但轻量级型号可以使用较少的RAM。Vosk模型路径必须仅使用英文字符。默认安装路径很好,但自定义目录应避免使用非英文字符。连续听写如何使用连续听写(离线-麦克风到文本)连续听写需要“微软语音平台”,该平台已预装在大多数系统上。

此功能支持英语、法语、德语、日语、简体中文、西班牙语和繁体中文。如何更改语音识别设置:按Windows键。键入并进入控制面板。查找并单击语音识别。如果您的系统上没有安装语音识别器,请按照以下步骤操作:

下载并安装Microsoft语音平台:https://www.microsoft.com/en-us/download/details.aspx?id=27225Download并安装语音识别(SR)语言:https://www.microsoft.com/en-us/download/details.aspx?id=27224Connect麦克风(如果尚未连接)。重新启动计算机。在线语音转文本API服务如果您想在云服务器(而不是自己的计算机)上执行语音转文本转换,并利用最新的人工智能进步,您将需要至少其中一家提供商的凭据:API提供商PricingFree TierCredit Card1。OpenAI每分钟0.0060美元不需要2。Deepgram每分钟$0.0044$200免费积分不需要

3.微软Azure每分钟0.0167美元每月300分钟


4.IBM Cloud每分钟0.0100美元,每月500分钟,IBM云、Microsoft Azure和OpenAI可能需要有效的信用卡才能注册,并且可能在中国和台湾等一些国家/地区不可用。1。OpenAI(Whisper)如何获得OpenAI API密钥为了获得您的OpenAI API密钥,请遵循以下步骤:转到https://platform.openai.com/signup免费创建您的OpenAI帐户。首选https://platform.openai.com/account/api-keys并创建您的API密钥。最大文件大小是多少?OpenAI Whisper的文件大小限制为26214400字节(25MB)。什么是API温度?采样温度在0到1之间。 


较高的值(如0.8)将使输出更加随机,而较低的值(例如0.2)将使其更加集中和确定。


2.Deepgram如何获得Deepgram API密钥为了获得您的Deepgram API密钥,请按照以下步骤操作:转到https://console.deepgram.com/signup并免费创建您的Deepgram帐户。单击API键。单击新建API密钥。3。Microsoft Azure如何获取Microsoft Azure API密钥和API区域为了获取您的Microsoft Azure API密钥和API区域,请按照以下步骤操作:转到?https://portal.azure.com免费创建您的Microsoft Azure帐户。单击“创建资源”。选择认知服务。创建语音服务后,您的凭据可以在中找到?键和端点页面:KEY1、KEY2(任何一个键都应该工作)和位置/区域字段。Microsoft Azure支持的语言的凭据屏幕Microsoft Azure南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、孟加拉语、波斯尼亚语、保加利亚语、缅甸语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、菲律宾语、芬兰语、法语、格鲁吉亚语、德语、希腊语、古吉拉特语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、老挝语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉雅拉姆语、马耳他语、马拉地语、蒙古语、尼泊尔语、挪威博克姆语?l、 Microsoft Azure是否支持普什图语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、西班牙语、斯瓦希里语、瑞典语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌兹别克语、越南语、威尔士语和祖鲁语?认知服务。IBM Cloud如何获取IBM Cloud API密钥和API URL为了获取您的IBM Cloud API密钥和API URL,

请按照以下步骤操作:转到https://cloud.ibm.com/registration免费创建您的IBM Cloud帐户。请注意:如果您收到此错误消息“此时无法创建您的帐户”,请使用您的Gmail电子邮件地址。看起来IBM Watson不喜欢一些电子邮件提供商。所以,如果你有任何这样的问题,就使用另一个电子邮件地址。?首选https://cloud.ibm.com/catalog/services/speech-to-text并创建您的语音转文本精简版计划实例。首选https://cloud.ibm.com/resources;在AI/机器学习选项卡下,单击您的语音到文本实例。您的凭据(API密钥和URL)将显示在管理或服务凭据页面中。IBM Cloud的凭据屏幕将您的API密钥和URL输入到“Vovsoft语音到文本转换器”内的设置面板中。该软件现在已准备好将音频转换为文本。IBM Cloud API支持IBM CloudEnglish、阿拉伯语、中文(普通话)、捷克语、荷兰语、法语、德语、印地语(印度)、意大利语、日语、韩语、葡萄牙语(巴西)和西班牙语中支持的语言和模型。对于大多数语言,IBM Cloud服务支持宽带、窄带、电话和多媒体模型:宽带模型用于采样频率大于或等于16 kHz的音频。窄带模型适用于以8kHz采样的音频。使用窄带模型对电话语音进行离线解码,这是该采样率的典型用途。电话模型专门用于通过电话传输的音频。 


与上一代窄带型号一样,电话型号适用于最小采样率为8kHz的音频。多媒体模型旨在用于从具有较高采样率的源(如视频)中提取的音频。使用多媒体模式播放电话音频以外的任何音频。与上一代宽带型号一样,多媒体型号适用于最低采样率为16kHz的音频。选择正确的模型很重要。使用与音频采样率(和语言)匹配的模型。该服务会自动调整音频的采样率,以匹配您指定的型号。更多信息:https://cloud.ibm.com/apidocs/speech-to-textApproximate转换时间转换时间如下表所示。请注意,指定的时间因文件内容、质量、语言模型、AI服务器负载和计算机上传速度而异。音频长度音频质量语言模型近似转换时间5分钟48 kHz立体声英语(宽带)1分20秒8 kHz单英语(窄带)1分30秒30分钟9分钟10分钟常见错误HTTP/1.1 503服务不可用您的URL错误。请输入IBM Cloud为您提供的“API密钥”和“API URL”。发送数据时出错:(12030)与服务器的连接异常终止防火墙、代理或防病毒软件会干扰连接。请尝试禁用它们或使用其他互联网连接。读取数据时出错:(12152)服务器返回了无效或无法识别的响应您的音频太长。请尝试转换较短的音频。“请稍候”挂起,没有任何反应您的音频文件太大。请尝试上传一个较小的文件。将立体声转换为单声道可能会有所帮助。


协助本站SEO优化一下,谢谢!
关键词不能为空

免责声明

本站有部分为网络搜集整理而来, 如有版权及内容质疑,请即刻联系站长整改。分享是美德,欢迎转载,敬请注明出处

同类推荐
控制面板
您好,欢迎到访网站!
  查看权限
标签列表