绿色小软件下载
当前位置:首页 >> 站长休闲 >> 认识 Alexa 的语音教练

认识 Alexa 的语音教练

丹尼斯·里奇 站长休闲 3

叫醒 Alexa 并开始与她聊天。只需说“Alexa,我们来谈谈”或“Alexa,我们聊聊吧”。我们会等待的。在不到美国蜂鸟拍打翅膀三次所需的时间内,Alexa 醒来,听到了你最初的请求,理解了它,并制定了回应。以下是您可能会听到的部分内容,“嘿,星期五快乐,这些天云层越来越冷。Alexa 的口头回复大约有三秒钟长,在此期间,您可以先睹为快。在 Alexa“居住”的云中,执行了 2700 亿次浮点运算(FLOPS——或计算机处理数学的方式)来生成单词、语调、停顿和强调,使 Alexa 的响应听起来更自然。为了让 Alexa 通过扬声器以高清音频回复您,大约 72,000 个声音片段被串在一起形成这个短语。你看了看手机、电脑或智能手表,确认今天确实是星期五,秋天的天气已经到来。这一切似乎要用一句话来做很多工作,坦率地说,确实如此。现在,想象一下,数千万 Alexa 客户每周都会提出数十亿次类似的请求。这是一项巨大的工作。对于 Alexa 服务来说,这项工作归结为使用复杂的机器学习模型进行大量计算。就 Alexa 的运行规模而言,这些模型和计算是有成本的——在处理单元上的时间以及运行和冷却这些单元的电力上。这些成本正是 Alexa 团队大约一年前遇到的成本。让 Alexa 说话更自然,而不是像机器将单词串在一起,其计算量非常昂贵。为什么听起来像人类的语音对机器来说很棘手当你向 Alexa 提问时,答案很快就会到来。她的回答似乎类似于人类在有人提出问题时的反应,但事实并非如此(除非你把问题和你的回答都写下来,然后读回来)。设备检测到唤醒词后,Alexa 会记录您的请求并将其发送到云端,例如“播放歌曲”、“开灯”、“点披萨”。自动语音识别和自然语言理解模型理解请求,然后制定适当的响应。但这是棘手的部分,Alexa 响应中的单词是作为一串文本生成的。任何学过另一种语言的人都知道,仅仅在顺序中读出正确的单词并不是真正的语音。这是沟通,但不是自然的对话。让 Alexa 的语音在任何语言中听起来更自然——文本转语音部分——就是为了改善语调。这意味着要以正确的节奏、正确的地点强调正确的词语。我们不假思索地这样做——但试着分析你自己的语调,你就会明白精确建模是一个多么困难的问题,以及为什么它是自然语音的关键。正如 Alexa 的文本转语音团队所发现的那样,它也很昂贵。与我交谈痴迷于语调的文本转语音团队的修复程序是在 2019 年 re:Invent 大会上宣布的一种新的微处理器或芯片(称为 AWS Inferentia)的形式出现的。Inferentia 由 Amazon Web Services (AWS) 的一个团队设计,是 Amazon 专门为运行机器学习模型而设计的第一款芯片。在推出近一年后,Inferentia 芯片现在是 Alexa 服务中所谓的“推理”部分的计算引擎——这是 Alexa 在处理和回答人们的问题和陈述方面的绝大多数工作。使用在 Amazon EC2 Inf1(在云中访问的虚拟服务器或计算引擎)上运行的 AWS Inferentia,这种定制芯片将在 Alexa 上运行推理的成本降低了近三分之一。成本节省有两个好处:Alexa 可以使用更少的能源来完成这些计算量大的任务,从而节省资源。Alexa 可以部署更复杂的机器学习模型,因此与 Alexa 的对话变得越来越好。Inferentia 和 Inf1 实例也不限于文本转语音任务。任何处理大量图像、视频、语音或文本数据并对这些数据运行大量机器学习的应用程序都可以从这种芯片创新中受益。Snap、Autodesk 和 Anthem 等 AWS 客户已经在使用 Inferentia 和 Inf1 实例来运行视频和图像分析、语言和文本处理(如翻译、搜索和提取情绪),并改进推荐引擎。机器学习能力的提升带来的结果包括更多真正符合人们目标的歌曲和电影推荐,以及构建可以实现真正自动驾驶的复杂模型。Alexa 客户将体验 Inferentia 引擎更好、更准确的语音助手响应。而这个棘手的问题——自然语调——将随着 Alexa 的文本转语音模型的不断进步而得到改善。您与 Alexa 的聊天将变得越来越自然,这是最佳技术的全部意义所在。这是更好、更快、更低成本的三拳组合。

认识 Alexa 的语音教练

协助本站SEO优化一下,谢谢!
关键词不能为空

免责声明

本站有部分为网络搜集整理而来, 如有版权及内容质疑,请即刻联系站长整改。分享是美德,欢迎转载,敬请注明出处

同类推荐
控制面板
您好,欢迎到访网站!
  查看权限
标签列表