Buzz 是一款基于 OpenAI 的 Whisper 的免费桌面应用程序。它可以轻松地自动将音频转录为文本。它有多种型号,您只需对着麦克风说话,它就会几乎实时地将其转换为文本。这是一个完全开源的工具,可在 Windows、macOS 和 Linux 上运行。它下面使用的机器学习模型非常强大。通过将音频系统连接到麦克风,您也可以自动将歌曲和视频转录为文本。您只需启动它,然后它就会开始收听来自麦克风的音频,并将其免费转换为文本。除了转录音频外,它还可以在翻译模式下工作。在这种情况下,您只需选择目标语言,然后它就会处理剩下的事情。但是,目前它仅支持英语作为输入。您只能翻译或转录英语口语单词。但我希望他们在以后的更新中增加对更多语言的支持。OpenAI 几天前推出了 Whisper。Wisper 是一个开源神经网络,可提供人类水平的准确性和强大的英语语音识别经验。它是相当新的,因此我希望他们能在即将到来的更新中添加更强大的语言支持。使用 OpenAI 的 Whisper 将音频转换为文本的免费工具:BuzzBuzz 可在 GitHub 上找到。它是用 Python 编写的。因此,您可以直接从源代码运行它。或者,您可以使用此工具的开发人员提供的独立二进制版本。如果您决定使用源代码,那么您将需要安装 Python 和诗歌库。之后,您只需运行此命令即可安装所有必需的依赖项和虚拟环境。诗歌安装为简单起见,您只需下载二进制版本并直接运行它即可。提供适用于 Mac、Windows 和 Linux 的版本。在这里,我使用的是 Windows 版本,所以,您只需下载它并直接运行它。这是一个相当繁重的软件,所以我建议您在硬件配置较高的计算机上尝试一下。您要做的第一件事是选择麦克风并指定模式。默认情况下,它以听录模式运行。现在,你就让它开始吧。第一次运行它时,它将在后台下载模型。所以,第一次运行会慢一点。准备就绪后,您只需点击 记录 按钮。之后,您可以开始说话,文本将出现在编辑器中。转录过程还取决于许多因素,例如延迟。有关不同型号的更多信息,请参阅下表:大小参数纯英文型号多语言模式所需 VRAM相对速度小39 米小网小~1 GB~32倍基础74 米base.en基础~1 GB~16 倍小244 米小.cn小~2 GB~6倍中等769 米medium.cn中等~5 GB~2倍大1550 米不适用大~10 GB1倍您现在可以继续以这种方式使用此软件并进行语音转文本。准确性是公平的。但它并不像 Windows 10,11 和/或 Speechnotes 网站的语音输入那样流畅。目前,它只是工作,您可以使用它来测试 OpenAI 的 Whisper 的准确性和可用性。关闭的思考:Whisper 是一个令人惊叹的语音转文本神经网络。作为开发人员或程序员,您可以使用它来构建需要语音转文本功能的软件和应用程序。精度不错,但从现在开始缺少速度和平滑度。但这只是 GUI 的限制,而不是模型本身的限制。我希望他们在即将到来的更新中改进用户界面。


.jpg)

.jpg)

.jpg)

.jpg)

