查看原文
其他

【9.29】ChatGPT Voice能力及对LLM应用层产品设计的影响 快报

孔某人 孔某人的低维认知
2024-08-22

(我很少使用一个天级别的Tag,但我确实怀疑本文可能需要在1-2周之内重新以更新我那时候的最新思考。)

这个功能如此重要,让我不得不在云评测它的3个小时之内来写一篇文章,提醒大家Killer Feature(注意不是Killer App)来了。

1、ChatGPT Voice能力简评

目前仅限Plus用户,仍然在灰度放量阶段,官方说2周内会放量完成。Plus重新变得值得买了,建议都买来体验下。

虽然链接稳定性方面还不够好,但瑕不掩瑜,我估计很可能用不了太长时间OpenAI就能解决此问题。

能力评价:

  • 语音的东西没法很好的通过文字描述,这里请大家在微信上搜各种这方面的测试视频来看。

  • 语音合成的效果质量很好,虽然不是完全没有毛病,但如果不是特意挑刺已经很难意识到这是机器人。

  • 并非大家看到的中低档TTS效果,在TTS效果里我认为也算是很好的。而且自带了很多停顿、嗯啊等等拟真的效果,完全为被当成一个真人和特化。

  • 强调重音等效果都有,完全不是国内常见的廉价TTS的水平。我没有对比过跟大饼AI变声的TTS效果优化的差别,但我怀疑应该并不会比大饼AI差。

  • 在对话内容上感觉也为双方语音交流做了特化,不是简单文字内容的TTS。

1.1、实现方式推测

虽然我目前还没有能够针对这方面验证的测试case,但我怀疑这不是单纯的Speech->Text->Text->Speech。不少人觉得是Speech->Speech。

我觉得大概是这样:

  1. 用户输入Speech->Text

  2. 用户的Speech和Text同时进模型

  3. 模型能两路分别输出Text和Speech,但具体实现思路仍然不止一种。


我个人猜测是:先生成Text,然后基于Text和输入Speech来合成输出Speech。

模型训练时候有两个输出端,分别拟合Text和Speech。内部的这个Text模态中可能带有一些情绪语调等标记,也可能没有,全靠模型暴力。

但官方说法是:(来自 ChatGPT can now see, hear, and speak )

The new voice capability is powered by a new text-to-speech model, capable of generating human-like audio from just text and a few seconds of sample speech. We collaborated with professional voice actors to create each of the voices. We also use Whisper, our open-source speech recognition system, to transcribe your spoken words into text.
新的语音功能由一个新的文本到语音模型提供支持,能够仅通过文本和几秒钟的语音样本生成类似人类的音频。我们与专业配音演员合作,为每个人配音。我们还使用我们的开源语音识别系统 Whisper 将您说的话转录成文本。

说的就像是一个高质量版的TTS模型。但我仍然对此有些怀疑,具体还需要我自己上手针对性测试一些之后再进行猜测。我前面说的思路就当作是这类模型的下一代架构吧,如果单纯TTS的框架真的有某些限制的情况下。

2、对应用产品的影响 不完全思考

简略列举一些,不过多展开讨论:

【1】之前大家认知的NLUI基本可以扔垃圾桶了,Speech->Speech才是NLUI的最佳实现。

打字和看大量文字的UI只是五环内人群在环境受限情况下的【备用】选择,以及在输出文字量太大时候的用户优化信息输入速度(通过略读)的手段而已。如果没有这些限制,语音似乎更好。

【1.1】这对于五环外人群的使用体验提升极大。

【2】情感陪伴类产品和其他一些非纯效率类产品在试图提升其产品的情绪满足价值,但ChatGPT Voice现在直接降维打击。纯文字输入输出做的再好,也不可能有ChatGPT Voice这样的情绪满足能力,类似从30分到了75分。

当然这个事情不是只做好Text与Speech互转就行了,而是需要文本生成过程也需要为对话场景优化。

【3】目前较长的延迟问题我觉得并不难接受,就想象双方在发微信语音消息沟通一样。同时给一个“对方正在录音”之类的提示信息就会提升接受度。

3、对模型层生态的影响

【1】大家会就此开始卷高质量TTS模型。

【2】OpenAI开放Voice API的时候,上层应用生态就真的要爆炸了。很多的产品设计都该重做了。

【3】低质量的模仿方案应该不长时间内就能看到,但真的能实现想ChatGPT Voice这样难以区分是不是真人的效果什么时候才能有呢?

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

希望留言可以知乎对应文章下留言


本文于2023.9.29首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/659030505

个人观点,仅供参考
继续滑动看下一个
孔某人的低维认知
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存