耳语+掌只是另一个层次
图片由作者用 DALL-E
我们这些英语非母语的人,多年来一直在努力达到流利的英语。多年来,最令人生畏的部分,当然是说话。你能理解吗?
我甚至参与了一个名为“Avalinguo”的语言学习初创公司,该公司旨在为世界各地想要提高口语技能的用户提供一个对话虚拟现实环境。
你知道,有四种语言技能:
- 阅读
- 写作
- 口头理解
- 讲
它们按照难度的递增顺序和开发资源的递减顺序排列。正如我在 2020 年的文章中讨论的,口语既是最具挑战性的语言技能,也是练习资源较少的技能。这种情况我称之为“谈话间隙”
此外,在另一篇帖子中,我提出了人工智能语音助手作为便捷的语言教师的案例。尽管如此,这仍然是未来的猜测,因为(当时)当前的人工智能能力对于这种语言学习场景的需要来说似乎低得惊人。
但随着几项关键技术的出现,这种情况即将改变,这些技术可能会改变游戏规则:
- OpenAI 耳语
- 谷歌的掌上电脑
你可能还记得 Siri 的第一个版本——嗯,如果你足够年轻的话,可能不记得了。但我记得我必须努力控制自己的外国口音,才能让 Siri 听懂。在新版本中情况并非如此,但我不知道我在多大程度上减少了我的英语口音,或者 Siri 语音识别功能得到了改善。
但是,如果你认为语音助手将是一名语言教师,它对口音的容忍度,尤其是对初学者来说,应该是巨大的,远远超过通常的语音助手的能力。这绝对是自动化语言教师的拦路虎。
现在进入耳语。
耳语最近由 OpenAI 向公众发布(我的天,他们还没忙够 DALL-E 吗?).它是一个通用的、开源的、生成式深度学习语音理解软件。OpenAI 声称它在语音识别性能和鲁棒性方面“接近人类水平”,因为它在嘈杂的环境中工作良好。我可以告诉你,发布博文中包含的在线演示令人印象深刻。哦,顺便说一下,它还提供语言识别,多语言语音转录,以及语音翻译成英语。
最重要的是,它可以挑出不寻常的口音。
是啊!这种功能正是以前的语音助手在成为会话式语言助手的过程中所缺少的。
成为好的会话语言助手的第二个障碍是一般的会话能力。
要知道,原则上是可以根据具体的语言课,让对话机器人和语音助手按照预先指定的脚本进行编程的。但这并不是向非英语母语者提供会话帮助所需要的,原因有二:
- 为语音助手编程每一课变得很昂贵。事实上,这条“脚本化”的道路已经被用于不同的目的很多次了,因为它首先是唯一可用的道路。你可能知道,Siri 和其他人工智能语音助手使用预定义的答案来“增加趣味”对话,例如,如果你问,“生命的意义是什么”,Siri 会回答,“我不知道,但有一个应用程序可以做到这一点,”这当然会让我们发笑。尽管如此,我们知道它是由人类引进的。它不是“即时”生成的
- 预定义的可能答案的范围通常很窄,这破坏了聊天的自发性。在大多数自动语言助手中,这是一个令人震惊的现实,比如原本漂亮的 VR Mondly 应用程序。
拥有一般的会话能力会让谈话练习助手更有帮助,更有趣,也更便宜。总结所有这些因素,一般的对话能力是一个游戏改变者。
现在进入谷歌的 LaMDA 和 PaLM
一个真正灵活和廉价的语言对话助手所需的第二项技术可以由谷歌最近的实验产品提供,特别是对话应用程序的语言模型和 T2 路径语言模型。正如我们从今年之前的事件中所知,谷歌前雇员布雷克·莱莫因负责测试 LaMDA 的能力。尽管如此,他还是非常惊讶,以至于他在软件产品中“认识到感知”的极端(并公开宣布,这导致他被解雇)。PaLM 是一个大型语言模型(我们可以肯定它很大,有 5400 亿个参数)。这是当前深度学习生成变压器的一部分,从 GPT-3 开始(请阅读完整的参考帖子以了解更多技术细节)。
我不打算在这里详细解释 LaMDA 或 PaLM 是如何工作的,因为我感兴趣的是它们在语言学习对话场景中的应用。但有趣的是,LaMDA 的评估指标之一是“有趣”,这当然有助于在语言学习口语练习的情况下与语音助手进行有趣的对话:对回答的兴趣被定义为“有见地、出乎意料或机智”
顺便说一下,LaMDA 和 PaLM 面临着来自其他 LLM 的激烈竞争,如 Gopher 和 Chinchilla。但 PaLM 显示优势的一个方面是常识推理,这在之前对于生成式人工智能深度学习系统来说是相当难以捉摸的。作为一个例子,看看下面的“笑话解释”任务:
解释这个笑话:
你看到谷歌刚刚为他们的 TPU 团队雇佣了一个能说会道的鲸鱼吗?它向他们展示了如何在两个不同的豆荚之间进行交流!
车型响应
TPU 是谷歌用于深度学习的一种计算机芯片。“pod”是一组 TPU。一个“荚”也是一群鲸鱼。笑话是,鲸鱼能够在两组鲸鱼之间进行交流,但说话者假装鲸鱼能够在两组 TPU 之间进行交流。
这个笑话很糟糕,但解释很好。在最近的一篇帖子中,我提到了人工智能系统解释笑话有多困难。
一个小细节是,LaMDA 和 PaLM 都是纯文本的机器人。尽管如此,随着当前的开箱即用的语音生成和先前评论的耳语语音识别,它不是一个重大的障碍。
这个帖子的标题承诺语言教师,但是到现在,你可以看到我们真的需要会话语言助理。我们通常不需要了解具体的英语语言的复杂性,而是需要进行口语练习。一个包括 PaLM 和 Whisper 的系统将成为一个随时可用、廉价、通用、有时甚至令人惊讶的语言对话教练。
请不要误会我的意思:在大多数情况下,人类接触,尤其是人类对话伙伴,在口语练习方面比语音助手更好,但这两者并不排斥。首先,找一个语言学习伙伴并不像听起来那么容易。即使你得到了一个,在连续的会话中,对话质量往往会越来越差,从第一次令人兴奋和振奋的对话到尴尬的交流(除非你成为真正的朋友)。请相信我的话:我和语言学习公司的首席执行官们讨论过这个问题。
此外,我认为首先要在自动化助手的帮助下在对话中变得自信,然后享受与人类对话伙伴的流畅,而不是制造他们(和我们!)经历口吃、寻找词语和其他典型的会话发展初始阶段的折磨。
如果有一种品质可以让人工智能语音助手脱颖而出,那就是耐心。有时你不能认为人类语言伙伴的耐心是理所当然的。