语音识别语言ai可见

图片来源：

iStock

Vokenization：人工智能可以看到的语言

随着图像现在被纳入人工智能 (AI) 系统训练，机器人可能很快就能“看到”命令。

作者：
作者姓名
量子运行远见
2023 年 5 月 9 日

自然语言处理 (NLP) 使人工智能 (AI) 系统能够通过理解单词并将上下文与情绪匹配来学习人类语音。唯一的缺点是这些 NLP 系统是纯粹基于文本的。语音化即将改变这一切。

语音化上下文

两种基于文本的机器学习 (ML) 程序通常用于训练 AI 处理和理解人类语言：OpenAI 的生成式预训练 Transformer 3 (GPT-3) 和谷歌的 BERT（来自 Transformers 的双向编码器表示）。在 AI 术语中，NLP 训练中使用的词称为标记。北卡罗来纳大学 (UNC) 的研究人员观察到，基于文本的培训计划是有限的，因为它们无法“看到”，这意味着它们无法捕捉视觉信息和交流。

例如，如果有人问 GPT-3 羊是什么颜色的，系统通常会回答“黑色”，即使它显然是白色的。此响应是因为基于文本的系统会将其与术语“害群之马”相关联，而不是识别正确的颜色。通过将视觉效果与标记 (voken) 相结合，AI 系统可以对术语有一个整体的理解。 Vokenization 将 vokens 集成到自我监督的 NLP 系统中，使它们能够发展“常识”。

整合语言模型和计算机视觉并不是一个新概念，它是 AI 研究中一个快速扩展的领域。这两种类型的人工智能的结合利用了它们各自的优势。像 GPT-3 这样的语言模型是通过无监督学习进行训练的，这使得它们可以轻松扩展。相比之下，像对象识别系统这样的图像模型可以直接从现实中学习，而不依赖于文本提供的抽象。例如，图像模型可以通过看图片识别出一只羊是白色的。

破坏性影响

vokenization 的过程非常简单。 Vokens 是通过将相应或相关的图像分配给语言标记来创建的。然后，算法（vokenizer）被设计为通过无监督学习（没有明确的参数/规则）生成vokens。通过vokenization训练的常识AI可以更好地交流和解决问题，因为它们对上下文有更深入的理解。这种方法是独一无二的，因为它不仅可以预测语言标记，还可以预测图像标记，这是传统 BERT 模型无法做到的。

例如，机器人助手将能够更好地识别图像和导航流程，因为他们可以“看到”他们需要什么。受过编写内容训练的人工智能系统将能够制作出听起来更人性化、思想更流畅的文章，而不是杂乱无章的句子。考虑到 NLP 应用的广泛范围，语音化可以带来性能更好的聊天机器人、虚拟助手、在线医疗诊断、数字翻译等。

此外，视觉和语言学习的结合在医学成像应用中越来越受欢迎，特别是自动化医学图像诊断。例如，一些研究人员正在对附带文本描述的射线照片图像进行这种方法的试验，其中语义分割可能非常耗时。语音识别技术可以通过利用文本信息来增强这些表示并改进自动化医学成像。