澳门人威尼斯4399(中国)-搜狗百科

技术前沿｜ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像

发布时间：2023/10/17

返回列表

近日， OpenAI 发布了名为 GPT-4V (ision) 的 ChatGPT 4 的多模态语音和图像升级版本。OpenAI 公布了一份19页的GPT-4V (ision) 报告，题目为「ChatGPT can now see, hear, and speak」并详细介绍了该模型的相关信息。

此功使得 ChatGPT 不只是能够解析用户输入的文本，它还具备识别和理解语音、图像的功能。其语音识别功能使 ChatGPT 具备了与Siri、小爱同学相似的技能。此外，ChatGPT 提供不同的语音选项供用户选择，并能将语音音频转化为文本，或将播客内容翻译成其他语言。

GPT-4V (ision) 的开发完成于2022年，并在2023年3月开始提供早期体验。GPT-4V的训练策略与GPT-4保持一致，首先采用大量的文本和图像资料进行初步训练，随后通过人类反馈的强化学习进行细化调整。9月底下，OpenAI正式官宣ChatGPT升级为多模态通用大模型。

多模态 ChatGPT 的主要更新点包括：

• 图像分析：升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容，并根据图像信息进行响应。

• 语音处理：增加了语音交互功能。其语音识别采用OpenAI的Whisper模型。对于语音合成功能，OpenAI采用新颖的“文本转语音模型”。此功能发布后，用户可以选择通过配置其应用程序设置进行语音交互来激活它。他们可以从五种不同的人工声音中进行选择，每种声音都有独特的名称，例如“Juniper”、“Sky”。OpenAI 强调，这些声音是与经验丰富的配音演员合作精心策划的。

01 尝鲜多模态ChatGPT

下图是让ChatGPT描述图像的一个案例：

在ChatGPT APP上与ChatGPT进行对话，解释最近热火的超导问题：

下面是相关的实时转录字幕：

其英文语音理解和合成的能力非常流畅和准确。此外，我还尝试用中文、日语、韩语与之交流，发现大部分语种都能理解和合成，小编此处实在比不过。也只能让他自己介绍自己会的语种：

从他的回答可以看出，他会很多语种，但是对比普通常见的英文，汉语等大数据量的语种，其小语种的识别和合成准确率还是有差距，这也反应了一个事实：数据规模和质量决定 AI 模型的性能。由于小语种数据短缺，发音的特异性和语言标注较难等原因，导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。

02 如何优上更优

ChatGPT 已经非常优秀，但是针对上面的小语种情况，还是可以优化。OpenAI官方宣布其ASR模型用的是Whisper，Whisper的小语种识别范围广泛，但是小语种ASR识别性能没有英语这类数据量多的常见语种好。在特定小语种的使用场景下，可以采用小语种的数据做域的自适应。

小语种识别ASR的 Domain Adaptation 是指将自动语音识别技术适应到小语种或特定领域的过程。小语种通常指的是那些相对于世界上主要语言（如英语、中文、西班牙语等）使用人数较少的语言。由于这些语言的数据资源有限，直接训练高效的ASR模型会面临挑战。

Domain Adaptation 在这里的目的是利用大量的已有资源（如大语种的预训练模型）来帮助小语种或特定领域的ASR性能提升。以下是一些常用的策略：

• 迁移学习：首先在大语种上预训练一个ASR模型，然后使用小语种的数据进行微调。

• 多任务学习：同时训练模型处理多种语言的任务，这样可以使模型从各种语言中学习到共同的特征。

• 数据增强：通过技术手段如变速、变调、添加噪声等方法增加小语种的训练数据量。

• 模拟数据：使用文本到语音（TTS）技术为小语种生成模拟的语音数据。

• 自适应前端：设计能够适应不同语言特性的声学模型前端。

• 多模型融合：结合多个模型的输出来提高识别准确性。

• 使用半监督学习：利用大量未标注的小语种数据与少量标注数据共同训练模型。

无论采用上述哪种策略，都离不开少量但精确标注的小语种数据作为域内数据，以适应预训练好的大型模型。这强调了小语种数据的精确标注和采集的重要性。这些数据在语音识别领域具有无可替代的价值，因为它们为模型提供了必要的“指导”，使其能够更好地理解和处理小语种。

澳门人威尼斯4399在语音识别领域已经拥有近20年的积累，覆盖全球超 200个主要语种及方言，已积累近1500个自有知识产权的 AI 训练数据产品，并每年持续投入研发并推出众多小语种数据。这些数据不仅能够为科研机构提供宝贵的资源，也为工业界在大模型到小语种应用场景的迁移中提供了支持。

摩洛哥阿拉伯语识别语音库 King-ASR-908

该产品库通过单通道电话设备在较为安静的办公室/居住环境中录制了54人、50小时的摩洛哥-阿拉伯语对话数据。对话内容涉及明星、电脑及软硬件、教育、娱乐消遣、家族、美食、交友、健康、日常生活、婚姻恋爱、电影、音乐、新闻、宠物、时尚购物、社交、运动健身、旅游、电视节目、天气和工作。整个数据库包含录音、转写、发音词典、发音人信息等数据库相关文件。

波斯尼亚语识别语音库 King-ASR-823

该产品库通过单通道手机设备在较为安静的办公室/居住环境中录制了177人、100小时的波斯尼亚语数据。语料领域涉及新闻、旅游、经济、娱乐、运动、科技、对话和单词。整个数据库包含录音、校对、发音词典、发音人信息等数据库相关文件。

印地语识别语音库 King-ASR-817

该产品库通过单通道手机设备在较为安静的办公室环境中录制了721人、1225小时的印度印地语造句数据。语料领域涉及通用口语、旅游购物、数字时间、医疗新冠、教育学习、人名地名、政治外交、科技数码、体育娱乐和社会经济。整个数据库包含录音、校对、发音词典、发音人信息等数据库相关文件。

了解更多语音识别数据集：https://www.dataoceanai.com/dsvoice/catid-52.htm

上一篇：再获殊荣｜澳门人威尼斯4399入选IDC中国数据智能市场生态图谱下一篇：技术前沿｜数据清洗：大模型训练前的热身

澳门人威尼斯4399(中国)-搜狗百科

企业资讯