澳门人威尼斯4399(中国)-搜狗百科

企业资讯

技术前沿|ChatGPT升级版本GPT-4V(ision)支持多模态语音和图像
发布时间:2023/10/17
返回列表
近日, OpenAI 发布了名为 GPT-4V (ision) 的 ChatGPT 4 的多模态语音和图像升级版本。OpenAI 公布了一份19页的GPT-4V (ision) 报告,题目为「ChatGPT can now see, hear, and speak」并详细介绍了该模型的相关信息。
此功使得 ChatGPT 不只是能够解析用户输入的文本,它还具备识别和理解语音、图像的功能。其语音识别功能使 ChatGPT 具备了与Siri、小爱同学相似的技能。此外,ChatGPT 提供不同的语音选项供用户选择,并能将语音音频转化为文本,或将播客内容翻译成其他语言。
GPT-4V (ision) 的开发完成于2022年,并在2023年3月开始提供早期体验。GPT-4V的训练策略与GPT-4保持一致,首先采用大量的文本和图像资料进行初步训练,随后通过人类反馈的强化学习进行细化调整。9月底下,OpenAI正式官宣ChatGPT升级为多模态通用大模型。
多模态 ChatGPT 的主要更新点包括:
•  图像分析:升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容,并根据图像信息进行响应。
•  语音处理:增加了语音交互功能。其语音识别采用OpenAI的Whisper模型。对于语音合成功能,OpenAI采用新颖的“文本转语音模型”。此功能发布后,用户可以选择通过配置其应用程序设置进行语音交互来激活它。他们可以从五种不同的人工声音中进行选择,每种声音都有独特的名称,例如“Juniper”、“Sky”。OpenAI 强调,这些声音是与经验丰富的配音演员合作精心策划的。
 
01 尝鲜多模态ChatGPT
 
下图是让ChatGPT描述图像的一个案例:
 
在ChatGPT APP上与ChatGPT进行对话,解释最近热火的超导问题:
 
下面是相关的实时转录字幕:
 
其英文语音理解和合成的能力非常流畅和准确。此外,我还尝试用中文、日语、韩语与之交流,发现大部分语种都能理解和合成,小编此处实在比不过。也只能让他自己介绍自己会的语种:
 
从他的回答可以看出,他会很多语种,但是对比普通常见的英文,汉语等大数据量的语种,其小语种的识别和合成准确率还是有差距,这也反应了一个事实:数据规模和质量决定 AI 模型的性能。由于小语种数据短缺,发音的特异性和语言标注较难等原因,导致ChatGPT对于小语种的语音识别和合成并不是非常的准确。
 
 
02  如何优上更优
ChatGPT 已经非常优秀,但是针对上面的小语种情况,还是可以优化。OpenAI官方宣布其ASR模型用的是Whisper,Whisper的小语种识别范围广泛,但是小语种ASR识别性能没有英语这类数据量多的常见语种好。在特定小语种的使用场景下,可以采用小语种的数据做域的自适应。
小语种识别ASR的 Domain Adaptation 是指将自动语音识别技术适应到小语种或特定领域的过程。小语种通常指的是那些相对于世界上主要语言(如英语、中文、西班牙语等)使用人数较少的语言。由于这些语言的数据资源有限,直接训练高效的ASR模型会面临挑战。
Domain Adaptation 在这里的目的是利用大量的已有资源(如大语种的预训练模型)来帮助小语种或特定领域的ASR性能提升。以下是一些常用的策略:
•  迁移学习:首先在大语种上预训练一个ASR模型,然后使用小语种的数据进行微调。
•  多任务学习:同时训练模型处理多种语言的任务,这样可以使模型从各种语言中学习到共同的特征。
•  数据增强:通过技术手段如变速、变调、添加噪声等方法增加小语种的训练数据量。
•  模拟数据:使用文本到语音(TTS)技术为小语种生成模拟的语音数据。
•  自适应前端:设计能够适应不同语言特性的声学模型前端。
•  多模型融合:结合多个模型的输出来提高识别准确性。
•  使用半监督学习:利用大量未标注的小语种数据与少量标注数据共同训练模型。
无论采用上述哪种策略,都离不开少量但精确标注的小语种数据作为域内数据,以适应预训练好的大型模型。这强调了小语种数据的精确标注和采集的重要性。这些数据在语音识别领域具有无可替代的价值,因为它们为模型提供了必要的“指导”,使其能够更好地理解和处理小语种。
 
澳门人威尼斯4399在语音识别领域已经拥有近20年的积累,覆盖全球超 200个主要语种及方言,已积累近1500个自有知识产权的 AI 训练数据产品,并每年持续投入研发并推出众多小语种数据。这些数据不仅能够为科研机构提供宝贵的资源,也为工业界在大模型到小语种应用场景的迁移中提供了支持。
 
摩洛哥阿拉伯语识别语音库 King-ASR-908
该产品库通过单通道电话设备在较为安静的办公室/居住环境中录制了54人、50小时的摩洛哥-阿拉伯语对话数据。对话内容涉及明星、电脑及软硬件、教育、娱乐消遣、家族、美食、交友、健康、日常生活、婚姻恋爱、电影、音乐、新闻、宠物、时尚购物、社交、运动健身、旅游、电视节目、天气和工作。整个数据库包含录音、转写、发音词典、发音人信息等数据库相关文件。
波斯尼亚语识别语音库 King-ASR-823
该产品库通过单通道手机设备在较为安静的办公室/居住环境中录制了177人、100小时的波斯尼亚语数据。语料领域涉及新闻、旅游、经济、娱乐、运动、科技、对话和单词。整个数据库包含录音、校对、发音词典、发音人信息等数据库相关文件。
印地语识别语音库 King-ASR-817
该产品库通过单通道手机设备在较为安静的办公室环境中录制了721人、1225小时的印度印地语造句数据。语料领域涉及通用口语、旅游购物、数字时间、医疗新冠、教育学习、人名地名、政治外交、科技数码、体育娱乐和社会经济。整个数据库包含录音、校对、发音词典、发音人信息等数据库相关文件。
 
了解更多语音识别数据集:https://www.dataoceanai.com/dsvoice/catid-52.htm
 

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。

XML 地图