OpenAI GPT-4即将发布。它是多模态的,这意味着如果谷歌不担心,那么现在就应该开始了。
微软德国首席技术官安德烈亚斯-布劳恩证实,GPT-4将在2023年3月9日的一周内到来,它将是多模式的。多模态人工智能意味着它将能够在多种输入中运作,如视频、图像和声音。
该公告的最大收获是,GPT-4是多模态的。
模态是指(在这种情况下)一个大型语言模型所处理的输入类型。
多模态可以包括文本、语音、图像和视频。
GPT-3和GPT-3.5只在一种模式下运行,即文本。
根据德国的新闻报道,GPT-4可能至少能在四种模式下运行,即图像、声音(听觉)、文本和视频。
引述微软德国首席技术官Andreas Braun博士的话:
报告缺乏对GPT-4的具体说明,因此不清楚所分享的多模态是专门针对GPT-4的还是一般的。
微软业务战略总监解释了多模态,但报告不清楚他是指GPT-4多模态还是一般的多模态。
我相信他对多模态的提及是针对GPT-4的。
该新闻报道分享了:
另一个有趣的事实是,微软正在研究 “信心指标”,以便用事实来支撑他们的人工智能,使其更加可靠。
在美国显然没有得到充分报道的事情是,微软在2023年3月初发布了一个名为Kosmos-1的多模态语言模型。
根据德国新闻网站的报道:
Kosmos-1是一个多模态模态,它整合了文本和图像的模态。
GPT-4比Kosmos-1更进一步,因为它增加了第三种模态,即视频,而且似乎还包括了声音模态。
GPT-4似乎可以在所有语言中工作。它被描述为能够接收德语的问题,并以意大利语回答。
这是个有点奇怪的例子,因为,谁会用德语问问题而想收到意大利语的答案呢?
这就是被证实的情况:
我相信这一突破的重点是,该模型超越了语言,具有跨越不同语言的知识能力。因此,如果答案是意大利语,它就会知道,并且能够用提问的语言提供答案。
这将使它类似于谷歌的多模态人工智能的目标,即MUM。据说MUM能够用英语提供答案,而这些数据只存在于另一种语言中,如日语。
目前还没有宣布GPT-4将出现在哪里。但Azure-OpenAI被特别提到。
谷歌正在努力追赶微软,将一项竞争性技术整合到自己的搜索引擎中。这一发展进一步加剧了人们的看法,即谷歌在面向消费者的人工智能方面正在落后,缺乏领导力。
谷歌已经在多个产品中整合了人工智能,如谷歌镜头、谷歌地图和消费者与谷歌互动的其他领域。这种方式是将人工智能作为一种辅助技术来利用,帮助人们完成小任务。
微软实施的方式更加明显,因此,它吸引了所有的注意力,并加强了谷歌的形象,使之成为耀武扬威和奋力追赶的对象。
德国报道原文:
全部评论
留言在赶来的路上...
发表评论