今天凌晨,OpenAI震撼发布了大型多模态模型GPT-4。
OpenAI老板SamAltman直接开门见山地介绍说:这是我们迄今为止功能最强大的模型!
而且不只是发布GPT-4这么简单,OpenAI这次“啪的一下”把相关“大动作”一步到位了:
✔ChatGPTPlus:集成GPT-4的ChatGPT升级版
✔发布GPT-4的API
✔公布技术论文*公开SystemCard
大家都还记得,2月初时微软和谷歌鏖战三天,2月8日微软发布ChatGPT版必应时,说法是必应「基于类ChatGPT技术」。
今天,谜底终于解开了——它背后的大模型,就是GPT-4!
微软营销主管在GPT-4发布后第一时间表示:「如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。」是的,微软的新必应早就已经用上了GPT-4。
GPT-4有多强?
GPT-4此次升级的亮点,当然就是多模态。
根据OpenAI官方的介绍,和上一代相比,GPT-4实现了以下几个方面的飞跃式提升:
✔ 强大的识图能力;
✔ 可接受的文字输入长度也增加到3.2万个token(相当于给它25000英文字的背景信息)。而上一个版本只能读取4096个token,相当于3000英文字信息,这个版本的进步是跨越式的。
✔ 回答准确性显著提高;
✔ 能够生成歌词、创意文本,实现风格变化。✔ 考试几乎满分,性能跃迁炸天
有趣的是,GPT-3.5和GPT-4之间的区别很微妙只有当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。
为了了解这两个模型之间的差异,OpenAI在各种基准和一些为人类设计的模拟考试上进行了测试。
例如,它通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
GPT-4在各种考试中,有几个测试几乎接近了满分。
如果光是「跑分」,ChatGPT-4属于是可以考进哈佛、斯坦福的水平。
✔ 另外,GPT-4在不同语种上的能力表现:中文的准确度大概在80%左右,已经要优于GPT-3.5的英文表现了。
在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能:
✔ 更重要的是,OpenAI还说GPT4比之前模型都更安全了。
在OpenAI的内部测试中,GPT4被「骗」到回复出不当答案的几率下降了82%,聊起敏感话题时(如医疗),它的回复合规性也提高了29%。
✔ 真实性、可控性等方面取得了有史以来最好的结果
OpenAI还花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。
总的来说,GPT-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%。
那么GPT-4这些新能力实际用起来是什么样的?
技术报告中也给出不少展示。
✔ 首先,看图能力可以用来解释表情包、梗图。
提问这张图哪里好笑?
GPT-4可以按顺序描述出每一格的内容,并总结出笑点:用巨大的过时VGA接口给小巧的现代智能手机充电。
✔ 更进一步,GPT-4可以理解图表中数据的含义,并做进一步计算。
看起来,现在的GPT已经不会在计算上胡言乱语了。
✔ 甚至可以直接把论文截图发给它,GPT-4可以按像素处理其中的文字和图片,并给出对整篇论文的总结摘要。
如果你对论文里的某一个图感兴趣呢?GPT-4也可以解释一下:
✔ 最惊艳的是,GPT-4对代码的超强的理解能力,帮你生成代码。
Greg直接在纸上画了一个潦草的示意图,拍个照,发给GPT说,给我按照这个布局写网页代码,就写出来了。
另外,如果运行出错了把错误信息,甚至错误信息截图,扔给GPT-4都能帮你给出相应的提示。
文字输入长度限制的增加,也大大扩展了GPT-4的实用性。
发布会直播上,OpenAI总裁Gregman现场表演了一波GPT-4给代码修Bug。出现问题啥也不用想,直接把1万字的程序文档一股脑扔给GPT-4就行。格式也不用管,你只需要Ctrl+A、Ctrl+C、Ctrl+V。
网友直呼:GPT-4发布会,手把手教你怎么取代程序员。
——
虽然GPT-4这波能力大升级,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI表示,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用)。
从前面的官方示例也可以看出,要想最大程度发挥GPT-4的能力,最好还是用上思维链路提示(Chain-of-thoughtPrompt)。
操作起来也非常简单,只需在提问的时候额外提醒AI给出步骤,就能大大提高推理和计算的准确率。
✔ OneMoreThing
在GPT-4发布之前,便有网友做出了GPT-3和GPT-4参数量的对比图,并猜测GPT-4的参数量将达到100万亿。
这一次亦是如此。
有网友预言,未来GPT-5的参数量,会是这样的:
但无论如何,这一次,我们离真「人工智能」,更近了一步。
综合整理自:量子位,机器之心,新智元等,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。
如有实验技术问题
可咨询管理员微信:zhbybio
中洪博元—提供精细化技术服务
因为你的分享、点赞、在看
我足足的精气神儿!
暂无评论内容