ChatGPT大升级!GPT-4震撼发布,太太太太强大了!

 提示点击上方”中洪博元“↑免费订阅本刊

科研工具作图丨实验SCI统计分析国自然

今天凌晨,OpenAI震撼发布了大型多模态模型GPT-4。

OpenAI老板SamAltman直接开门见山地介绍说:这是我们迄今为止功能最强大的模型!

而且不只是发布GPT-4这么简单,OpenAI这次“啪的一下”把相关“大动作”一步到位了:

✔ChatGPTPlus:集成GPT-4的ChatGPT升级版

✔发布GPT-4的API

✔公布技术论文*公开SystemCard

大家都还记得,2月初时微软和谷歌鏖战三天,2月8日微软发布ChatGPT版必应时,说法是必应「基于类ChatGPT技术」。

今天,谜底终于解开了——它背后的大模型,就是GPT-4!

微软营销主管在GPT-4发布后第一时间表示:「如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。」是的,微软的新必应早就已经用上了GPT-4。

GPT-4有多强?

GPT-4此次升级的亮点,当然就是多模态。

根据OpenAI官方的介绍和上一代相比,GPT-4实现了以下几个方面的飞跃式提升:

✔ 强大的识图能力;

✔ 可接受的文字输入长度也增加到3.2万个token(相当于给它25000英文字的背景信息)。而上一个版本只能读取4096个token,相当于3000英文字信息,这个版本的进步是跨越式的。

✔ 回答准确性显著提高;

✔ 能够生成歌词、创意文本,实现风格变化。

✔ 考试几乎满分,性能跃迁炸天

有趣的是,GPT-3.5和GPT-4之间的区别很微妙只有当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两个模型之间的差异,OpenAI在各种基准和一些为人类设计的模拟考试上进行了测试。

例如,它通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。

GPT-4在各种考试中,有几个测试几乎接近了满分。

如果光是「跑分」,ChatGPT-4属于是可以考进哈佛、斯坦福的水平。

另外,GPT-4在不同语种上的能力表现:中文的准确度大概在80%左右,已经要优于GPT-3.5的英文表现了。

在测试的26种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

✔ 更重要的是,OpenAI还说GPT4比之前模型都更安全了。

在OpenAI的内部测试中,GPT4被「骗」到回复出不当答案的几率下降了82%,聊起敏感话题时(如医疗),它的回复合规性也提高了29%。

✔ 真实性、可控性等方面取得了有史以来最好的结果

OpenAI还花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训对GPT-4进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。

总的来说,GPT-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5模型高40%。

那么GPT-4这些新能力实际用起来是什么样的?

技术报告中也给出不少展示。

✔ 首先,看图能力可以用来解释表情包、梗图。

提问这张图哪里好笑?

GPT-4可以按顺序描述出每一格的内容,并总结出笑点:用巨大的过时VGA接口给小巧的现代智能手机充电。

✔ 更进一步,GPT-4可以理解图表中数据的含义,并做进一步计算。

看起来,现在的GPT已经不会在计算上胡言乱语了。

✔ 甚至可以直接把论文截图发给它,GPT-4可以按像素处理其中的文字和图片,并给出对整篇论文的总结摘要

如果你对论文里的某一个图感兴趣呢?GPT-4也可以解释一下:

✔ 最惊艳的是,GPT-4对代码的超强的理解能力,帮你生成代码。

Greg直接在纸上画了一个潦草的示意图,拍个照,发给GPT说,给我按照这个布局写网页代码,就写出来了。

另外,如果运行出错了把错误信息,甚至错误信息截图,扔给GPT-4都能帮你给出相应的提示。

文字输入长度限制的增加,也大大扩展了GPT-4的实用性。

发布会直播上,OpenAI总裁Gregman现场表演了一波GPT-4给代码修Bug。出现问题啥也不用想,直接把1万字的程序文档一股脑扔给GPT-4就行。格式也不用管,你只需要Ctrl+A、Ctrl+C、Ctrl+V。

网友直呼:GPT-4发布会,手把手教你怎么取代程序员。

——

虽然GPT-4这波能力大升级,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI表示,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用)

从前面的官方示例也可以看出,要想最大程度发挥GPT-4的能力,最好还是用上思维链路提示(Chain-of-thoughtPrompt)

操作起来也非常简单,只需在提问的时候额外提醒AI给出步骤,就能大大提高推理和计算的准确率。

✔ OneMoreThing

在GPT-4发布之前,便有网友做出了GPT-3和GPT-4参数量的对比图,并猜测GPT-4的参数量将达到100万亿。

这一次亦是如此。

有网友预言,未来GPT-5的参数量,会是这样的:

但无论如何,这一次,我们离真「人工智能」,更近了一步。

综合整理自:量子位,机器之心,新智元等,分享只为学术交流,如涉及侵权问题请联系我们,我们将及时修改或删除。

如有实验技术问题

可咨询管理员微信:zhbybio

中洪博元—提供精细化技术服务

因为你的分享、点赞、在看

我足足的精气神儿!

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容