深入了解ChatGPT-4,有使用案例!!

深入了解ChatGPT-4,有使用案例!!

GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),新增图像输入。虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现超出90%人类水平的表现

GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。

他们花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可控性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。

熟悉GPT从进度开始

在过去的两年里,Openai重建了整个深度学习堆栈,并与 Azure 一起从头开始为他们的工作负载共同设计了一台超级计算机。

一年前,Openai训练 GPT-3.5 作为系统的第一次“试运行”。发现并修复了一些错误并改进了我们的理论基础。这次的GPT-4 的训练运行是前所未有地稳定,成为能够提前准确预测其训练性能的第一个大型模型。

Openai开源了 OpenAI Evals,这是用于自动评估 AI 模型性能的框架,允许任何人向Openai报告模型中的缺点,以帮助指导进一步改进。

Capabilities 能力

在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,让GPT-4在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。没有针对这些考试进行专门培训下,通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的模拟考试来继续进行。模型在训练期间看到了考试中的少数问题,但它的结果具有代表性——详情请参阅下面的的技术报告。

这个表格体现出,GPT4考试的成绩比GPT3.5都要高出一截,看图可以知道GPT3.5的成绩在很多方面是很差的,现在GPT-4有了质的提升,成就达到了优秀以上,比如律师资格考试。可以看出一次的更新是把它的逻辑能力、解决问题的能力又进一步的拓宽了。

下面是详细的成就表:

还在机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,这些模型可能包括特定于基准的制作或额外的训练协议:

GPT-4的百分比超过了市面上现有的大型语言模型,以及最先进的 (SOTA) 模型。

在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。这也是很多人用它来翻译的原因。

Openai也在内部使用 GPT-4,对支持、销售、内容审核和编程等功能产生了巨大影响。我们还使用它来帮助人类评估 AI 输出,开始我们对齐策略的第二阶段。体会一下上面那句话,是不是意味着这几种职业会受到GPT-4的很大冲击?

新增功能:Visual inputs 视觉输入

GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。

具体来说,它在给定由散布的文本和图像组成的输入的情况下生成文本输出(自然语言、代码等)。

在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。

此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少量镜头和思维链提示。图像输入仍然是研究预览,不公开。

下面问的几个问题:

格鲁吉亚和西亚的平均每日肉类消费量总和是多少?在提供你的答案之前提供一个循序渐进的推理。

深入了解ChatGPT-4,有使用案例!!

GPT-4:

要找到格鲁吉亚和西亚的平均每日肉类消费量总和,我们将遵循以下步骤:

1. 确定格鲁吉亚的平均每日肉类消费量。

2. 确定西亚的平均每日肉类消费量。

3. 添加步骤 1 和 2 中的值。

第 1 步:从提供的图表中,我们看到格鲁吉亚的平均每日肉类消费量为每人每天 79.84 克。

步骤 2:从图表中我们可以看出,西亚的人均每日肉类消费量为 69.62 克/人/天。

第 3 步:将第 1 步和第 2 步中的值相加。

79.84 克(格鲁吉亚)+ 69.62 克(西亚)= 149.46 克

因此,格鲁吉亚和西亚的平均每日肉类消费量总和为每人每天 149.46 克。

案例:循序渐进地思考

还通过在一套狭窄的标准学术视觉基准上对其进行评估来预览 GPT-4 的性能。

然而,这些数字并不能完全代表其能力范围,因为我们不断发现该模型能够处理的新的和令人兴奋的任务。

我们计划很快发布进一步的分析和评估数据,并彻底调查测试时间技术的影响。

Steerability: Socratic tutor 可操纵性:苏格拉底导师

与具有固定冗长、语气和风格的经典 ChatGPT 个性不同,开发人员(以及很快的 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 的风格和任务。系统消息允许 API 用户在一定范围内显着定制他们的用户体验。我们将继续在这里进行改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即遵守边界并不完美)

GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了幻觉。在我们的内部对抗性真实性评估中,GPT-4 的得分比我们最新的 GPT-3.5 高 40%:

怎么使用GPT-4

ChatGPT Plus 订阅者获得具有使用上限的 GPT-4 访问权限。获得访问权限后,可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段).gpt-4 的上下文长度为 8,192 个标记。我们还提供对我们的 32,768-上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新。

国内如何开通 ChatGPT Plus

全网最全的chatgpt注册教学

期待后续更新信息,请关注我不要走丢了。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容