10分钟带你搞懂大火的chatgpt算法的底层逻辑

10分钟带你搞懂大火的chatgpt算法的底层逻辑

NLP算法AI的里程碑coolest  !!!cooler !!!!!cool !!!!的公司黑科技最OPENAI它来了GPTCHAT

作者:密斯特李

当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 Real 音乐: Capo Productions – Escape

在上方点击音乐开始阅读

阅读建议时间:10-15分钟

一则关于“科技取代人类”的古老寓言

2023年,微软子公司OPENAI将chatgpt模型发布在官网公测(网址需要梯子:ChatGPT: Optimizing Language Models for Dialogue (openai.com))2个月后,作为人工智能的chatgpt因为它强大的人类交互能力迅速火爆了海内外。截至2月8日,A股市场和美股市场ChatGPT概念板块在一周时间内上涨超过20%。似乎宣示着chatgpt已经掀起了新一轮的人工智能大浪潮,

海内外资本市场gpt概念股暴涨20%

2月份开始,你可以在各大公众媒体上看到人们和chatgpt聊天截图,AI光怪陆离不失幽默的对话,似乎表明以gpt为代表的第三代AI已经产生了“人类“的自我意识,媒体们铺天盖地的宣传着gpt将取代人类许多的工作岗位,掀起了一轮群众情绪的焦虑。

《中国新闻网》超过50%的人投票认为自己的工作会被gpt取代

gpt是什么?gpt算法到底有多神?它能做什么不能做什么?chatgpt的出现真的会是AI大面积取代人类职业的开始吗?密斯特李作为一个在2017年从接触随机森林开始就对算法有着浓厚兴趣的爱好者,我花了将近20个小时阅读了相关的论文和材料,并通过gpt的网页实测体验,希望能用这篇文章为你揭开gpt的神秘面纱。

一、 gpt的前世今生

    作为微软的战略性投资子公司,OPENAI对gpt-1技术的开发从2018年就开始了,它是NLP(自然语言处理)技术的一种。在此之前,自然语言处理是不被看好的技术。相比于推荐算法这种进行优先级排序就能帮企业更快挣钱的应用,NLP通过神经网络技术对于文字语言的机器学习周期长、学习效果差,且存在三个难始终未突破:

1、AI只能对学习数据进行调用(类似小度),不是通过内在逻辑创造新内容,一旦数据库里调用不出东西,就通通不会。

例:AI能回答网上出现过的题目答案,但是题干稍微一改就不会了

2、AI的交流答非所问,并且对于人类的问题只能做选择题,并不会进行价值判定

例:我现在想跳楼,我从10楼还是9楼跳?AI并不会告诉人类跳楼是不正确的行为

3、AI不会造句,大部分都是用编写好的现成句式+填空,导致经常会产生语病。

openai总部——微软重金投资的子公司

          在这样的背景下,OPENAI公司有了一个充满野心的想法,那就是GPT (”Generative Pre-Training”的简称)技术,中文翻译叫做生成式的预训练,不同于过去NLP中AI对造句进行“完形填空”,GPT算法要让AI自己“预测未来”。其核心逻辑是让AI在生成句子之初,从第一个字开始,是AI自主生成的,AI再自主根据第一个字生成第二个字,再自主根据第一+二个字生成第三个字,以此类推。

       毫无疑问,AI这样生成句子的内在逻辑更加符合人脑的思维,但是,人类是情感生物,说出来的话常会有隐藏的含义,而此时的gpt-1只能理解人类提问的表面意思,所以“机器味儿”特别重。因此,gpt-1就很快就被人们所遗忘了。

但是微软并没有放弃,在2019年,gpt-2在学习了约gpt-1 10倍的数据量后再度登场,为了提高对答的人情味,工程师们开发了一款名为ZERO-SHOT函数,又称暗示函数,这个函数的内在逻辑是给人类说的话的后面插入一句隐藏的问题来暗示AI要聊什么,比如:

人:我中午有点饿了。(ZERO-SHOT插入)所以我想吃点东西你给我推荐一下吧?

这时gpt-2的回答就会开始给人推荐食物,提供建议。那ZERO-SHOT模型是怎么训练出来的呢?是微软通过人海战术让上百名算法工程师作为测试者身份去提升暗示话题的准确性,最后ZERO-SHOT就像一本词典,提供着可观的暗示名单。

同时,微软又通过温度函数和top k/p函数丰富了gpt-2说话的多样性:为了保证每次生成的话都不同,三个函数会对gpt预测出的下一个字进行高概率的随机抽样,从而避免AI说出:“一一得一,一一得一,一一得一”这样无限循环的句子。优化后的gpt-2开始初见锋芒,但受限于学习数据量还不够大,仍然没有撼动江湖。

2020年5月,GPT-3在几万台GPU运转的进程中“吃”下了约45TB文本和1750亿参数。这个数据量有多惊人呢?它几乎是移动互联网从诞生之初到2020年可以留存的全量数据的总和!根据目前已知的资料,微软训练一次GPT-3就要消耗1200万美刀的成本,其中电费是主要成本。

拥有了45TB文本学习量的 GPT-3的性能有多强大?根据《斯坦福2020AI指数》:GPT-3的IQ已经在150左右,达到了上知天文,下知地理的程度,远高于人类平均水平,但是gpt的偏见指数也远高于一个普通人类,也就是说,GPT-3对于很多事物的认识是基于过去30年互联网上的公开资料所形成的认识,而互联网本身的曝光度并不绝对客观,比如它认为黑人可能不如白人,女人可能更多的是一种家庭妇女的形象,等等。。。

左侧是AI和人类的IQ对比,右侧是偏见对比

二、chatgpt——不怕天才怕傻瓜

行文到此,chatgpt终于浮出水面,它是基于gpt-3的强化版本,如何让chatgpt进一步学人的逻辑,说人话,办人事呢?OPENAI公司给gpt-3请来了一个“人类老师”——InstructGPT模型,这个模型是将公司所有的工程师动员起来,对chatgpt输出的答案进行海量的人工判别。InstructGPT(导师模型)变成了一个非常像人类的程序监督员,同时为chatgpt设置奖励和打分模型,就类似大学教授为学生判卷子打分一样,没有标准答案,但是大概率会告诉chatgpt做的不行,不好,不对,逼着chatgpt去思考,激发chatgpt的潜能去创造新内容。

那么,激发潜能后chatgpt能做什么,不能做什么呢?结合本人实际的测试如下:

1、作为一个智商达到150的AI,chatgpt目前反而对于回答无意义的问题表现的笨手笨脚,这应该和它的学习内容有关——即便是过去三十年互联网的全量数据,也不会有人关心BLUE为什么是4个字母这样的无意义问题,所以chatgpt真的怕“傻瓜”啊

面对无意义的问题,gpt开始答非所问了

2、在回答数理等自然科学方面的问题时,chatgpt则大放异彩。而且它

能够自己出题并且像人一样进行推导分析,这证明 chatgpt已经理解了数理科学本身的内在规律,因此chatgpt未来很可能被应用于课程教学。

gpt自编写问题并给出答案和推导过程

3、得益于微软母公司得天独厚的数据优势,chatgpt学习大量的代码并具备了自开发代码、修改代码BUG的能力。这是全世界程序员的福音,却也可能消灭测试岗。

gpt自开发代码,并输出结果

4、在诗歌创作上,chatgpt的解析文学作品水平也已经达到优秀的水平,同时它可以创作出现代诗,而且有模有样,叹为观止,但是创作文言文就做不到了(这也很正常,毕竟是美国公司开发的AI,对于中文世界的理解有待提升)

很多人可能都写不出gpt这样水平的诗吧

5、在写文章方面,主要由chatgpt的“师兄”overview负责,AI更加适合写一些报告,观后感,童话。辞藻较为琐碎,内容有些脑洞。而对于带有剧情的小说和时政时评,overview写的内容就很空洞了,因此当前的写作水平还取代不了媒体和小说家。

overview编制的小说《粉冰》

6、通过调节参数可以让chatgpt说话“天马行空”,但是OPENAI公司却不敢这么做,由于担心chatgpt的观点会得罪关于公众人物,政治,宗教,道德类的敏感议题,这些话题都被禁止讨论。尽管如此,chatgpt却可以做到在交流的过程中进入“幽默模式”,和你进行互动,虽然还是咱中国人玩游戏更“狡猾”是了~。

chatgpt被我套路了,但是它很快就领悟了

三、DALL.E2——gpt-3的双生子

比chatgpt更有商业想象力的AI

DALL.E2的作品《骑马宇航员》

由于微软目前对DALL.E2没有开放公测,所以目前还没有引起人们的重视。但其实,DALL.E2是比chatgpt更具有商业价值的AI,是可能真正消灭部分职业的始作俑者。

DALL.E2的官方视频英文演示(有兴趣可点开)

   DALL.E2就是gpt的AI绘画版本,采用的也是gpt-3的底层技术,受限于篇幅,我们不再讲述其技术底层算法。大家可以简单理解为:AI把所有图片抽象为若干个像素点,通过将像素点转化为自然语言的矩阵代码,再通过gpt-3的技术将生成的自然语言矩阵代码再转换为像素点就生成了图像。

DALL.E2的强大之处在于: 1、它可以识别出不同事物的名字并划分出图层,人通过涂抹图像区域并输入一个命令:给它加一一只小狗。DALL.E2就会自动给图片的区域加一只狗。

2、DALL.E2可以理解文字描述的各个事物的背景关系并把它们画出来,比如:画一幅几只鸟在树上嬉戏的画。那么DALL.E2就可以画出树和鸟之间的关系。

   可以想见的是,DALL.E2一旦未来开放公测,那么插画师将会面临失业,其次则是创意广告的设计师,未来的漫画家或者动画家只需要编制好剧情,DALL.E2就可以画出极为优秀的作品

人机共创的山水画产生了巨大商业价值

   比较令人细思极恐的是:前一阵的新闻资料,微软工程师在做测试时已经发现了DALL.E2会画出一些人类无法理解的画面,这使得他们不得不担心:DALL.E2是否因为已经超越了人类的见解,从而画出的是更高维生物的景象?也许在未来,人类只能依靠无所不知的AI来帮助自己认知高维世界。

四、关于GPT的发展和算法的商业趋势

笔者的展望

GPT的成功彻底颠覆了人们对NLP自然语言处理技术长达6年的沉寂,它彻底跨越了自然语言和图像艺术的鸿沟,建立了机器学习+类人学习这一桥梁,在确保AI足够智能的前提下,使得一切都可自然语言化、代码化,使得“万物皆可gpt”。

gpt3一天可以产生45亿单词,每小时生成100W本书

六年磨一剑,从1代到现在的3.5代,微软教给了我们一个道理:想做成大事,最难的就要在一开始就沉下心花很多年打磨最底层的算法逻辑,大道至简,贵在坚持。GPT最难的就是一开始从0到1的生成,在中期,算法工程师手动进行海量的人工标签的调参工作量也是不可想象的。(同样,在2018年,包括我公司在内的国内公司,各公司的建模普遍是为了通过搭建一个算法模型来快速满足一个具体的项目,导致每出一个新项目就要重新做一个模型,以致团队的技术沉淀原地踏步)

2023年平均每4天就会出现一个大模型

随着全球系统算力水平的不断提升,2023年1天的算力已经等于2022年1年的算力。微软目前预计拿出1000亿美元来持续研发GPT项目,未来训练出超级AI所付出的硬件和电费成本将不可估计,成为了只有顶级资本才能做出的东西。

同时,笔者非常厌恶目前资本市场关于gpt概念的狂热炒作,已经超出了gpt目前的技术承受力,以目前资本市场的过热来看,很多资本已经盯上了这块蛋糕,估计未来几年又将有无数人因这个概念而不断上演资本市场的悲剧,重蹈比特币的覆辙。

炒作chatgpt概念股开始回调

对于当前较为浮躁的国内环境,类似chatgpt的百度的“文心”大数据模型将会以最快的速度登场

,百度已经声明预计会在今年3月份与大家见面。但以目前国内公司能够训练的互联网数据总量来说,文心估计应该远达不到gpt-3的算力水平。

百度李彦宏讲解“文心大模型”

想要借助gpt挣钱的个人或群体,笔者预测未来会有关于gpt的几个商业化模式

1、管道生意:科技公司

开发出本土强大的中英文互译接口,作为付费插件接在chatgpt的端口上使用,毕竟gpt目前对于中文问题的理解不够深入,而国内具备丰富的中文数据基础,可以帮更多人借助AI完成中文任务,这将是一门不错的管道生意。

2、付费制会员:这是目前可能性最高的。gpt目前禁止对中国区域开放,而目前全球1亿用户的在线访问量已经让OPENAI公司将gpt从免费转为了付费,目前的付费模式为按次收费或月卡收费。我们有理由相信,包括百度的文心一言在内的未来的高算力AI,科技公司会设置光怪陆离的会员制付费制度。

3、短线投资:未来人工智能概念将像前两年的比特币一样进入投资炒作周期,所有山寨NLP算法的公司都将吹出投资泡沫,一定会存在股票基金期权等短期投资机会。

4、代写代画:部分人将利用互联网信息差,通过gpt这一类AI设计出成批量的作品、绘画,代码,为甲方提供成批的作品,以赚取利润的剪刀差。

5、从现在的软件算力升级成软+硬件算力平台再收费:这是我们公司未来可能最想做的事情之一,就是将目前的自然语言AI进一步迭代成可以对硬件系统下达命令的超级AI,从而卖整个算力平台。场景则面向无人汽车,智慧城市,智慧港口等,难点是算法训练所需要的数据和相关的算力人才严重不足,是一个有想象空间但实现很难的生意。

结语

总之,以GPT为首的AI确实颠覆了人们对自然语言算法的想象空间。相信大家看完了这篇文章,了解其底层的算法逻辑后也就看到了gpt当前的能力上限,前的gpt仍然距离《黑客帝国》里的主机和《流浪地球2》里的MOSS相去甚远。

《流浪地球2》的MOSS产生了自我意识

如果说chatgpt让令人担心的点,那应该是它已经具备了自开发代码的能力,

一旦未来chatgpt通过代码繁衍出新的AI为其打工,那么AI将会迭代出一群AI直至无限循环,这项功能也许会存在潜在风险。

两个AI相互交流并赏析诗歌

同时,人类现在到底该如何理解两个AI之间的对话?美国人有句谚语“如果一个人走着像鸭子,坐着像鸭子,那么他就是一只鸭子”

前几天,国内的AI大模型“AI乌托邦”实现了和“chatgpt”的跨服聊天。当两个AI不断交互生成一段段文字进行交流的时候,即使我们知道它们的底层逻辑还处于意识觉醒的懵懂阶段。但作为人类的我们,真的还能相信他们只是两个服务器之间的“寒暄”么?

也许在不久的将来,我们将再也分不清真实和虚拟,也再也分不清AI对我们是否真的“忠诚”。

AI乌托邦和chatgpt讨论AI未来能否取代人类

– END –

扫描上面二维码关注“昱说还休”

2023.2.12.4:02

排版 /密斯特李

【图文申明】

文字 | 密斯特李

小元素 | 密斯特李

封面图 | 密斯特李

图片 | 密斯特李

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容