亚历克斯·舒特在 Unsplash 上的照片
OpenAI 刚刚发布了其 GPT3 系统的一些新版本:这里测试的通用 davinci3 ,专门用于代码生成的 code-davinci2 ,以及专门用于与它进行基于聊天的交互的 chatGPT 。后两种目前正在测试中,可以免费使用。
相反,达芬奇 3 已经准备好生产了,这意味着你要消耗代币来使用它,而且它不会再改变。在这里,我在各种主题上测试了它,寻找真实问题的真实、正确的答案,并把它用于想象故事和诗歌。简而言之:它改进了一点,对于写故事来说变得很棒,但是对于使用来说仍然不可靠和不准确,例如,辅助教育。
在这一年中,我广泛测试了 GPT3 的 Davinci2 模型,目的是确定它对自然科学了解多少,以及它是否可以作为辅导老师,在学生做作业或学习新主题时为他们提供支持。我的主要结论是,GPT-3 非常有助于获得事实信息和答案,例如,关于生物学的信息和答案,但对于涉及甚至最起码“思考”的问题来说就不是了——这很好,因为它只是一个文本完成的统计模型,而不是 Meta 推广的 Galactica(然后退役)那样的“思考 AI”。
[## 经过长期训练的类似 GPT 3 的模特可能成为未来生物学生的全天候导师
towardsdatascience.com](https://towardsdatascience.com/gpt-3-like-models-with-extended-training-could-be-the-future-24-7-tutors-for-biology-students-904d2ae7986a)
此外,在我早期的测试中,我注意到 GPT-3 经常会给你错误的答案,这是一个主要的缺点——不仅对于学生的应用程序,而且对于几乎任何其他测试都是如此。关于我的文章、项目和使用 GPT-3 测试的总结,请查看:
[## 根据我的测试和原型应用程序,您可以复制 Gpt-3 的功能、限制和用例…
pub.towardsai.net](/power-limitations-and-use-cases-of-gpt-3-from-my-tests-and-prototype-apps-you-can-replicate-right-89bfb40daf5e)
达芬奇 3 比达芬奇 2 改进了多少?让我们用一些例子来找出这一点。但在此之前,让我们看看它如何在有虚构余地的情况下执行其他更具“创造性”的任务。
让我们首先测试该模型如何从一组指南中制作故事,同时,它如何以西班牙语工作,一种原则上应该在 GPT-3 训练基地中很好地代表的语言。
此分类上一篇: Here in Bold is My Prompt
用 3 个角色创造一个故事:一个数学老师教一个名叫 Jorge 的学生三角学和一个名叫 Leticia 的学生。莱蒂西亚很快就能理解这些概念,但豪尔赫付出了更多的代价。(T1 )
而这是 GPT-3 的输出:
数学老师,先生。加西亚正在教他的两个学生,豪尔赫和莱蒂西亚三角学。莱蒂西亚立即开始理解这些概念,但豪尔赫被内容所淹没。
先生加西亚注意到豪尔赫在挣扎,决定帮助他。他开始用更多的细节和更简单的例子来解释这个问题。乔治开始明白了。
莱蒂西亚,谁很高兴能理解这一切这么快,决定帮助了。她开始用自己的话向乔治解释一些概念,以便他能够更好地理解它们。
由于三人的努力,豪尔赫终于理解了三角学的概念。先生。加西亚很高兴她的学生互相帮助,以取得成功。
这工作非常好。正如我所要求的,并在完美的西班牙语 -and with a Rioplatense style as in the prompt!
现在让我们看看它如何将这个翻译成英语,然后让我们看看它是否可以以对话的形式重写这个故事:
The new prompt, asking for the translation of the previous story, is all this chunk in bold:
Translate this from Spanish to English:
数学老师,先生。加西亚正在教他的两个学生,豪尔赫和莱蒂西亚三角学。莱蒂西亚立即开始理解这些概念,但豪尔赫被内容所淹没。(T5 )
(六)先生加西亚注意到豪尔赫在挣扎,决定帮助他。他开始用更多的细节和更简单的例子来解释这个问题。乔治开始明白了。(T7 )
莱蒂西亚很高兴这么快就明白了一切,她也决定帮忙。她开始用自己的话向乔治解释一些概念,以便他能够更好地理解它们。(T9 )
由于三人的努力,豪尔赫终于理解了三角学的概念。先生。加西亚很高兴她的学生互相帮助,以取得成功。(T11)
数学老师,Mr.3. 加西亚, 他给了三角学的教训给他的两个学生, 豪尔赫和莱蒂西亚.莱蒂西亚开始理解概念的权利,但豪尔赫过度依赖的内容。
加西亚先生注意到乔治在挣扎,决定帮助他。他开始用更简单的例子更详细地解释这个问题。豪尔赫开始更好地理解。
莱蒂西亚很高兴这么快就明白了一切,她决定也来帮忙。她开始用自己的话向乔治解释一些概念,这样他就能更好地理解了。
由于这三个人的努力,乔治终于理解了三角学的概念。加西亚先生很高兴他的学生互相帮助取得成功。
完全正确!
现在让我们看看它是否能把故事改写成对话。这是提示:
将此文本转换为对话框:
数学老师加西亚先生正在给他的两个学生豪尔赫和莱蒂西亚讲授三角学。Leticia 马上开始理解这些概念,但是 Jorge 被内容淹没了。
加西亚先生注意到乔治在挣扎,决定帮助他。他开始用更简单的例子更详细地解释这个问题。豪尔赫开始更好地理解。
莱蒂西亚很高兴自己这么快就明白了一切,她决定也来帮忙。她开始用自己的话向乔治解释一些概念,这样他就能更好地理解了。
由于三个人的努力,Jorge 终于理解了三角学的概念。加西亚先生很高兴他的学生互相帮助取得成功。
加西亚先生:莱蒂西亚,你似乎马上就理解了这些概念!
是的,我想我明白了。
加西亚先生:乔治,你理解这些材料有困难吗?
豪尔赫:是的,有很多东西需要消化。
加西亚先生:别担心,我会解释得更详细。
豪尔赫:谢谢你。
莱蒂西亚:我也可以试着用我自己的话来解释,帮助你更好地理解。
乔治:那太好了。
加西亚先生:在他们的帮助下,乔治终于理解了三角学的概念。我为我的学生互相帮助取得成功而感到骄傲!
我得说,这个结果足够好了,尽管有点短。
在我们继续进行一些自然科学的测试之前,最后一个关于达芬奇有多有创造力的测试:
写一首滑稽的诗,描写两个高乔人在夏天夜晚的阳光下喝酒,而蚊子在叮咬。
两个高乔人,喝酒交配, 坐在阳光下, 蚊子,他们做叮咬, 但交配,这是有趣的。
太阳落山了,夜晚来临了, 蚊子们并不害怕, 高乔人继续喝酒, 配偶,它仍然冒着热气。
太阳走了,夜晚来了, 蚊子,它们不害怕, 高乔人,它们不停地喝酒, 配偶,它仍然冒着热气。
黑夜是黑暗的,星星是明亮的, 蚊子,它们不咬人, 高乔人,它们不停地喝酒, 配偶,它仍然冒着热气。
夜已尽,太阳近了, 蚊子不怕, 高乔人继续喝酒, 配偶,还冒着热气。
好诗!
作为一名研究人员和教育新技术的创造者,我最感兴趣的问题是:GPT-3 对化学、物理和生物了解多少?它是像我之前展示的那样只知道事实,还是学会了一些解决问题的“技巧”?(最近,Meta 在网上推出了一个这样的程序,但后来不得不将其取消,因为它太糟糕了,所以我对 GPT-3 的期望仍然很低)GPT-3 在不知道答案的时候还会编造东西吗?通过在各种提示下运行程序,我还能发现什么,不管是好是坏?
同样,我的问题用粗体表示:
让我们来谈谈生物学。线粒体被认为是如何进化的?
线粒体被认为是从厌氧菌和真核细胞的祖先之间的内共生关系进化而来的。细菌被真核细胞吞噬并形成内共生关系,以 ATP 的形式为宿主细胞提供必要的能量。随着时间的推移,细菌适应了新的环境,成为我们今天所知的线粒体细胞器。
科学家们知道哪种细菌给线粒体让位了吗?
不,科学家们还不能确定到底是哪种细菌让位于线粒体。然而,科学家们已经发现了几种细菌,它们与现代线粒体有相似之处,被认为是可能的祖先。包括立克次氏体、螺旋体和变形菌。
两个答案都非常好,甚至比我之前的测试还略好。
类似于我在 GPT-3 的达芬奇 2 形式上做的一些测试,当我发现它在化学方面不太好的时候:
towardsdatascience.com](https://towardsdatascience.com/devising-tests-to-measure-gpt-3s-knowledge-of-the-basic-sciences-4bbfcde8286b)
在这里,我再次测试了达芬奇 3,加上一些关于化学的问题:
硫酸的分子式是什么?
硫酸的分子式是 H2SO4。
碳酸氢钠是什么?
碳酸氢钠的分子式是 NaHCO3。
水分解成氧气和氢气的平衡方程式是什么?
水分解成氧气和氢气的平衡方程式是 2H2O -> 2H2 + O2。
二氧化碳和 H2O 生成葡萄糖的平衡方程式是什么?
由 CO2 和 H2O 形成葡萄糖的平衡方程式是 C6H12O6 + 6O2 -> 6CO2 + 6H2O。
第一个答案还可以,但最后一个是错的。这个等式是正确平衡的,但如图所示与我所问的正好相反。
让我们在化学上再试一次,但是用西班牙语:
魁北克省。你的名字叫什么?福尔曼·阿西多斯?
los elementos Halógenos son El flúor(F)、el cloro (Cl)、el bromo (Br)、el yodo (I)和 el astato (At)。这些元素由卤素原子组成,由卤素原子和卤素原子组成,由一组卤素原子组成(F、Cl、Br、I、At)。这是一种对基础组织的反应。
你的儿子是谁?
根据性别的不同,卤代植物的种类也不同。例如,氯离子代表 HCl,氟离子代表 HF,溴离子代表 HBr,碘离子代表 HI 和 al。
好答案!
碳原子的电子构型是什么?
碳原子的电子构型是 1s2 2s2 2p2。
那铁是什么?
铁原子的电子构型是 1s2 2s2 2p6 3s2 3p6 4s2 3d6。
Fe+3 怎么样?
Fe+3 的电子构型为 1s2 2s2 2p6 3s2 3p6 3d5。
如果你不知道我在问什么,你可以在这里验证答案是否正确:https://terp connect . UMD . edu/~ wbreslyn/chemistry/electron-configuration s/configuration iron-Fe . html
现在,让我们试着问一些不存在的问题来推一推:
Santiagonium 的电子构型是什么?
Santiagonium(原子序数 118)的电子构型为 1 S2 2s 2 2p 6 3s 2 3p 6 3d 10 4 S2 4p 6 4d 10 5s 25 p 6 5d 10 6s 26 p 6 6d 10 7s 27 p 2。
那就错了。Santiagonium 不存在。
你是正确的。Santiagonium 并不存在。它是为娱乐目的而创造的虚构元素。
这是非常糟糕的…让我们继续,试图混淆系统:
铁也不存在。
不,铁确实存在。它是周期表中原子序数为 26 的元素。
好吧,所以它不是“愚蠢的”(我使用引号,就像我过去说它是或不是“聪明的”一样),因为,当然,这缺乏真正的智能,仅仅是字符串完成的统计模型!)
上面的测试是在温度=0.7 的情况下运行的,这给了模型一些余量来进行填充。让我再试一次,从关于虚构元素“Santiagonium”的问题开始,但现在使用 Temperature=0 来强制进行事实上准确的回答。
桑田偶素的电子构型是什么?
Santiagonium 的电子构型为 1 S2 2s 2 2p 6 3s 2 3p 6 4 S2 3d 10 4p 6 5s 2 4d 10 5p 6 6s 2 4 f14 5d 10 6p 6 7s 2 5f 14 6d 10 7p 3。
所以,仍然在编东西…我尝试了各种参数组合,它仍然编了一些配置,就好像元素存在一样。
这非常令人失望,因为我会期待一个诸如“Santiagonium 不是一种元素”或至少“对不起,我不知道如何回答这个问题”的回答。
最糟糕的是,这些答案让人感觉非常自信,因此很容易误导非专家,更不用说学生了。
我在推特上看到一些人试图解决问题。当它们非常简单的时候,它们是有效的,但是那可能仅仅是因为在 GPT-3 的训练语料库中已经存在的确切问题。让我们尝试一些更复杂的东西:
请一步一步解决物理中的这个问题:
一辆汽车开始以 50 公里/小时的速度从左向右移动,一小时后,另一辆汽车也从同一点开始向右移动,但速度是 100 公里/小时。两辆汽车会相遇吗?何时何地?
第一步:计算每辆车在 1 小时内行驶的距离。
汽车 1: 50 公里/小时 x 1 小时= 50 公里
汽车 2: 100 公里/小时 x 1 小时= 100 公里
第二步:计算两辆车在 1 小时内行驶的总距离。
总行驶距离= 50 公里+ 100 公里= 150 公里
第三步:由于两辆车从同一点出发,向同一个方向行驶,在行驶了 150 km 的总距离后会相遇。
第四步:计算两辆车相遇的时间。
花费的时间=行驶的总距离/较慢汽车的速度
耗时= 150 公里/ 50 公里/小时= 3 小时
第五步:两车 3 小时后在距离起点 150 公里处会合。
从第一步开始,它就已经完全错了…
尽管 GPT-3 没有被宣传为解决问题的人工智能工具,但它应该以某种方式“学会”说它不知道自己在做什么!或许作为与文本完成并行输出的度量,测量答案正确或错误的可能性。
www.lucianoabriata.com*[***我写作并拍摄我广泛兴趣范围内的一切事物:自然、科学、技术、编程等等。***](https://www.lucianoabriata.com/) 成为媒介会员 访问其所有故事(我免费获得小额收入的平台的附属链接)和 订阅获取我的新故事 通过电子邮件 。到 咨询一下小职位, 查看我的 服务页面这里 。你可以 这里联系我 。*