网站首页
手机版

OpenAI推出GPT-4,SAT数学超过89%人类考生,法律考试超过90%考生 open sat

更新时间:2024-03-26 23:53作者:小乐

教育导报3月15日讯OpenAI周二发布了多模态大语言模型GPT-4。该模型是OpenAI 在调用和响应深度学习模型生成方面的最新里程碑,并在重要考试中超越了大多数人类考生。

根据OpenAI 的描述,该模型展示了“跨各种专业和学术领域的人类水平的表现”。 GPT-4 在模拟律师考试中得分位于前10%,而其前身GPT-3.5(ChatGPT 的基础)得分在后10% 左右。

GPT-4 在其他各种考试中也表现出色,例如SAT 数学考试,它在满分800 分中获得了700 分。然而,它并不具备所有科目的能力,例如AP 英语语言和作文仅获得2 分。

需要考虑的一件事是:OpenAI 的GPT 系列本质上是一个反流引擎系列,它采用训练过的材料并重新组装它来解决用户查询。有时是对的,有时是错的。它可以回忆起考试细节——,而人类用户可能很难清楚地记住所有细节,并且它的响应可能更像是对人类必须参加的各种考试的评论。

OpenAI CEO Sam Altman在谈到GPT-4时承认:“它仍然有缺陷,它仍然有限,第一次使用它时可能会让人印象深刻,但当人们花更多时间使用它时,可能就无法做到这一点(即多轮对话询问后获得的答复可能有缺陷)。”

GPT-4 是一个大型多模态模型,支持通过文本和图像输入查询并以文本形式返回答案。开发人员目前可以通过等候名单上的GPT-4 API 进行访问,而个人用户则可以通过ChatGPT Plus 进行订阅。基于图像的输入目前仍在进行中。

尽管增加了图像输入机制,但OpenAI 并未披露或提供有关其模型生产的信息。这家备受瞩目的公司选择不透露有关其规模、训练方式以及流程中使用哪些数据的详细信息。

“考虑到GPT-4 等大型模型的竞争格局和安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息,”公司在其技术文件中表示。

在YouTube 的直播中,OpenAI 总裁兼联合创始人Greg Brockman 演示了GPT-4 和GPT-3.5 之间的区别。

GPT-3.5 根本不尝试做出回应。 GPT 4 回归“GPT-4 产生了突破性的、宏伟的成果,极大地激发了广义人工智能目标。”当布罗克曼告诉模型,当包含“AI”的句子不算数时,GPT-4 在另一个不含“AI”的句子中修改了其响应。

然后,他继续让GPT-4 为Discord 机器人生成Python 代码。更令人印象深刻的是,他拍了一张笑话网站的手绘模型的照片,将图像发送到Discord,相关的GPT-4 模型用HTML 和JavaScript 代码进行响应,实现了模型网站。

最后,Brockman 设置了GPT-4 来分析16 页的美国税法,以返回Alice 和Bob 这对具有特定财务状况的夫妇的标准扣除额。 OpenAI 的模型给出了正确答案并解释了所涉及的计算。

除了更好的推理(从测试分数的提高中可以明显看出),GPT-4 还改善了协作(按照指示进行迭代以改进之前的输出),并且能够更好地处理大量文本(分析或输出大约25,000 字的中篇小说)接受基于图像的输入(用于对象识别,尽管此功能尚未公开)。

更重要的是,根据OpenAI 的说法,GPT-4 应该比早期版本更不容易出错。

OpenAI 表示:“我们花了六个月的时间,利用从对抗性测试程序和ChatGPT 中吸取的经验教训,迭代调整GPT-4,在现实性、可控性和拒绝安全边界方面取得了有史以来最好的结果(尽管远非完美)。”

从微软Bing 问答功能首次亮相以来,人们可能已经熟悉了这种“远非完美”的安全级别,该功能使用GPT-4 作为其Prometheus 模型的基础。

OpenAI 承认GPT-4 与其早期版本一样,“扭曲事实并产生推理错误”,但该公司表示,新模型降低了错误程度。

相对于之前的模型,GPT-4 显着减少了失真

该公司解释说:“虽然仍然是一个真正的问题,但与以前的模型相比,GPT-4 的事实扭曲性能较少(每次迭代都得到了改进)。” “在我们内部的对抗现实主义评估中,GPT-4 的得分比我们最新的GPT-3.5 高出40%。”

GPT-4 的定价为每1,000 个提示代币0.03 美元,每1,000 个完成代币0.06 美元,其中一个代币大约为四个字符。默认速率限制为每分钟40,000 个令牌和每分钟200 个请求。

此外,OpenAI 还开源了Evals,这是一个用于评估和校对机器学习模型(包括其自己的模型)的程序。

尽管人们对人工智能风险的担忧挥之不去,但企业仍在争先恐后地将人工智能模型推向市场。在GPT-4 到来的同一天,由前OpenAI 员工创立的初创公司Anthropic 推出了自己的基于聊天的助手Claude,用于处理和生成文本摘要、搜索、问答、编程等。

Google 担心在营销相关模型方面落后,因此推出了一个名为PaLM 的API,用于与各种大型语言模型交互,以及一个名为MakerSuite 的原型环境。

几周前,Facebook 推出了LLaMA 大规模语言模型,斯坦福大学的研究人员现已将其改造为Alpaca 模型,未来可能会出现更广泛的竞争。

OpenAI 表示:“还有很多工作要做,我们期待通过社区的集体努力来改进这个模型,在该模型的基础上进行构建、探索和贡献。”

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

其他阅读

2023年两会闭幕:教育、就业、婚育18条建议

学生开始使用ChatGPT写论文?但老师们并不担心作弊现象激增

ChatGPT 将如何改变大学和高中的学习?

为您推荐

SAT数学考试中几种常用方法 sat数学题型

SAT数学对于中国考生来说虽然难度不是很大,但是拿高分的比例并不是很高,因为SAT数学注重速度和解题质量。下面给大家分享一些关于SAT数学考试中的答题方法,希望可以帮助大家更好的应对SAT数学考试。SAT数学考试部分44道选择题和10道填空

2024-03-26 23:45

专家告诉你美国SAT考试内容都有哪些?

哈喽大家好!这里是美签之家老蔡~在美国,大学申请入学条件中,包含大学入学标准化测试成绩,目前分ACT和SAT两种。这两种测试同为美国大学的入学条件之一,也是美国大学发放奖学金的主要依据。接受ACT成绩的学校多为美国中西部地区的大学,而东部和

2024-03-26 23:35

朗麒干货!sat考试适用国家

SAT考试是全球范围内广泛认可的大学入学考试,适用于申请美国、加拿大、澳大利亚等国家的大学。一、SAT考试适用于哪些国家1. 美国:SAT考试是美国大学招生过程中使用最广泛的标准化考试之一,几乎所有美国大学都接受SAT成绩作为申请材料的一部

2024-03-26 23:26

SAT 数学部分到底考什么?,sat数学需要达到什么水平

关于SAT 数学,其实一上来就想跟各位考生分享一些技巧,可是又怕有的考生会觉得还不如知识点按部就班慢慢算来的踏实。所以别的都先撇开不谈,我们来谈一谈,按照步骤一步一步将题目读完之后,我们要做的事情到底是什么,为什么简单易错的SAT 数学,你

2024-03-26 23:15

备考SAT || 数学满分攻略(SAT数学考试满分多少)

SAT数学在考试中占一半的分数,是很重要的一部分,尤其是对于中国考生来说,是一门至关重要的科目。相比于其他科目,我们在数学方面有着很大的优势,大家想要取得高分并不难,但是想要取得满分就没有那么容易了。那么,我们如何才能在数学部分取得满分的成

2024-03-26 23:06

SAT数学考什么内容??sat考数学吗

SAT是申请大学时重要的考试之一,即使有些学校不需要缴交SAT成绩,但绝大多数的学校(尤其名校)都仍然需要。今天我们将告诉你SAT数学在考什么、应该要怎么准备,一起看下去吧!SAT数学范围有哪些?SAT数学的测验范围主要有四大类:代数与函数

2024-03-26 22:56

加载中...

热门文章

SQL Error: select * from ***_ecms_news where titlepic<>'' order by onclick desc limit 1
    SQL Error: select * from ***_ecms_news order by onclick desc limit 1,7

热门推荐

SQL Error: select * from ***_ecms_news where titlepic<>'' and istop=1 order by newstime desc limit 5