OpenAI推出GPT-4，SAT数学超过89%人类考生，法律考试超过90%考生 open sat

更新时间：2024-03-26 23:53作者：小乐

教育导报3月15日讯OpenAI周二发布了多模态大语言模型GPT-4。该模型是OpenAI 在调用和响应深度学习模型生成方面的最新里程碑，并在重要考试中超越了大多数人类考生。

根据OpenAI 的描述，该模型展示了“跨各种专业和学术领域的人类水平的表现”。 GPT-4 在模拟律师考试中得分位于前10%，而其前身GPT-3.5（ChatGPT 的基础）得分在后10% 左右。

GPT-4 在其他各种考试中也表现出色，例如SAT 数学考试，它在满分800 分中获得了700 分。然而，它并不具备所有科目的能力，例如AP 英语语言和作文仅获得2 分。

需要考虑的一件事是：OpenAI 的GPT 系列本质上是一个反流引擎系列，它采用训练过的材料并重新组装它来解决用户查询。有时是对的，有时是错的。它可以回忆起考试细节——，而人类用户可能很难清楚地记住所有细节，并且它的响应可能更像是对人类必须参加的各种考试的评论。

OpenAI CEO Sam Altman在谈到GPT-4时承认：“它仍然有缺陷，它仍然有限，第一次使用它时可能会让人印象深刻，但当人们花更多时间使用它时，可能就无法做到这一点（即多轮对话询问后获得的答复可能有缺陷）。”

GPT-4 是一个大型多模态模型，支持通过文本和图像输入查询并以文本形式返回答案。开发人员目前可以通过等候名单上的GPT-4 API 进行访问，而个人用户则可以通过ChatGPT Plus 进行订阅。基于图像的输入目前仍在进行中。

尽管增加了图像输入机制，但OpenAI 并未披露或提供有关其模型生产的信息。这家备受瞩目的公司选择不透露有关其规模、训练方式以及流程中使用哪些数据的详细信息。

“考虑到GPT-4 等大型模型的竞争格局和安全影响，本报告不包含有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息，”公司在其技术文件中表示。

在YouTube 的直播中，OpenAI 总裁兼联合创始人Greg Brockman 演示了GPT-4 和GPT-3.5 之间的区别。

GPT-3.5 根本不尝试做出回应。 GPT 4 回归“GPT-4 产生了突破性的、宏伟的成果，极大地激发了广义人工智能目标。”当布罗克曼告诉模型，当包含“AI”的句子不算数时，GPT-4 在另一个不含“AI”的句子中修改了其响应。

然后，他继续让GPT-4 为Discord 机器人生成Python 代码。更令人印象深刻的是，他拍了一张笑话网站的手绘模型的照片，将图像发送到Discord，相关的GPT-4 模型用HTML 和JavaScript 代码进行响应，实现了模型网站。

最后，Brockman 设置了GPT-4 来分析16 页的美国税法，以返回Alice 和Bob 这对具有特定财务状况的夫妇的标准扣除额。 OpenAI 的模型给出了正确答案并解释了所涉及的计算。

除了更好的推理（从测试分数的提高中可以明显看出），GPT-4 还改善了协作（按照指示进行迭代以改进之前的输出），并且能够更好地处理大量文本（分析或输出大约25,000 字的中篇小说）接受基于图像的输入（用于对象识别，尽管此功能尚未公开）。

更重要的是，根据OpenAI 的说法，GPT-4 应该比早期版本更不容易出错。

OpenAI 表示：“我们花了六个月的时间，利用从对抗性测试程序和ChatGPT 中吸取的经验教训，迭代调整GPT-4，在现实性、可控性和拒绝安全边界方面取得了有史以来最好的结果（尽管远非完美）。”

从微软Bing 问答功能首次亮相以来，人们可能已经熟悉了这种“远非完美”的安全级别，该功能使用GPT-4 作为其Prometheus 模型的基础。

OpenAI 承认GPT-4 与其早期版本一样，“扭曲事实并产生推理错误”，但该公司表示，新模型降低了错误程度。

相对于之前的模型，GPT-4 显着减少了失真

该公司解释说：“虽然仍然是一个真正的问题，但与以前的模型相比，GPT-4 的事实扭曲性能较少（每次迭代都得到了改进）。” “在我们内部的对抗现实主义评估中，GPT-4 的得分比我们最新的GPT-3.5 高出40%。”

GPT-4 的定价为每1,000 个提示代币0.03 美元，每1,000 个完成代币0.06 美元，其中一个代币大约为四个字符。默认速率限制为每分钟40,000 个令牌和每分钟200 个请求。

此外，OpenAI 还开源了Evals，这是一个用于评估和校对机器学习模型（包括其自己的模型）的程序。

尽管人们对人工智能风险的担忧挥之不去，但企业仍在争先恐后地将人工智能模型推向市场。在GPT-4 到来的同一天，由前OpenAI 员工创立的初创公司Anthropic 推出了自己的基于聊天的助手Claude，用于处理和生成文本摘要、搜索、问答、编程等。

Google 担心在营销相关模型方面落后，因此推出了一个名为PaLM 的API，用于与各种大型语言模型交互，以及一个名为MakerSuite 的原型环境。

几周前，Facebook 推出了LLaMA 大规模语言模型，斯坦福大学的研究人员现已将其改造为Alpaca 模型，未来可能会出现更广泛的竞争。

OpenAI 表示：“还有很多工作要做，我们期待通过社区的集体努力来改进这个模型，在该模型的基础上进行构建、探索和贡献。”

看

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

其他阅读

2023年两会闭幕：教育、就业、婚育18条建议

学生开始使用ChatGPT写论文？但老师们并不担心作弊现象激增

ChatGPT 将如何改变大学和高中的学习？

加载中...

美国留学