GPT-5：我們希望看到的 4 個新功能

首頁 > 人工智慧 > GPT-5：我們希望看到的 4 個新功能

GPT-5：我們希望看到的 4 個新功能

發佈於2024-08-17

至少，这是我们所希望的。 GPT-5 没有具体的发布日期，我们认为我们所知道的大部分信息都来自拼凑其他信息并试图将各个点联系起来。

尽管如此，无论截止日期如何，我们希望在 GPT-5 发布时看到一些关键功能。

OpenAI 的 GPT-5 是什么？

GPT-5 是备受期待的 OpenAI GPT-4 人工智能模型的继任者，人们普遍认为该模型将成为市场上最强大的生成模型。虽然目前还没有 GPT-5 的官方发布日期，但有迹象表明它最早可能会在 2024 年夏天发布。目前关于该模型的细节知之甚少，但可以通过一些信息来说明一些事情。确定性：

OpenAI 已向美国专利商标局申请了该名称的商标。几位 OpenAI 高管已经讨论或暗示了该模型的可能功能。 OpenAI 首席执行官 Sam Altman 在 2024 年 3 月接受 Lex Fridman 的 YouTube 采访时多次提到该模型。

这些都指向一个令人兴奋的现实：GPT-5 即将到来！也就是说，目前很多事情都只是猜测。但我们希望在模型中看到一些东西，并且相当有信心看到这些东西。以下是其中的一些：

1. 更多多模态

GPT 人工智能模型系列最令人兴奋的改进之一就是多模态。为清楚起见，多模态是指人工智能模型不仅能够处理文本，还能够处理图像、音频和视频等其他类型输入的能力。多模态将成为 GPT 系列模型未来的重要进步基准。

GPT-4 已经擅长处理图像输入和输出，音频和视频处理方面的改进是 OpenAI 的下一个里程碑，而 GPT-5 是一个很好的起点。谷歌已经通过 Gemini AI 模型在这种多模态方面取得了重大进展。不做出回应是 OpenAI 的一贯做法。但是，当然，不要相信我们的话。在他的 Unconfuse Me 播客 [PDF 文字记录] 中，比尔·盖茨 (Bill Gates) 询问 OpenAI 首席执行官 Sam Altman，他预计 GPT 系列在未来两年将实现哪些里程碑。他的第一个答案？视频处理。

因此，对于 GPT-5，我们希望能够使用视频——根据提示上传视频、随时随地创建视频、使用文本提示编辑视频、从视频中提取片段以及查找特定场景来自大型视频文件。我们希望能够对音频文件执行类似的操作。这是一个很大的问题，是的。但考虑到人工智能的发展速度，这是一个非常合理的期望。

2. 更大、更高效的上下文窗口

尽管是市场上最复杂的 AI 模型之一，GPT 系列 AI 模型却拥有最小的上下文窗口之一。例如，Anthropic 的 Claude 3 拥有 200,000 个令牌的上下文窗口，而 Google 的 Gemini 可以处理惊人的 100 万个令牌（标准使用为 128,000 个）。相比之下，GPT-4 的上下文窗口相对较小，只有 128,000 个令牌，实际可用于 ChatGPT 等界面的令牌约为 32,000 个或更少。

随着先进的多模态技术的出现，改进上下文窗口几乎是不可避免的。也许增加两到四倍就足够了，但我们希望看到大约十倍。这将使 GPT-5 能够以更有效的方式处理更多信息。现在，更大的上下文窗口并不总是意味着更好。因此，我们希望看到上下文处理效率的提高，而不仅仅是增加上下文窗口。

你看，一个模型可能有 100 万个 token 上下文窗口（大约 700,000 个单词的容量），但当被要求总结一本 500,000 字的书时，它无法生成全面的摘要，因为它无法充分处理整个内容尽管理论上有能力这样做。你能读一本 50 万字的书并不意味着你能回忆起其中的所有内容或明智地处理它。

3. GPT Agents

也许 GPT-5 版本中最令人兴奋的可能性之一就是 GPT Agents 的首次亮相。虽然“游戏规则改变者”这个词在人工智能中可能被过度使用，但 GPT 代理在各个实际意义上都将真正成为游戏规则改变者。但这将会如何改变游戏规则呢？

目前，像 GPT-4 这样的 AI 模型可以帮助你完成任务。他们可以为您写电子邮件、讲笑话、解决数学问题或起草博客文章。但是，他们只能执行该特定任务，而无法完成完成您的工作所需的一组相关任务。

假设您是一名 Web 开发人员。作为工作的一部分，您需要做很多事情：设计、编写代码、排除故障等等。目前，您一次只能将其中一部分任务委托给 AI 模型。也许您可以要求 GPT-4 模型为主页编写代码，然后要求它为联系页面编写代码，然后为“关于”页面编写代码，等等。您需要迭代地完成这些任务。有些任务是模型根本无法完成的。

这种提示人工智能模型执行特定子任务的迭代过程既耗时又低效。在这种情况下，您（Web 开发人员）是负责协调和提示 AI 模型一次执行一项任务的人工代理，直到您完成一整套相关任务。

GPT Agents 承诺由 GPT-5 协调的专业专家机器人能够自我提示并自主处理复杂任务的所有子集。强调“自我提示”和“自主”。

因此，如果 GPT-5 附带 GPT Agents，您可以要求它“为 Maxwell Timothy 构建一个投资组合网站”，而不仅仅是“为我编写主页代码”。理论上，GPT-5 能够通过调用专家人工智能代理来进行自我提示，以处理构建网站所需的各种子任务。它可能会调用一个 GPT 来获取有关 Maxwell Timothy 的网络信息，调用另一个代理来为不同页面编写代码，另一个代理来生成和优化图像，甚至调用另一个 AI 代理来部署网站，所有这些都不需要重复的人工操作。提示。