"Si un trabajador quiere hacer bien su trabajo, primero debe afilar sus herramientas." - Confucio, "Las Analectas de Confucio. Lu Linggong"
Página delantera > AI > GPT-5: 4 nuevas funciones que queremos ver

GPT-5: 4 nuevas funciones que queremos ver

Publicado el 2024-08-17
Navegar:911

Al menos, eso es lo que esperamos. No hay una fecha de lanzamiento específica para GPT-5, y la mayor parte de lo que creemos saber proviene de reunir otra información e intentar conectar los puntos.

Aún así, sin importar la fecha de vencimiento, hay algunas características clave que queremos ver cuando se lance GPT-5.

¿Qué es GPT-5 de OpenAI?

GPT-5 es el muy esperado sucesor del modelo de IA GPT-4 de OpenAI, que se espera que sea el modelo generativo más poderoso del mercado. Si bien actualmente no hay una fecha de lanzamiento oficial para GPT-5, hay indicios de que podría lanzarse ya en el verano de 2024. Se conocen muy pocos detalles sobre el modelo en este momento, pero se pueden decir varias cosas con cierta cantidad de certeza:

OpenAI ha presentado una marca registrada para el nombre ante la Oficina de Patentes y Marcas de los Estados Unidos. Varios ejecutivos de OpenAI han discutido o insinuado las posibles capacidades del modelo. El director ejecutivo de OpenAI, Sam Altman, mencionó repetidamente el modelo durante una entrevista en YouTube de marzo de 2024 con Lex Fridman.

Todo esto apunta a una realidad emocionante: ¡GPT-5 está por llegar! Dicho esto, muchas cosas son especulaciones en este momento. Pero hay algunas cosas que esperamos ver y estamos bastante seguros de ver en el modelo. Éstos son algunos de ellos:

1. Más multimodalidad

GPT-5: 4 New Features We Want to See

Una de las mejoras más interesantes a la familia GPT de modelos de IA ha sido la multimodalidad. Para mayor claridad, la multimodalidad es la capacidad de un modelo de IA para procesar más que solo texto, sino también otros tipos de entradas como imágenes, audio y video. La multimodalidad será un punto de referencia importante para el avance de la familia de modelos GPT en el futuro.

Dado que GPT-4 ya es experto en el manejo de entradas y salidas de imágenes, las mejoras que cubren el procesamiento de audio y video son el próximo hito para OpenAI, y GPT-5 es un buen lugar para comenzar. Google ya está haciendo grandes avances en este tipo de multimodalidad con su modelo Gemini AI. Sería inusual que OpenAI no respondiera. Pero, por supuesto, no confíe en nuestra palabra. En su podcast Unconfuse Me [transcripción PDF], Bill Gates le preguntó al director ejecutivo de OpenAI, Sam Altman, qué hitos preveía para la serie GPT en los próximos dos años. ¿Su primera respuesta? Procesamiento de vídeo.

Entonces, para GPT-5, esperamos poder jugar con videos: cargar videos como indicaciones, crear videos sobre la marcha, editar videos con indicaciones de texto, extraer segmentos de videos y encontrar escenas específicas. de archivos de vídeo de gran tamaño. Esperamos poder hacer cosas similares con los archivos de audio. Es una gran pregunta, sí. Pero dado lo rápido que es el desarrollo de la IA, es una expectativa muy razonable.

2. Ventana de contexto más grande y más eficiente

GPT-5: 4 New Features We Want to See

A pesar de ser uno de los modelos de IA más sofisticados del mercado, la familia GPT de modelos de IA tiene una de las ventanas de contexto más pequeñas. Por ejemplo, Claude 3 de Anthropic cuenta con una ventana contextual de 200.000 tokens, mientras que Gemini de Google puede procesar la asombrosa cifra de 1 millón de tokens (128.000 para uso estándar). Por el contrario, GPT-4 tiene una ventana de contexto relativamente más pequeña de 128.000 tokens, con aproximadamente 32.000 tokens o menos disponibles de manera realista para su uso en interfaces como ChatGPT.

Con la multimodalidad avanzada entrando en escena, una ventana de contexto mejorada es casi inevitable. Tal vez un aumento de un factor de dos o cuatro sería suficiente, pero esperamos ver algo así como un factor de diez. Esto permitirá que GPT-5 procese mucha más información de una manera mucho más eficiente. Ahora bien, una ventana de contexto más grande no siempre significa mejor. Entonces, en lugar de simplemente aumentar la ventana de contexto, nos gustaría ver una mayor eficiencia del procesamiento de contexto.

Verá, un modelo puede tener una ventana de contexto de un millón de tokens (capacidad de alrededor de 700 000 palabras) pero no puede producir un resumen completo cuando se le pide que resuma un libro de 500 000 palabras porque no puede procesar adecuadamente la totalidad. del contexto a pesar de tener la capacidad para hacerlo en teoría. Que puedas leer un libro de 500.000 palabras no significa que puedas recordar todo lo que contiene o procesarlo con sensatez.

3. Agentes GPT

GPT-5: 4 New Features We Want to See

Quizás una de las posibilidades más interesantes de un lanzamiento de GPT-5 es el debut de Agentes GPT. Si bien el término "cambio de juego" probablemente se haya usado en exceso en la IA, los agentes de GPT realmente cambiarían las reglas del juego en todos los sentidos prácticos. ¿Pero hasta qué punto esto cambiaría las reglas del juego?

Actualmente, los modelos de IA como GPT-4 pueden ayudarte a completar una tarea. Pueden escribir un correo electrónico, contar un chiste, resolver un problema de matemáticas o redactar una publicación de blog para usted. Sin embargo, solo pueden realizar esa tarea en particular y no pueden completar un conjunto de tareas relacionadas que serían necesarias para completar su trabajo.

Digamos que eres un desarrollador web. Como parte de su trabajo, se espera que usted haga muchas cosas: diseñar, escribir código, solucionar problemas y mucho más. Actualmente, solo puedes delegar una parte de estas tareas a los modelos de IA a la vez. Tal vez pueda pedirle al modelo GPT-4 que escriba un código para la página de inicio, luego pedirle que lo haga para la página de contacto y luego para la página Acerca de, etc. Deberá completar estas tareas de forma iterativa. Y hay tareas que los modelos simplemente no pueden completar.

Este proceso iterativo de generar modelos de IA para subtareas específicas requiere mucho tiempo y es ineficiente. En este escenario, usted, el desarrollador web, es el agente humano responsable de coordinar y activar los modelos de IA, una tarea a la vez, hasta completar un conjunto completo de tareas relacionadas.

GPT Agents promete robots expertos especializados coordinados, con suerte, por GPT-5, capaces de autoinstruirse y abordar todos los subconjuntos de una tarea compleja de forma autónoma. Énfasis en "automotivación" y "autónoma".

Entonces, si GPT-5 se envía con agentes GPT, puede pedirle que "cree un sitio web de cartera para Maxwell Timothy" en lugar de simplemente "escríbame un código para la página de inicio". En teoría, GPT-5 podría autoinvocar agentes expertos de IA para manejar las diversas subtareas necesarias para crear un sitio web. Podría invocar un GPT para eliminar la web en busca de información sobre Maxwell Timothy, otro agente para escribir el código de diferentes páginas, otro agente para generar y optimizar imágenes e incluso otro agente de IA para implementar el sitio, todo sin la necesidad de repetidas intervenciones humanas. incitación.

4. Menos alucinaciones

Aunque OpenAI ha recorrido un largo camino en el tratamiento de las alucinaciones en sus modelos de IA, la verdadera prueba de fuego para GPT-5 será su capacidad para abordar el problema persistente de alucinaciones, lo que ha frenado la adopción generalizada de la IA en dominios de alto riesgo y críticos para la seguridad, como la atención médica, la aviación y la ciberseguridad. Todas estas son áreas que se beneficiarían enormemente de una fuerte participación de la IA, pero que actualmente evitan una adopción significativa.

Para mayor claridad, alucinación en este contexto se refiere a situaciones en las que el modelo de IA genera y presenta información que suena plausible pero completamente fabricada con un alto grado de confianza.

Imagine un escenario en el que GPT-4 se integra en un sistema de diagnóstico para analizar los síntomas del paciente y los informes médicos. Una alucinación podría llevar a la IA a proporcionar con confianza un diagnóstico incorrecto o recomendar un tratamiento potencialmente peligroso basado en hechos imaginados y lógica falsa. Las consecuencias de tal error en el campo médico podrían ser catastróficas.

Se aplican reservas similares a otros campos de grandes consecuencias, como la aviación, la energía nuclear, las operaciones marítimas y la ciberseguridad. No esperamos que GPT-5 resuelva completamente el problema de las alucinaciones, pero sí que reduzca significativamente la posibilidad de que se produzcan tales incidentes.

Mientras esperamos ansiosamente el lanzamiento oficial de este modelo de IA tan esperado, una cosa es segura: GPT-5 tiene el potencial de redefinir los límites de lo que es posible con la inteligencia artificial, marcando el comienzo de una nueva era de la humanidad. -Colaboración e innovación de máquinas.

Declaración de liberación Este artículo se reproduce en: https://www.makeuseof.com/gpt-5-features-we-want-to-see/ Si hay alguna infracción, comuníquese con [email protected] para eliminarla.
Último tutorial Más>

Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.

Copyright© 2022 湘ICP备2022001581号-3