GPT-5: 4 nuevas funciones que queremos ver

Página delantera > AI > GPT-5: 4 nuevas funciones que queremos ver

GPT-5: 4 nuevas funciones que queremos ver

Publicado el 2024-08-17

Navegar:911

Al menos, eso es lo que esperamos. No hay una fecha de lanzamiento específica para GPT-5, y la mayor parte de lo que creemos saber proviene de reunir otra información e intentar conectar los puntos.

Aún así, sin importar la fecha de vencimiento, hay algunas características clave que queremos ver cuando se lance GPT-5.

¿Qué es GPT-5 de OpenAI?

GPT-5 es el muy esperado sucesor del modelo de IA GPT-4 de OpenAI, que se espera que sea el modelo generativo más poderoso del mercado. Si bien actualmente no hay una fecha de lanzamiento oficial para GPT-5, hay indicios de que podría lanzarse ya en el verano de 2024. Se conocen muy pocos detalles sobre el modelo en este momento, pero se pueden decir varias cosas con cierta cantidad de certeza:

OpenAI ha presentado una marca registrada para el nombre ante la Oficina de Patentes y Marcas de los Estados Unidos. Varios ejecutivos de OpenAI han discutido o insinuado las posibles capacidades del modelo. El director ejecutivo de OpenAI, Sam Altman, mencionó repetidamente el modelo durante una entrevista en YouTube de marzo de 2024 con Lex Fridman.

Todo esto apunta a una realidad emocionante: ¡GPT-5 está por llegar! Dicho esto, muchas cosas son especulaciones en este momento. Pero hay algunas cosas que esperamos ver y estamos bastante seguros de ver en el modelo. Éstos son algunos de ellos:

1. Más multimodalidad

Una de las mejoras más interesantes a la familia GPT de modelos de IA ha sido la multimodalidad. Para mayor claridad, la multimodalidad es la capacidad de un modelo de IA para procesar más que solo texto, sino también otros tipos de entradas como imágenes, audio y video. La multimodalidad será un punto de referencia importante para el avance de la familia de modelos GPT en el futuro.

Dado que GPT-4 ya es experto en el manejo de entradas y salidas de imágenes, las mejoras que cubren el procesamiento de audio y video son el próximo hito para OpenAI, y GPT-5 es un buen lugar para comenzar. Google ya está haciendo grandes avances en este tipo de multimodalidad con su modelo Gemini AI. Sería inusual que OpenAI no respondiera. Pero, por supuesto, no confíe en nuestra palabra. En su podcast Unconfuse Me [transcripción PDF], Bill Gates le preguntó al director ejecutivo de OpenAI, Sam Altman, qué hitos preveía para la serie GPT en los próximos dos años. ¿Su primera respuesta? Procesamiento de vídeo.

Entonces, para GPT-5, esperamos poder jugar con videos: cargar videos como indicaciones, crear videos sobre la marcha, editar videos con indicaciones de texto, extraer segmentos de videos y encontrar escenas específicas. de archivos de vídeo de gran tamaño. Esperamos poder hacer cosas similares con los archivos de audio. Es una gran pregunta, sí. Pero dado lo rápido que es el desarrollo de la IA, es una expectativa muy razonable.

2. Ventana de contexto más grande y más eficiente

A pesar de ser uno de los modelos de IA más sofisticados del mercado, la familia GPT de modelos de IA tiene una de las ventanas de contexto más pequeñas. Por ejemplo, Claude 3 de Anthropic cuenta con una ventana contextual de 200.000 tokens, mientras que Gemini de Google puede procesar la asombrosa cifra de 1 millón de tokens (128.000 para uso estándar). Por el contrario, GPT-4 tiene una ventana de contexto relativamente más pequeña de 128.000 tokens, con aproximadamente 32.000 tokens o menos disponibles de manera realista para su uso en interfaces como ChatGPT.

Con la multimodalidad avanzada entrando en escena, una ventana de contexto mejorada es casi inevitable. Tal vez un aumento de un factor de dos o cuatro sería suficiente, pero esperamos ver algo así como un factor de diez. Esto permitirá que GPT-5 procese mucha más información de una manera mucho más eficiente. Ahora bien, una ventana de contexto más grande no siempre significa mejor. Entonces, en lugar de simplemente aumentar la ventana de contexto, nos gustaría ver una mayor eficiencia del procesamiento de contexto.

Verá, un modelo puede tener una ventana de contexto de un millón de tokens (capacidad de alrededor de 700 000 palabras) pero no puede producir un resumen completo cuando se le pide que resuma un libro de 500 000 palabras porque no puede procesar adecuadamente la totalidad. del contexto a pesar de tener la capacidad para hacerlo en teoría. Que puedas leer un libro de 500.000 palabras no significa que puedas recordar todo lo que contiene o procesarlo con sensatez.

3. Agentes GPT

Quizás una de las posibilidades más interesantes de un lanzamiento de GPT-5 es el debut de Agentes GPT. Si bien el término "cambio de juego" probablemente se haya usado en exceso en la IA, los agentes de GPT realmente cambiarían las reglas del juego en todos los sentidos prácticos. ¿Pero hasta qué punto esto cambiaría las reglas del juego?

Actualmente, los modelos de IA como GPT-4 pueden ayudarte a completar una tarea. Pueden escribir un correo electrónico, contar un chiste, resolver un problema de matemáticas o redactar una publicación de blog para usted. Sin embargo, solo pueden realizar esa tarea en particular y no pueden completar un conjunto de tareas relacionadas que serían necesarias para completar su trabajo.

Digamos que eres un desarrollador web. Como parte de su trabajo, se espera que usted haga muchas cosas: diseñar, escribir código, solucionar problemas y mucho más. Actualmente, solo puedes delegar una parte de estas tareas a los modelos de IA a la vez. Tal vez pueda pedirle al modelo GPT-4 que escriba un código para la página de inicio, luego pedirle que lo haga para la página de contacto y luego para la página Acerca de, etc. Deberá completar estas tareas de forma iterativa. Y hay tareas que los modelos simplemente no pueden completar.

Este proceso iterativo de generar modelos de IA para subtareas específicas requiere mucho tiempo y es ineficiente. En este escenario, usted, el desarrollador web, es el agente humano responsable de coordinar y activar los modelos de IA, una tarea a la vez, hasta completar un conjunto completo de tareas relacionadas.

GPT Agents promete robots expertos especializados coordinados, con suerte, por GPT-5, capaces de autoinstruirse y abordar todos los subconjuntos de una tarea compleja de forma autónoma. Énfasis en "automotivación" y "autónoma".

Entonces, si GPT-5 se envía con agentes GPT, puede pedirle que "cree un sitio web de cartera para Maxwell Timothy" en lugar de simplemente "escríbame un código para la página de inicio". En teoría, GPT-5 podría autoinvocar agentes expertos de IA para manejar las diversas subtareas necesarias para crear un sitio web. Podría invocar un GPT para eliminar la web en busca de información sobre Maxwell Timothy, otro agente para escribir el código de diferentes páginas, otro agente para generar y optimizar imágenes e incluso otro agente de IA para implementar el sitio, todo sin la necesidad de repetidas intervenciones humanas. incitación.

4. Menos alucinaciones

Aunque OpenAI ha recorrido un largo camino en el tratamiento de las alucinaciones en sus modelos de IA, la verdadera prueba de fuego para GPT-5 será su capacidad para abordar el problema persistente de alucinaciones, lo que ha frenado la adopción generalizada de la IA en dominios de alto riesgo y críticos para la seguridad, como la atención médica, la aviación y la ciberseguridad. Todas estas son áreas que se beneficiarían enormemente de una fuerte participación de la IA, pero que actualmente evitan una adopción significativa.

Para mayor claridad, alucinación en este contexto se refiere a situaciones en las que el modelo de IA genera y presenta información que suena plausible pero completamente fabricada con un alto grado de confianza.

Imagine un escenario en el que GPT-4 se integra en un sistema de diagnóstico para analizar los síntomas del paciente y los informes médicos. Una alucinación podría llevar a la IA a proporcionar con confianza un diagnóstico incorrecto o recomendar un tratamiento potencialmente peligroso basado en hechos imaginados y lógica falsa. Las consecuencias de tal error en el campo médico podrían ser catastróficas.

Se aplican reservas similares a otros campos de grandes consecuencias, como la aviación, la energía nuclear, las operaciones marítimas y la ciberseguridad. No esperamos que GPT-5 resuelva completamente el problema de las alucinaciones, pero sí que reduzca significativamente la posibilidad de que se produzcan tales incidentes.

Mientras esperamos ansiosamente el lanzamiento oficial de este modelo de IA tan esperado, una cosa es segura: GPT-5 tiene el potencial de redefinir los límites de lo que es posible con la inteligencia artificial, marcando el comienzo de una nueva era de la humanidad. -Colaboración e innovación de máquinas.

Declaración de liberación Este artículo se reproduce en: https://www.makeuseof.com/gpt-5-features-we-want-to-see/ Si hay alguna infracción, comuníquese con [email protected] para eliminarla.

Último tutorial Más>

¿Qué son los agentes de IA? - Guía de análisis y aplicación
Artificial Intelligence (AI) is rapidly evolving, and 2025 is shaping up to be the year of AI agents. But what are AI agents...

AI Publicado el 2025-05-01
Detección de género con OpenCV y RoboFlow en Python - Analytics Vidhya
Introducción La detección de género de las imágenes faciales es una de las muchas aplicaciones fascinantes de la visión por computadora. En este proy...

AI Publicado el 2025-04-29
Pensamiento de la máquina primero: el surgimiento de la IA estratégica
STRATEGIC AI Prologue 11. May 1997, New York City. It was a beautiful spring day in New York City. The skies were clear, and temperatures were climbin...

AI Publicado el 2025-04-29
8 recomendaciones de API esenciales gratuitas y pagadas para LLM
aprovechando el poder de los LLM: una guía para las API para modelos de lenguaje grandes En el panorama comercial dinámico de hoy, las apis (interf...

AI Publicado el 2025-04-21
Guía del usuario: modelo Falcon 3-7B Instruce
Tii's Falcon 3: un salto revolucionario en AI de código abierto La ambiciosa búsqueda de TII de redefinir AI alcanza nuevas alturas con el mode...

AI Publicado el 2025-04-20
Deepseek-v3 vs. GPT-4O y Llama 3.3 70b: el modelo de IA más fuerte revelado
The evolution of AI language models has set new standards, especially in the coding and programming landscape. Leading the c...

AI Publicado el 2025-04-18
Top 5 Herramientas de presupuesto inteligente de IA
desbloqueando la libertad financiera con AI: aplicaciones de presupuesto superior en India ¿Estás cansado de preguntarte constantemente a dónde va ...

AI Publicado el 2025-04-17
Explicación detallada de la función de Excel Sumproduct - Escuela de Análisis de Datos
Función Sumproduct de Excel: una potencia de análisis de datos desbloquea la potencia de la función Sumproduct de Excel para el análisis de datos s...

AI Publicado el 2025-04-16
La investigación en profundidad está completamente abierta, los beneficios del usuario de ChatGPT más
Investigación profunda de Openai: un cambio de juego para AI Research Openai ha desatado una investigación profunda para todos los suscriptores de ...

AI Publicado el 2025-04-16
Amazon Nova Today Real Experience and Review - Analytics Vidhya
Amazon presenta nova: modelos de base de vanguardia para AI y creación de contenido mejoradas El reciente evento de Invent 2024 de Amazon exhibió a...

AI Publicado el 2025-04-16
5 formas de usar la función de tarea de sincronización de chatgpt
Las nuevas tareas programadas de Chatgpt: automatizar su día con ai chatgpt recientemente presentó una función de cambio de juego: tareas programad...

AI Publicado el 2025-04-16
¿Cuál de los tres chatbots de IA responde al mismo aviso es el mejor?
con opciones como Claude, ChatGpt y Gemini, elegir un chatbot puede sentirse abrumador. Para ayudar a cortar el ruido, puse los tres a la prueba u...

AI Publicado el 2025-04-15
Chatgpt es suficiente, no se necesita una máquina de chat de IA dedicada
En un mundo con nuevos chatbots de IA que se lanzarán a diario, puede ser abrumador decidir cuál es el correcto "uno". Pero en mi experienc...

AI Publicado el 2025-04-14
Momento de la IA india: competencia con China y Estados Unidos en IA generativa
Ambiciones AI de la India: una actualización de 2025 con China y Estados Unidos invirtiendo en gran medida en IA generativa, India está acelerando ...

AI Publicado el 2025-04-13
Automatizar la importación de CSV a PostgreSQL usando Airflow y Docker
Este tutorial demuestra construir una tubería de datos robusta utilizando Apache Airflow, Docker y PostgreSQL para automatizar la transferencia de da...

AI Publicado el 2025-04-12

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo