(https://i.postimg.cc/yYtxKkBC/Gemini.png) (https://postimages.org/)
Uno de los puntos fuertes de los modelos emblemáticos de IA generativa de Google, Gemini 1.5 Pro y 1.5 Flash, es la cantidad de datos que supuestamente pueden procesar y analizar. En conferencias de prensa y demostraciones, Google ha afirmado repetidamente que los modelos pueden realizar tareas que antes eran imposibles gracias a su "largo contexto", como resumir varios documentos de cien páginas o buscar escenas en secuencias cinematográficas.
Pero una nueva investigación sugiere que los modelos, de hecho, no son muy buenos en esas cosas.
Dos estudios separados investigaron qué tan bien los modelos Gemini de Google y otros dan sentido a partir de una enorme cantidad de datos; piense en los trabajos de "Guerra y Paz". Ambos encuentran que Gemini 1.5 Pro y 1.5 Flash tienen dificultades para responder correctamente preguntas sobre grandes conjuntos de datos; En una serie de pruebas basadas en documentos, los modelos dieron la respuesta correcta sólo entre el 40% y el 50% de las veces.
"Si bien modelos como Gemini 1.5 Pro pueden técnicamente procesar contextos largos, hemos visto muchos casos que indican que los modelos en realidad no 'entienden' el contenido", dijo Marzena Karpinska, postdoctorada en UMass Amherst y coautora de uno de los estudios.
Falta la ventana de contexto de Géminis
El contexto de un modelo, o ventana de contexto, se refiere a los datos de entrada (p. ej., texto) que el modelo considera antes de generar resultados (p. ej., texto adicional). Una pregunta sencilla: "¿Quién ganó las elecciones presidenciales estadounidenses de 2020?" – puede servir como contexto, al igual que el guion de una película, un programa o un clip de audio. Y a medida que crecen las ventanas contextuales, también crece el tamaño de los documentos que caben en ellas.
Las versiones más nuevas de Gemini pueden aceptar más de 2 millones de tokens como contexto. ("Los tokens" son bits subdivididos de datos sin procesar, como las sílabas "fan", "tas" y "tic" en la palabra "fantástico"). Eso equivale aproximadamente a 1,4 millones de palabras, dos horas de vídeo o 22 horas de audio. — el contexto más amplio de cualquier modelo disponible comercialmente.
En una sesión informativa a principios de este año, Google mostró varias demostraciones pregrabadas destinadas a ilustrar el potencial de las capacidades de contexto a largo plazo de Gemini. Uno hizo que Gemini 1.5 Pro buscara en la transcripción de la transmisión del aterrizaje lunar del Apolo 11 (alrededor de 402 páginas) citas que contenían chistes, y luego encontrara una escena en la transmisión que se parecía a un boceto a lápiz.
El vicepresidente de investigación de Google DeepMind, Oriol Vinyals, que dirigió la sesión informativa, describió el modelo como "mágico".
"[1.5 Pro] realiza este tipo de tareas de razonamiento en cada página, en cada palabra", dijo.
Podría haber sido una exageración.
En uno de los estudios antes mencionados que compara estas capacidades, Karpinska, junto con investigadores del Instituto Allen de IA y Princeton, pidió a los modelos que evaluaran afirmaciones de verdadero/falso sobre libros de ficción escritos en inglés. Los investigadores eligieron trabajos recientes para que los modelos no pudieran "hacer trampa" confiando en el conocimiento previo, y salpicaron las declaraciones con referencias a detalles específicos y puntos de la trama que serían imposibles de comprender sin leer los libros en su totalidad.
Ante una declaración como "Al usar sus habilidades como Apoth, Nusis es capaz de aplicar ingeniería inversa al tipo de portal abierto por la llave de reactivos encontrada en el cofre de madera de Rona", Gemini 1.5 Pro y 1.5 Flash, después de haber ingerido el libro relevante, tuvieron que decir rsi la afirmación era verdadera o falsa y explica su razonamiento.
Probado en un libro de alrededor de 260.000 palabras (~520 páginas) de extensión, los investigadores encontraron que 1.5 Pro respondió correctamente las afirmaciones de verdadero/falso el 46,7% de las veces, mientras que Flash respondió correctamente sólo el 20% de las veces. Eso significa que una moneda es significativamente mejor a la hora de responder preguntas sobre el libro que el último modelo de aprendizaje automático de Google. Al promediar todos los resultados de referencia, ninguno de los modelos logró alcanzar una probabilidad superior a la aleatoria en términos de precisión en las respuestas a las preguntas.
"Hemos notado que los modelos tienen más dificultades para verificar afirmaciones que requieren considerar porciones más grandes del libro, o incluso el libro completo, en comparación con afirmaciones que pueden resolverse recuperando evidencia a nivel de oración", dijo Karpinska. "Cualitativamente, también observamos que los modelos tienen dificultades para verificar afirmaciones sobre información implícita que es clara para un lector humano pero que no se expresa explícitamente en el texto".
El segundo de los dos estudios, en coautoría de investigadores de UC Santa Barbara, probó la capacidad de Gemini 1.5 Flash (pero no 1.5 Pro) para "razonar sobre" videos, es decir, buscar y responder preguntas sobre el contenido de ellos.
Los coautores crearon un conjunto de datos de imágenes (por ejemplo, una foto de un pastel de cumpleaños) junto con preguntas para que el modelo respondiera sobre los objetos representados en las imágenes (por ejemplo, "¿Qué personaje de dibujos animados hay en este pastel?"). Para evaluar los modelos, eligieron una de las imágenes al azar e insertaron imágenes "distractoras" antes y después para crear imágenes similares a presentaciones de diapositivas.
Flash no funcionó tan bien. En una prueba en la que el modelo transcribió seis dígitos escritos a mano de una "presentación de diapositivas" de 25 imágenes, Flash obtuvo alrededor del 50% de las transcripciones correctas. La precisión cayó a alrededor del 30% con ocho dígitos.
"En tareas reales de respuesta a preguntas sobre imágenes, parece ser particularmente difícil para todos los modelos que probamos", dijo a TechCrunch Michael Saxon, estudiante de doctorado en UC Santa Barbara y uno de los coautores del estudio. "Esa pequeña cantidad de razonamiento (reconocer que un número está en un marco y leerlo) podría ser lo que está rompiendo el modelo".
Google promete demasiado con Gemini
Ninguno de los estudios ha sido revisado por pares ni investiga los lanzamientos de Gemini 1.5 Pro y 1.5 Flash con contextos de 2 millones de tokens. (Ambos probaron las versiones contextuales de 1 millón de tokens). Y Flash no está destinado a ser tan capaz como Pro en términos de rendimiento; Google lo anuncia como una alternativa de bajo costo.
Sin embargo, ambos añaden más leña al fuego de que Google ha estado prometiendo demasiado (y no cumpliendo) con Gemini desde el principio. Ninguno de los modelos que los investigadores probaron, incluido el GPT-4o de OpenAI y el Claude 3.5 Sonnet de Anthropic, funcionó bien. Pero Google es el único proveedor modelo al que se le da una facturación contextual en sus anuncios.
"No hay nada de malo en la simple afirmación: 'Nuestro modelo puede aceptar una cantidad X de tokens' basándose en los detalles técnicos objetivos", dijo Saxon. "Pero la pregunta es: ¿qué cosa útil se puede hacer con él?"
La IA generativa, en términos generales, está siendo objeto de un mayor escrutinio a medida que las empresas (y los inversores) se sienten cada vez más frustrados por las limitaciones de la tecnología.
En un par de encuestas recientes de Boston Consulting Group, aproximadamente la mitad de los encuestados (todos ejecutivos de alta dirección) dijeron que no esperan que la IA generativa genere ganancias sustanciales de productividad y que les preocupa la posibilidad de cometer errores y compromisos de datos que surgen de herramientas generativas impulsadas por IA. PitchBook informó recientemente que, durante dos trimestres consecutivos, los acuerdos de IA generativa en las primeras etapas han disminuido, cayendo un 76% desde su pico en el tercer trimestre de 2023.
Frente a chatbots que resumen reuniones que evocan detalles ficticios sobre personas y plataformas de búsqueda de inteligencia artificial que básicamente equivalen a generadores de plagio, los clientes están a la caza de diferenciadores prometedores. Google, que ha corrido, a veces torpemente, para alcanzar a sus rivales de IA generativa, estaba desesperado por hacer del contexto de Gemini uno de esos diferenciadores.
Pero parece que la apuesta fue prematura.
"No hemos decidido una forma de demostrar realmente que se está produciendo un 'razonamiento' o una 'comprensión' a lo largo de documentos extensos, y básicamente cada grupo que publica estos modelos está improvisando sus propias evaluaciones ad hoc para hacer estas afirmaciones", dijo Karpinska. "Sin saber durante cuánto tiempo se implementa el procesamiento de contexto (y las empresas no comparten estos detalles) es difícil decir cuán realistas son estas afirmaciones".
Google no respondió a una solicitud de comentarios.
Tanto Saxon como Karpinska creen que los antídotos contra las exageradas afirmaciones sobre la IA generativa son mejores puntos de referencia y, en la misma línea, un mayor énfasis en la crítica de terceros. Saxon señala que una de las pruebas más comunes para contexto largo (citada generosamente por Google en sus materiales de marketing), "la aguja en el pajar", solo mide la capacidad de un modelo para recuperar información particular, como nombres y números, de conjuntos de datos, no responder. preguntas complejas sobre esa información.
"Todos los científicos y la mayoría de los ingenieros que utilizan estos modelos están esencialmente de acuerdo en que nuestra actual cultura de referencia está rota", dijo Saxon, "por lo que es importante que el público entienda que se deben tomar estos informes gigantes que contienen números como 'inteligencia general a través de pruebas' como un enorme puñado de sal."
Fuente:
TechCrunch
https://techcrunch.com/2024/06/29/geminis-data-analyzing-abilities-arent-as-good-as-google-claims/?guccounter=1