Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación

By: decrypt|2025/05/10 00:15:08
0
Compartir
copy
Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación El "modelo de pensamiento" del gigante tecnológico supera a sus rivales en pruebas complejas y ahora está disponible para todos los usuarios de forma gratuita. En Resumen Gemini 2.5 Pro superó a Claude en WebDev Arena, liderando en codificación y otras categorías clave. Obtuvo una puntuación de IQ de 115 y venció a sus rivales en benchmarks como AIME 2025, GPQA y HLE. El modelo procesó hasta 30.000 líneas de código y generó soluciones superiores en pruebas prácticas de desarrollo. Decrypt’s Art, Fashion, and Entertainment Hub. Gemini 2.5 Pro, lanzado recientemente por Google, ha alcanzado el primer puesto en los rankings de codificación, superando a Claude en el famoso WebDev Arena —un sitio de clasificación neutral similar al LLM arena , pero enfocado específicamente en medir qué tan buenos son los modelos de IA en codificación. Este logro llega en medio del esfuerzo de Google por posicionar su modelo insignia de IA como líder tanto en tareas de codificación como de razonamiento. Lanzado a principios de este año, Gemini 2.5 Pro ocupa el primer lugar en varias categorías, incluyendo codificación, control de estilo y escritura creativa. La enorme ventana de contexto del modelo—un millón de tokens que se expandirá a dos millones próximamente—le permite manejar bases de código grandes y proyectos complejos que sofocarían incluso a los competidores más cercanos. Para referencia, modelos potentes como ChatGPT y Claude 3.7 Sonnet solo pueden manejar hasta 128K tokens. Gemini también tiene el "IQ" más alto de todos los modelos de IA. TrackingAI lo sometió a pruebas formales de MENSA , utilizando preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos de IA. Gemini 2.5 Pro obtuvo puntuaciones más altas que sus competidores en estas pruebas, incluso cuando se utilizaron preguntas personalizadas no disponibles públicamente en los datos de entrenamiento. Con una puntuación de IQ de 115 en pruebas offline, el nuevo Gemini se ubica entre las "mentes brillantes", con la inteligencia humana promedio puntuando alrededor de 85 a 114 puntos. Pero la noción de que una IA tenga IQ necesita aclaración. Los sistemas de IA no tienen cocientes de inteligencia como los humanos, por lo que es mejor pensar en el punto de referencia como una metáfora para el rendimiento en pruebas de razonamiento. Para benchmarks diseñados específicamente para IA, Gemini 2.5 Pro obtuvo 86,7% en la prueba matemática AIME 2025 y 84,0% en la evaluación científica GPQA. En Humanity's Last Exam (HLE), un benchmark más nuevo y difícil creado para evitar problemas de saturación de pruebas, Gemini 2.5 obtuvo 18,8%, superando al o3 mini de OpenAI (14%) y a Claude 3.7 Sonnet (8,9%), lo cual es notable en términos de mejora de rendimiento. La nueva versión de Gemini 2.5 Pro ahora está disponible gratuitamente (con límites de frecuencia) para todos los usuarios de Gemini. Google describió previamente este lanzamiento como una "versión experimental de 2.5 Pro", parte de su familia de "modelos pensantes" diseñados para razonar las respuestas en lugar de simplemente generar texto. A pesar de no ganar en todos los benchmarks, Gemini ha captado la atención de los desarrolladores con su versatilidad. El modelo puede crear aplicaciones complejas a partir de un solo prompt, construyendo aplicaciones web interactivas, juegos de carrera infinita y simulaciones visuales sin requerir instrucciones detalladas. Probamos el modelo pidiéndole que arreglara un código HTML5 roto. Generó casi 1.000 líneas de código, proporcionando resultados que superaron a Claude 3.7 Sonnet—el líder anterior—en términos de calidad y comprensión del conjunto completo de instrucciones. El costo de entrada de Gemini 2.5 Pro es de $2,50 por millón de tokens y el costo de salida es de $15,00 por millón de tokens, posicionándolo como una alternativa más económica frente a algunos competidores mientras sigue ofreciendo capacidades impresionantes. El modelo de IA maneja hasta 30.000 líneas de código en su plan Advanced, haciéndolo adecuado para proyectos a nivel empresarial. Sus capacidades multimodales—trabajando con texto, código, audio , imágenes y video —añaden una flexibilidad que otros modelos enfocados en codificación no pueden igualar. Generally Intelligent Newsletter

También te puede interesar

¿Cómo hacer un saldo entre riesgo y retorno en los rendimientos DeFi?

¿Estos rendimientos han sido razonables alguna vez? ¿Alguna vez recibimos la compensación que merecemos por los riesgos asumidos en DeFi y dónde se deben establecer los spreads futuros?

La tesis de Tom Lee sobre Ethereum: Por qué el hombre que acertó el último ciclo está apostando fuerte por Bitmine

Tom Lee se está convirtiendo en uno de los defensores más influyentes de Ethereum. Desde Fundstrat hasta Bitmine, su análisis sobre Ethereum combina el rendimiento del staking, la acumulación de activos y el valor a largo plazo de la red. He aquí por qué «Tom Lee Ethereum» se ha convertido en uno de los temas más seguidos del mundo de las criptomonedas.

Naval sube personalmente al escenario: El histórico choque entre la gente común y el capital de riesgo.

Naval asumió personalmente la presidencia del Comité de Inversiones de USVC. Este fondo, registrado ante la SEC y lanzado por AngelList, busca acercar al público general los principales activos tecnológicos privados como OpenAI, Anthropic y xAI, con un umbral de entrada de 500 dólares. No se trata solo de un nuevo fondo, sino de una experiencia estructural...

a16z Cripto: 9 gráficos para comprender las tendencias de evolución de las stablecoins

Las stablecoins están evolucionando de tradear herramientas a infraestructura de pago universal, y este proceso es más silencioso y exhaustivo de lo que la mayoría de la gente esperaba.

Refutación del artículo «El fin de las criptomonedas», de Yang Haipo

Quizá esta sea la verdadera prueba de fuego para las criptomonedas. No se trata de si el precio ha alcanzado un nuevo máximo, ni de quién logrará la libertad financiera en el próximo mercado alcista, sino más bien de si, una vez que los ciclos hayan barrido todas las grandes narrativas, aún podrá dejar tras de sí algo más sencillo, más...

¿Puede un secador de pelo ganar $34,000? Interpretando la paradoja de la reflexividad de los mercados de predicción

Los mercados de predicción son esencialmente apuestas sobre la realidad, y cuando los participantes pueden acceder o incluso influir en este camino antes, el mercado ya no solo refleja la realidad, sino que comienza a moldearla a su vez.

Monedas populares

Últimas noticias sobre criptomonedas

Leer más
iconiconiconiconiconicon
Atención al cliente:@weikecs
Cooperación empresarial:@weikecs
Trading cuantitativo y MM:bd@weex.com
Programa VIP:support@weex.com