Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación

By: decrypt|2025/05/10 00:15:08

Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación El "modelo de pensamiento" del gigante tecnológico supera a sus rivales en pruebas complejas y ahora está disponible para todos los usuarios de forma gratuita. En Resumen Gemini 2.5 Pro superó a Claude en WebDev Arena, liderando en codificación y otras categorías clave. Obtuvo una puntuación de IQ de 115 y venció a sus rivales en benchmarks como AIME 2025, GPQA y HLE. El modelo procesó hasta 30.000 líneas de código y generó soluciones superiores en pruebas prácticas de desarrollo. Decrypt’s Art, Fashion, and Entertainment Hub. Gemini 2.5 Pro, lanzado recientemente por Google, ha alcanzado el primer puesto en los rankings de codificación, superando a Claude en el famoso WebDev Arena —un sitio de clasificación neutral similar al LLM arena , pero enfocado específicamente en medir qué tan buenos son los modelos de IA en codificación. Este logro llega en medio del esfuerzo de Google por posicionar su modelo insignia de IA como líder tanto en tareas de codificación como de razonamiento. Lanzado a principios de este año, Gemini 2.5 Pro ocupa el primer lugar en varias categorías, incluyendo codificación, control de estilo y escritura creativa. La enorme ventana de contexto del modelo—un millón de tokens que se expandirá a dos millones próximamente—le permite manejar bases de código grandes y proyectos complejos que sofocarían incluso a los competidores más cercanos. Para referencia, modelos potentes como ChatGPT y Claude 3.7 Sonnet solo pueden manejar hasta 128K tokens. Gemini también tiene el "IQ" más alto de todos los modelos de IA. TrackingAI lo sometió a pruebas formales de MENSA , utilizando preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos de IA. Gemini 2.5 Pro obtuvo puntuaciones más altas que sus competidores en estas pruebas, incluso cuando se utilizaron preguntas personalizadas no disponibles públicamente en los datos de entrenamiento. Con una puntuación de IQ de 115 en pruebas offline, el nuevo Gemini se ubica entre las "mentes brillantes", con la inteligencia humana promedio puntuando alrededor de 85 a 114 puntos. Pero la noción de que una IA tenga IQ necesita aclaración. Los sistemas de IA no tienen cocientes de inteligencia como los humanos, por lo que es mejor pensar en el punto de referencia como una metáfora para el rendimiento en pruebas de razonamiento. Para benchmarks diseñados específicamente para IA, Gemini 2.5 Pro obtuvo 86,7% en la prueba matemática AIME 2025 y 84,0% en la evaluación científica GPQA. En Humanity's Last Exam (HLE), un benchmark más nuevo y difícil creado para evitar problemas de saturación de pruebas, Gemini 2.5 obtuvo 18,8%, superando al o3 mini de OpenAI (14%) y a Claude 3.7 Sonnet (8,9%), lo cual es notable en términos de mejora de rendimiento. La nueva versión de Gemini 2.5 Pro ahora está disponible gratuitamente (con límites de frecuencia) para todos los usuarios de Gemini. Google describió previamente este lanzamiento como una "versión experimental de 2.5 Pro", parte de su familia de "modelos pensantes" diseñados para razonar las respuestas en lugar de simplemente generar texto. A pesar de no ganar en todos los benchmarks, Gemini ha captado la atención de los desarrolladores con su versatilidad. El modelo puede crear aplicaciones complejas a partir de un solo prompt, construyendo aplicaciones web interactivas, juegos de carrera infinita y simulaciones visuales sin requerir instrucciones detalladas. Probamos el modelo pidiéndole que arreglara un código HTML5 roto. Generó casi 1.000 líneas de código, proporcionando resultados que superaron a Claude 3.7 Sonnet—el líder anterior—en términos de calidad y comprensión del conjunto completo de instrucciones. El costo de entrada de Gemini 2.5 Pro es de $2,50 por millón de tokens y el costo de salida es de $15,00 por millón de tokens, posicionándolo como una alternativa más económica frente a algunos competidores mientras sigue ofreciendo capacidades impresionantes. El modelo de IA maneja hasta 30.000 líneas de código en su plan Advanced, haciéndolo adecuado para proyectos a nivel empresarial. Sus capacidades multimodales—trabajando con texto, código, audio , imágenes y video —añaden una flexibilidad que otros modelos enfocados en codificación no pueden igualar. Generally Intelligent Newsletter

También te puede interesar

¿Cómo hacer un saldo entre riesgo y retorno en los rendimientos DeFi?

¿Estos rendimientos han sido razonables alguna vez? ¿Alguna vez recibimos la compensación que merecemos por los riesgos asumidos en DeFi y dónde se deben establecer los spreads futuros?

La tesis de Tom Lee sobre Ethereum: Por qué el hombre que acertó el último ciclo está apostando fuerte por Bitmine

Tom Lee se está convirtiendo en uno de los defensores más influyentes de Ethereum. Desde Fundstrat hasta Bitmine, su análisis sobre Ethereum combina el rendimiento del staking, la acumulación de activos y el valor a largo plazo de la red. He aquí por qué «Tom Lee Ethereum» se ha convertido en uno de los temas más seguidos del mundo de las criptomonedas.

Naval sube personalmente al escenario: El histórico choque entre la gente común y el capital de riesgo.

Naval asumió personalmente la presidencia del Comité de Inversiones de USVC. Este fondo, registrado ante la SEC y lanzado por AngelList, busca acercar al público general los principales activos tecnológicos privados como OpenAI, Anthropic y xAI, con un umbral de entrada de 500 dólares. No se trata solo de un nuevo fondo, sino de una experiencia estructural...

a16z Cripto: 9 gráficos para comprender las tendencias de evolución de las stablecoins

Las stablecoins están evolucionando de tradear herramientas a infraestructura de pago universal, y este proceso es más silencioso y exhaustivo de lo que la mayoría de la gente esperaba.

Refutación del artículo «El fin de las criptomonedas», de Yang Haipo

Quizá esta sea la verdadera prueba de fuego para las criptomonedas. No se trata de si el precio ha alcanzado un nuevo máximo, ni de quién logrará la libertad financiera en el próximo mercado alcista, sino más bien de si, una vez que los ciclos hayan barrido todas las grandes narrativas, aún podrá dejar tras de sí algo más sencillo, más...

¿Puede un secador de pelo ganar $34,000? Interpretando la paradoja de la reflexividad de los mercados de predicción

Los mercados de predicción son esencialmente apuestas sobre la realidad, y cuando los participantes pueden acceder o incluso influir en este camino antes, el mercado ya no solo refleja la realidad, sino que comienza a moldearla a su vez.

Fundador de 6MV: En 2026, ha llegado el "punto de inflexión histórico" para la inversión en criptomonedas

"Voy a destinar fondos en 2026, así que les diré que este es el mejor año de la historia".

Un VC del mundo cripto dijo que la IA es demasiado loca, y que son muy conservadores.

En medio del furor de las criptomonedas y con los inversores que una vez perdieron Pinduoduo, se estableció un nuevo fondo de IA llamado Impa Ventures, que rechaza las narrativas de burbujas y se adhiere a una estrategia conservadora de "prioridad al problema" para buscar valor comercial real.

Abraxas Capital emite $2.89 mil millones en USDT: ¿Impulso de liquidez o simplemente más arbitraje de stablecoins?

Abraxas Capital acaba de recibir $2.89 mil millones en USDT recién emitidos de Tether. ¿Es esta una inyección de liquidez alcista para los mercados de criptomonedas, o es simplemente el negocio habitual de un gigante del arbitraje de stablecoins? Analizamos los datos y el probable impacto en Bitcoin, altcoins y DeFi.

Historial evolutiva de los algoritmos de contrato: Una década de contratos perpetuos, el telón aún no ha caído

La evolución de diez años de contratos perpetuos: desde desconectar el 312 hasta el impactante apretón en short de TRB, una inmersión profunda en la máquina de fijación de precios que promedia los 200.000 millones de dólares diarios, escrita con innumerables liquidaciones y dinero real, que detalla la sangre y las lágrimas de la teoría del control de riesgos.

Noticias sobre ETF de Bitcoin hoy: $2.1B en entradas indican una fuerte demanda institucional por BTC

Las noticias sobre ETF de Bitcoin registraron $2.1B en entradas durante 8 días consecutivos, marcando una de las rachas de acumulación más fuertes recientes. Esto es lo que significan las últimas noticias sobre ETF de Bitcoin para el precio de BTC y si el nivel de ruptura de $80K es el siguiente.

Tras haber sido expulsado de PayPal, Musk pretende volver al mercado de las criptomonedas

Cashtags generó un volumen de operaciones de 1000 millones de dólares tan solo unos días después de su lanzamiento, lo que supuso un gran comienzo para la estrategia de la «superapp» de Musk. En lo que respecta al mercado de las criptomonedas, la estrategia de X podría ser uno de los factores más esperados para impulsar el crecimiento del mercado minorista una vez que se calme la fiebre por las monedas meme.

Michael Saylor: El invierno ha terminado – ¿Está en lo correcto? 5 puntos de datos clave (2026)

Michael Saylor tuiteó ayer "El invierno ha terminado." Es breve. Es audaz. Y tiene al mundo cripto hablando.

¿Pero está en lo correcto? ¿O es solo otro CEO inflando sus activos?

Veamos los datos. Seamos neutrales. Veamos si el hielo realmente se ha derretido.

La aplicación WEEX Bubbles ya está disponible y permite visualizar el mercado de criptomonedas de un vistazo

WEEX Bubbles es una aplicación independiente diseñada para ayudar a los usuarios a comprender rápidamente los complejos movimientos del mercado de criptomonedas a través de una visualización intuitiva de burbujas.

El cofundador de Polygon, Sandeep: Escribiendo después de la explosión del puente de cadena

En tres semanas, Drift, Hyperbridge y KelpDAO fueron hackeados consecutivamente, resultando en casi $900 millones en pérdidas. El CEO de Polygon escribió que el problema no radica en un solo equipo, sino en la arquitectura de estilo "notario" compartida por toda la industria, que depende de uno o dos firmantes para validar cro...

Actualización importante en la web: Más de 10 estilos de gráficos avanzados para obtener una visión más detallada del mercado

Con el fin de ofrecer herramientas de análisis más potentes y profesionales, WEEX ha lanzado una importante actualización de sus gráficos de trading web, que ahora admiten hasta 14 estilos de gráficos avanzados.