El impresionante progreso en modelos de lenguaje de gran escala (LLM) ha sido evidente con el éxito de iniciativas como la serie o1 de OpenAI y DeepSeek-R1. Estos logros han puesto de relieve el enorme potencial del aprendizaje por refuerzo a gran escala (RL) para mejorar habilidades de razonamiento complejo. Sin embargo, aunque los resultados han sido asombrosos, los métodos específicos detrás de estos avances suelen quedar en la sombra.
Un aspecto preocupante es que, hasta ahora, buena parte de los esfuerzos de la comunidad investigadora se ha centrado casi exclusivamente en el razonamiento matemático, dejando de lado un reto fundamental: la generalización entre distintos dominios. Además, los enfoques tradicionales como el GRPO (Aprendizaje por Refuerzo basado en la Optimización de Preferencias) han mostrado limitaciones serias: cuellos de botella de rendimiento, baja eficiencia en el uso de datos y dificultades para fomentar razonamientos especializados en conjuntos de datos heterogéneos.
Frente a este panorama, el equipo de Kwaipilot de Kuaishou propone una solución valiente y original: la Optimización de Políticas de Remuestreo Histórico en Dos Etapas (SRPO). Este nuevo marco no solo ataca los problemas existentes, sino que además logra establecer un nuevo estándar de rendimiento en dominios como matemáticas y programación. Su modelo, SRPO-Qwen-32B, ya ha sido liberado como proyecto de código abierto.
Rompiendo límites: qué hace especial a SRPO
Por primera vez, un método consigue igualar el rendimiento de DeepSeek-R1-Zero tanto en matemáticas como en programación, utilizando el mismo modelo base, Qwen2.5-32B, pero basándose únicamente en técnicas de aprendizaje por refuerzo. Los resultados hablan por sí mismos: en benchmarks como AIME24 (50) y LiveCodeBench (41.6), SRPO supera los registros anteriores, y lo hace usando apenas una décima parte del tiempo de entrenamiento que requería R1-Zero.
Un logro impresionante que no solo refleja una mejora de eficiencia, sino también un replanteamiento profundo de cómo debe entrenarse un modelo que busca habilidades de razonamiento general.
Las limitaciones del GRPO clásico
Antes de aterrizar en SRPO, el equipo exploró a fondo el enfoque GRPO estándar. Sin embargo, los obstáculos fueron evidentes desde el principio:
- Conflictos entre dominios: Las trayectorias largas y detalladas necesarias para resolver problemas matemáticos chocaban con la naturaleza directa y breve del razonamiento en código. Combinar ambos en una sola tanda de entrenamiento resultaba contraproducente.
- Ineficiencia por recompensas similares: GRPO se apoya en la varianza de recompensas dentro de un grupo para calcular ventajas. Cuando los ejemplos generaban recompensas muy parecidas, las actualizaciones de los gradientes eran casi nulas, haciendo el aprendizaje ineficaz.
- Saturación temprana: A falta de datos suficientemente desafiantes o diversos, el entrenamiento se estancaba rápido. El modelo aprendía a resolver tareas sencillas, pero no lograba generalizar o razonar a niveles más profundos.
Estos hallazgos llevaron a Kwaipilot a buscar estrategias más robustas.
SRPO: un entrenamiento en dos etapas para dominar el razonamiento
Kwaipilot diseñó su metodología dividiendo el proceso en dos fases bien diferenciadas:
Etapa 1: Fortaleciendo el razonamiento matemático
Primero, el modelo se expone únicamente a problemas matemáticos complejos. Esta fase no busca que el modelo «responda rápido», sino que internalice procesos como la reflexión, la descomposición en pasos, el retroceso y la revisión crítica.
Etapa 2: Integración de la programación
Una vez cimentadas las bases de razonamiento, se introducen gradualmente los datos de código. El objetivo es que el modelo no solo resuelva problemas de programación, sino que piense de manera estructurada, fomente el razonamiento procedimental y adquiera habilidades como la recursividad y el uso estratégico de herramientas.
Esta transición de lo general a lo específico resultó clave para lograr un equilibrio efectivo entre distintas habilidades.
Comparativa de estrategias de entrenamiento
La elección de los datos de entrenamiento no es trivial. Kwaipilot analizó cuidadosamente distintos enfoques:
- Entrenamiento mixto: Usar matemáticas y código desde el principio produjo respuestas más cortas y razonamientos limitados.
- Solo matemáticas: Aquí se observó un incremento estable en la longitud de respuestas y razonamientos más detallados, incluso cuando luego se enfrentaban a tareas de programación.
- Solo código: Aunque el modelo mejoraba en benchmarks de programación, sus respuestas eran directas y carentes de reflexión.
- Entrenamiento por etapas: El enfoque de SRPO superó claramente a los demás, promoviendo razonamientos paso a paso tanto en matemáticas como en programación.
Un hallazgo fascinante fue que, tras la formación en matemáticas, el modelo tendía espontáneamente a aplicar estrategias de razonamiento estructurado incluso cuando se le pedían tareas de programación.
Remuestreo del historial: mejorando la eficiencia de aprendizaje
Un problema detectado durante el entrenamiento fue que cerca del 50% de los lotes generaban recompensas idénticas, reflejo de que los problemas simples dominaban la muestra. Esto reducía drásticamente la efectividad del aprendizaje.
Para solucionarlo, Kwaipilot implementó un enfoque de remuestreo histórico:
- Filtrar problemas demasiado fáciles.
- Conservar aquellos con resultados mixtos (aciertos y errores).
- Mantener los problemas difíciles, incluso cuando inicialmente todos los intentos fallaban.
Esta estrategia permitió generar gradientes más informativos, siguiendo una filosofía similar al «aprendizaje curricular», donde se expone al modelo progresivamente a retos más duros.
Además, el remuestreo histórico resultó mucho más eficiente que otros métodos de muestreo dinámico como el de DAPO.
Un trabajo meticuloso en los datos
Otra clave del éxito de SRPO fue la rigurosa limpieza y curación de datos. Kwaipilot no utilizó los conjuntos de Code&Math «tal cual», sino que aplicó un filtrado meticuloso:
- Eliminando URLs irrelevantes y errores de formato.
- Descartando preguntas multipartes o basadas en imágenes/tablas.
- Filtrando problemas de programación que dependían de entornos específicos o interacciones de red.
Además, verificaron manualmente la corrección de los problemas y clasificaron la dificultad según el índice de aprobación (Pass@k), garantizando así un nivel de exigencia adecuado para cada fase del entrenamiento.
Resultados experimentales: curvas que cuentan una historia
Durante el entrenamiento, las métricas hablaron por sí solas. Al pasar de la primera a la segunda etapa, hubo una caída temporal en la recompensa —esperada, dado que el modelo aún no dominaba la programación—, pero pronto retomó una curva ascendente sostenida.
La longitud de respuesta también se comportó como se esperaba: creció de forma estable durante la fase matemática y se mantuvo al integrar código.
Esto demostró que SRPO no solo mejora el rendimiento en benchmarks, sino que además promueve procesos de pensamiento más profundos y estructurados.
El despertar del razonamiento reflexivo
Uno de los fenómenos más interesantes observados fue el desarrollo espontáneo de patrones de reflexión:
- Re-verificación de pasos.
- Retroceso ante errores.
- Exploración de alternativas.
Estos comportamientos no estaban explícitamente programados, sino que emergieron de la dinámica del entrenamiento por refuerzo optimizado.
Más aún, el modelo aprendió a utilizar código como herramienta de verificación matemática. Después de razonar una solución, generaba programas para comprobar su validez, mostrando así una comprensión integrada de los problemas.
Reflexión personal: el verdadero valor de la innovación silenciosa
Leer sobre la evolución que Kwaipilot propone con SRPO me dejó pensando en algo que solemos olvidar: los grandes avances tecnológicos no siempre ocurren en escenarios ruidosos, plagados de anuncios mediáticos. A veces, la verdadera revolución ocurre de manera silenciosa, entre investigadores que se atreven a cuestionar los métodos «consagrados» y buscar caminos alternativos.
Lo que más me impresiona de este trabajo no son solo las métricas —que sí, son impresionantes—, sino la filosofía detrás del método. No se trata simplemente de «hacer que un modelo acierte más»; se trata de enseñar a pensar, de formar una inteligencia capaz de reflexionar, retroceder, replantearse una solución.
Vivimos en una época donde todo parece medirse por la rapidez de los resultados, pero la propuesta de SRPO nos recuerda que el razonamiento profundo lleva tiempo y requiere estrategia. Me parece esperanzador ver que aún hay equipos dispuestos a diseñar soluciones que valoran el proceso tanto como el resultado.
Quizá la gran lección aquí es que, si queremos construir inteligencias verdaderamente útiles y fiables, debemos abandonar la obsesión por la cantidad y apostar, como Kwaipilot, por la calidad del aprendizaje.
Y eso, a largo plazo, podría ser el paso más importante hacia una IA más humana en su forma de razonar.