DeepSeek presenta R2 y revoluciona la inferencia con su técnica SPCT

DeepSeek AI, uno de los actores más innovadores en el campo de los grandes modelos de lenguaje (LLM), acaba de presentar un avance significativo: una nueva técnica llamada SPCT (Self-Principal Critique Tuning) para escalar el rendimiento de los modelos de recompensa durante la inferencia.

Esta innovación llega junto al anuncio del desarrollo de su próximo modelo de generación, DeepSeek R2, que promete aprovechar estas mejoras para llevar el razonamiento de IA a otro nivel.

El problema: los LLM aún piensan a corto plazo

Aunque los LLM actuales han demostrado una capacidad notable para generar texto fluido y respuestas contextuales, su capacidad de planificación y razonamiento profundo sigue siendo limitada.

Esto se debe, en parte, a su arquitectura basada en la predicción del siguiente token, que tiende a favorecer respuestas inmediatas sobre estrategias a largo plazo.

Para solucionar esto, el aprendizaje por refuerzo (RL) ha surgido como un aliado clave, permitiendo que los modelos simulen escenarios, evalúen caminos posibles y seleccionen respuestas más estratégicas. DeepSeek ha sido pionera en esta línea, especialmente con su serie R1, que demostró que un modelo puede entrenarse exitosamente con RL puro, sin ajuste supervisado convencional.

¿Qué propone SPCT y por qué es importante?

El corazón del nuevo avance de DeepSeek es SPCT, una técnica diseñada para mejorar la calidad y escalabilidad de los General Reward Models (GRM) durante la inferencia.

En lugar de optimizar únicamente durante el entrenamiento, SPCT permite que los modelos ajusten su razonamiento en tiempo real, generando principios y críticas que refinen la toma de decisiones.

🔧 ¿Cómo funciona SPCT?

SPCT se compone de dos etapas clave:

  1. Fine-tuning de rechazo (Rejection Tuning):
    Inicia el proceso adaptando el modelo para generar salidas estructuradas con principios y críticas correctamente formateadas.
  2. Refuerzo en línea basado en reglas (Rule-based Online RL):
    Optimiza esas salidas en tiempo real, mejorando la coherencia, relevancia y capacidad crítica del modelo.

Para potenciar este proceso, DeepSeek implementa:

  • Muestreo paralelo, que permite generar múltiples salidas alternativas y seleccionar la mejor por votación.
  • Meta Reward Model (Meta RM): un modelo de recompensa adicional que actúa como juez para validar qué principios y críticas son más precisos y valiosos.

El resultado: un modelo capaz de autoevaluarse, autocorregirse y escalar su razonamiento incluso en la fase de inferencia, lo cual representa una ruptura con las prácticas tradicionales centradas solo en el preentrenamiento.

¿Por qué importa ahora? El shift hacia la inferencia inteligente

Hasta hace poco, escalar los modelos de lenguaje significaba principalmente aumentar los parámetros y los datos de entrenamiento.

Pero con la aparición de modelos como OpenAI o1, el enfoque está migrando hacia una optimización post-entrenamiento, especialmente en la inferencia. Modelos como o1 generan extensas cadenas internas de razonamiento antes de responder, explorando múltiples caminos y corrigiendo errores antes de dar una respuesta.

SPCT se alinea con esta tendencia. En lugar de limitarse a generar una respuesta única, permite a los modelos razonar activamente sobre sus propias salidas, evaluarlas, criticarlas y mejorar su calidad a través de procesos internos más sofisticados.

DeepSeek R2: el nuevo modelo en camino

Aunque el foco del artículo técnico de DeepSeek está en el SPCT y los GRM, el anuncio dejó entrever lo que muchos esperaban: la llegada inminente del modelo R2. Esta nueva generación promete incorporar todo lo aprendido con SPCT y los avances en refuerzo puro.

Se espera que DeepSeek R2 sea:

  • Más eficiente en la inferencia.
  • Mejor en tareas que requieren razonamiento prolongado y autoevaluación.
  • Capaz de escalar procesos mentales simulados más allá de lo visto en modelos anteriores.

La comunidad ya anticipa que R2 podría situarse como un competidor serio frente a modelos como GPT-4.5 o Claude 3, especialmente en tareas de alineación, planificación multietapa y toma de decisiones complejas.

SPCT y el futuro del aprendizaje por refuerzo en LLM

Los investigadores de DeepSeek, en colaboración con la Universidad Tsinghua, resaltan un punto clave: el aprendizaje por refuerzo no reemplaza la comprensión del modelo, sino que la potencia. Como explicó la profesora Wu Yi, la relación entre LLM y RL debe entenderse como multiplicativa, no sumativa. Solo cuando un modelo tiene una base sólida de comprensión y razonamiento lógico, el refuerzo puede amplificar su capacidad de decidir inteligentemente.

Esto apunta a un nuevo paradigma donde los agentes de IA no solo responden con fluidez, sino que desarrollan modelos internos del mundo, simulan consecuencias y afinan su comportamiento según reglas críticas aprendidas dinámicamente.

Reflexión final: ¿Y si la IA pudiera aprender a cuestionarse?

Deja un comentario