La semana pasada, NovaSky, un equipo de investigadores del Sky Computing Lab de la Universidad de California, Berkeley, lanzó Sky-T1-32B-Preview, un modelo de razonamiento que compite de manera efectiva con versiones anteriores del modelo o1 de OpenAI en diversas métricas clave.
Sky-T1 se destaca como el primer modelo de razonamiento verdaderamente open source, ya que puede ser replicado desde cero; el equipo no solo publicó los pesos del modelo, sino también el conjunto de datos utilizado para entrenarlo y el código necesario para su entrenamiento.
Exploremos las características principales de este modelo, su comparación con otros similares y qué implica su designación como modelo open source.
Características principales del modelo Sky-T1-32B-Preview
Sky-T1-32B-Preview es un modelo de lenguaje diseñado para destacar en dominios específicos como las matemáticas y la programación. Algunas de sus características clave incluyen:
- Diseño eficiente: NovaSky logró entrenar el modelo con un presupuesto significativamente inferior al promedio para modelos de tamaño similar. Esto demuestra un enfoque innovador en la optimización de recursos y entrenamiento.
- Rendimiento competitivo: Aunque está en fase preview, Sky-T1 ha demostrado ser capaz de competir con modelos más costosos en pruebas relacionadas con matemáticas y tareas de código.
- Acceso a pesos del modelo: NovaSky ha puesto a disposición los pesos del modelo, facilitando a los desarrolladores la posibilidad de experimentar y construir aplicaciones personalizadas.
A diferencia de algunos competidores, Sky-T1 ofrece un conjunto completo de recursos, alineándose con principios open source.
¿Qué significa que un modelo sea open source?
La Open Source Initiative (OSI) lanzó recientemente la versión 1.0 de su definición de Inteligencia Artificial de Código Abierto (OSAID). Este estándar establece los requisitos que un modelo debe cumplir para considerarse verdaderamente abierto:
Transparencia completa
Un modelo open source debe proporcionar información detallada sobre su diseño, incluidos los datos de entrenamiento y el código utilizado.
Acceso y modificación
Los desarrolladores deben tener la libertad de usar, modificar y redistribuir el modelo sin restricciones significativas.
Proveniencia de los datos
Es necesario divulgar el origen y procesamiento de los datos utilizados en el entrenamiento.
NovaSky asegura que Sky-T1-32B-Preview cumple con estas condiciones, ofreciendo a los desarrolladores un acceso sin precedentes a los componentes clave del modelo.
Sin embargo, este cumplimiento debe ser evaluado bajo los estándares establecidos por la OSI para garantizar que no se trate de un caso de «open source solo de nombre».
Comparativa con otros modelos
La siguiente tabla muestra cómo se posiciona Sky-T1-32B-Preview frente a otros modelos populares en varios aspectos clave. Sky-T1 destaca por ofrecer acceso completo a datos, código y pesos del modelo, lo que lo hace atractivo para desarrolladores e investigadores.
Por el contrario, modelos como Journey y o1 tienen un enfoque más especializado en la programación, pero carecen de transparencia en otros aspectos. Esto limita su adopción en proyectos que requieran acceso completo a recursos.
Utilizando una variedad de pruebas que evalúan habilidades en matemáticas y codificación, examinaremos el rendimiento de Sky-T1 frente a competidores como Qwen-2.5-32B-Instruct, QwQ y o1-preview.
- Math500: Sky-T1-32B-Preview obtuvo una puntuación alta (82.4), solo superada por QwQ (85.4). Esto indica su sólida capacidad en la resolución de problemas matemáticos.
- AIME2024: Sky-T1-32B-Preview mostró un buen desempeño (43.3), aunque QwQ lideró en esta métrica. Aun así, Sky-T1 compite efectivamente con otros modelos.
- LiveCodeBench-Easy: Sky-T1 se desempeñó bien (86.3), aunque fue superado por o1-preview (92.9) y QwQ (90.7).
- LiveCodeBench-Medium: Sky-T1 lideró con una puntuación de 56.8, superando a QwQ y o1-preview, demostrando su fortaleza en tareas de codificación de dificultad media.
- LiveCodeBench-Hard: Aunque todas las puntuaciones fueron bajas, Sky-T1 lideró con 17.9, mostrando su capacidad en tareas de codificación difíciles.
- GPQA-Diamond: o1-preview dominó esta prueba con 75.2, mientras que Sky-T1 obtuvo 56.8, mostrando buen rendimiento en la generación de respuestas de alta calidad.
Sky-T1-32B-Preview demuestra un rendimiento sólido y competitivo en diversas pruebas, destacándose especialmente en tareas de dificultad media y difíciles de codificación y en problemas matemáticos avanzados.
¿Cómo probar Sky-T1-32B-Preview?
NovaSky ha puesto a disposición de la comunidad varias formas de experimentar con Sky-T1:
- Pesos descargables: Los desarrolladores pueden acceder a los pesos del modelo desde la página Github de NovaSky. Esto permite implementar el modelo en infraestructuras propias.
- Entornos en la nube: NovaSky también ha dejado enlaces a plataformas en la nube para probar el modelo sin necesidad de hardware especializado. Por ejemplo, puedes probar Sky-T1 en HuggingFace.
- Documentación completa: La documentación incluye ejemplos de código y aplicaciones prácticas, facilitando el uso del modelo incluso para usuarios principiantes.
Estas opciones refuerzan el compromiso de NovaSky con la democratización de la IA y la promoción de prácticas abiertas.
El debate sobre el open source en la IA
La definición de código abierto de la OSI ha generado controversia en la industria. Aunque Sky-T1 cumple con los requisitos clave, otros gigantes tecnológicos, como Meta, han sido criticados por etiquetar sus modelos como «open source» a pesar de imponer restricciones significativas.
Por ejemplo, los modelos Llama de Meta requieren licencias especiales para plataformas grandes, mientras que Stability AI limita el uso comercial de sus modelos.
Estos casos subrayan la necesidad de estándares claros y aplicables para evitar el abuso del término «open source». La OSI espera que la comunidad de IA adopte su definición como un referente, pero aún existen desafíos legales y técnicos que podrían dificultar su aplicación generalizada.