Nº 007 Edición
·01· Tecnología creativa
El benchmark del "gusto" ya tiene rey, y no es Claude: un modelo chino open-weight domina el diseño web
Design Arena no mide inteligencia: mide gusto. A junio de 2026 el #1 en diseño web es GLM-5.2, un modelo chino open-weight que dejó atrás a Claude.
- Para
- Diseñadores UI/UX
- Estudios de diseño
- Direcciones creativas
- PM y Founders
Lo nuevo
Un modelo de IA puede aprobar el examen de abogacía y ganar oro en la Olimpiada Internacional de Matemática. Y todavía te entrega una interfaz con texto blanco sobre fondo blanco. Esa brecha —razonamiento de élite, gusto de principiante— es exactamente la que Design Arena decidió medir.
Design Arena es un benchmark crowdsourced de diseño generado por IA, construido por Arcada Labs (graduados de Y Combinator, batch verano 2025). El mecanismo es el de Chatbot Arena, pero aplicado a lo visual: le da el mismo prompt creativo a varios modelos, muestra los resultados lado a lado y a ciegas, y deja que la gente vote cuál es mejor. Más de 2.000.000 de usuarios en 190+ países han votado, y esos votos alimentan un ranking tipo Elo (Bradley-Terry) por categoría: sitios web, imagen, video y audio (Y Combinator; Design Arena / Arcada Labs).
Y el ranking acaba de cambiar de manos. Al 19 de junio de 2026, el #1 en la categoría de diseño web no es ni Claude ni un modelo de OpenAI: es GLM-5.2, un modelo open-weight de la china Z.AI (Zhipu), que escaló a ~1360 de Elo y superó por primera vez a Claude (Fable 5) en su propio terreno estético (Gizmochina; Pandaily).
Por qué importa
Durante tres años la carrera de los modelos se midió en inteligencia: razonamiento, matemática, código. Design Arena mueve el terreno de juego al lugar donde los diseñadores siempre supieron que estaba la diferencia —el gusto— y lo vuelve un número público que cambia a diario. Que un modelo abierto y barato chino destrone a Claude en diseño web y no en lógica es la señal: el frente de competencia ya no es el coeficiente, es el criterio visual.
Para tu equipo, eso convierte a Design Arena en una herramienta de compra, no en un dato de prensa. La pregunta “¿qué modelo uso para prototipar una landing?” ya no se responde con el ranking general de inteligencia, sino con la categoría Website de este benchmark, que mide justamente lo que te importa. Es la misma tesis que empuja a Flora a vender “criterio” en vez de generación cruda, y el reverso del miedo que ordena el iF Design Trend Report 2026: si la IA promedia el gusto del mundo, saber cuál modelo tiene mejor gusto se vuelve una ventaja.
Con una advertencia que conviene no maquillar: un ranking por votos populares mide preferencia, no corrección. La propia metodología “vibes-based” de las arenas recibe críticas por premiar lo vistoso sobre lo usable (Simon Willison). Design Arena te dice qué modelo gusta más esta semana; el juicio de si eso funciona para tu usuario sigue siendo tuyo.
No es casual que la cima la tome un modelo abierto. Cuando la métrica deja de ser “qué tan listo” y pasa a “qué tan buen ojo”, la ventaja de los laboratorios más caros se diluye: el gusto no escala linealmente con el cómputo. Design Arena es, en ese sentido, el primer ranking donde la estética —y no el benchmark de razonamiento— decide quién va ganando.
Movimientos
-
Esta semana, elegí tu modelo de prototipado por categoría, no por fama. Antes de pedirle a un modelo que arme una landing o un flujo de UI, mirá la categoría Website de Design Arena y compará el top actual con el modelo que ya usás por costumbre. El líder cambia mes a mes; tu default probablemente quedó viejo.
-
Hacé tu propia cata a ciegas antes del próximo sprint. Dale el mismo brief a dos o tres modelos (incluí al menos uno open-weight como GLM), ocultá los nombres y que el equipo vote. Vas a descubrir que tu preferencia de marca no siempre coincide con tu preferencia de ojo.
-
Tratá el ranking como insumo, no como veredicto. "Gusta más" no es "funciona mejor". Validá usabilidad, contraste y accesibilidad con tu usuario real; el benchmark mide preferencia popular, no que el diseño cumpla su trabajo.
Qué seguir mirando
El benchmark de “gusto” recién empieza a tener consecuencias comerciales: cuando un ranking público mueve qué modelo eligen los equipos, los laboratorios empiezan a optimizar para él.
- ¿Cuánto dura GLM-5.2 en la cima, o el liderazgo en diseño web se vuelve tan volátil como el de código?
- ¿Que un open-weight chino lidere el gusto presiona los precios de los modelos “premium” para tareas creativas?
- ¿Aparecen benchmarks de diseño que midan usabilidad y accesibilidad, no solo preferencia a ciegas?
- ¿Los estudios empiezan a publicar su modelo ganador por tipo de pieza, como hoy publican su stack de herramientas?