🍑 Culo o Codo IA

v5.0 CACHETE

Vuelta a la simplicidad: el prompt anatómico de HOYUELO sobre-escepticizó al modelo. Aquí ganan los scores, no las features.

Imagen analizada
Veredicto anatómico
Analizando…
¿Cómo funciona CACHETE?

El benchmark v3-vs-v4 nos dejó claro qué no funciona. v3 CODETEX (prompt simple) acertaba 100% de culos. v4 HOYUELO (prompt anatómico con pesos +30/+20 y rotation_unclear) bajó al 73% en culos y colocaba etiquetas erráticas en distractores: el modelo se volvió sobre-escéptico, marcando culos rotados o con zoom como "otra".

v5 elimina el listado de features anatómicas como bias y vuelve a un prompt minimalista. Mantiene el motor multi-LLM (Mistral 3.1 24B + Llama 4 Scout + Gemma 3 12B) y la votación, pero el veredicto se decide por argmax de los scores promediados, no por mayoría discreta — esto pondera la magnitud de cada voto en lugar de empatar a tres clases.

El benchmark se ha cambiado a solo imágenes reales: las sintéticas sesgaban la lectura (los 3 modelos fallaban el 100% de los codos sintéticos, lo cual no refleja el comportamiento real). Compara con HOYUELO, CODETEX, MOFLETE y CULIBARA en el benchmark.