Features anatómicos detectados
Voto mayoritario de los 3 modelos. Verde = detectado · gris = ausente · transparente = no se ha podido valorar.
Cómo votó cada modelo
¿Cómo funciona CACHETE?
El benchmark v3-vs-v4 nos dejó claro qué no funciona. v3 CODETEX
(prompt simple) acertaba 100% de culos. v4 HOYUELO (prompt anatómico con pesos
+30/+20 y rotation_unclear) bajó al 73% en culos y
colocaba etiquetas erráticas en distractores: el modelo se volvió sobre-escéptico,
marcando culos rotados o con zoom como "otra".
v5 elimina el listado de features anatómicas como bias y vuelve a un prompt minimalista. Mantiene el motor multi-LLM (Mistral 3.1 24B + Llama 4 Scout + Gemma 3 12B) y la votación, pero el veredicto se decide por argmax de los scores promediados, no por mayoría discreta — esto pondera la magnitud de cada voto en lugar de empatar a tres clases.
El benchmark se ha cambiado a solo imágenes reales: las sintéticas sesgaban la lectura (los 3 modelos fallaban el 100% de los codos sintéticos, lo cual no refleja el comportamiento real). Compara con HOYUELO, CODETEX, MOFLETE y CULIBARA en el benchmark.