Teoría de Respuesta al Ítem (IRT) explicada

Tiempo de lectura: aprox. 7 minutos · Categoría: Ciencia & Psicometría

Detrás de todo test adaptativo serio existe una teoría matemática: la Teoría de Respuesta al Ítem, abreviada IRT (del inglés Item Response Theory). Describe cómo la respuesta de una persona a una pregunta (un "ítem") se relaciona con su característica subyacente (su "rasgo" o "atributo latente"). Suena complejo – pero no lo es tanto si se explica paso a paso.

¿Qué es un "atributo latente"?

Un atributo latente es una característica que no puede observarse directamente, sino que solo puede inferirse a través del comportamiento y las reacciones. Los rasgos de personalidad como la empatía, el pensamiento analítico o la tolerancia al riesgo son atributos latentes clásicos – no puedes medirlos como un análisis de sangre, pero puedes observar cómo reacciona alguien en determinadas situaciones.

Eso es exactamente lo que hace un test de personalidad: plantea preguntas sobre situaciones, preferencias y comportamientos para sacar conclusiones sobre estos atributos latentes. La IRT formaliza matemáticamente este proceso.

La idea central: la curva de probabilidad de respuesta

En esencia, la IRT describe para cada pregunta una curva de probabilidad de respuesta (en inglés: Item Characteristic Curve, ICC). Esta curva muestra con qué probabilidad una persona con un determinado nivel de rasgo dará una determinada respuesta.

Imagina lo siguiente: medimos el rasgo "Pensamiento Analítico" en una escala de −3 (muy bajo) a +3 (muy alto). Para la pregunta "Prefiero analizar los problemas de forma lógica en lugar de intuitiva", la curva tiene aproximadamente este aspecto:

Las personas con valores de analítica muy bajos están de acuerdo con baja probabilidad (~10%)
Las personas con valores medios están de acuerdo con ~50% de probabilidad
Las personas con valores muy altos casi siempre están de acuerdo (~90%)

📐 La curva en forma de S: Esta curva de probabilidad de respuesta tiene típicamente una forma de S (curva sigmoide). Cuanto más empinada sea la curva, mejor diferencia la pregunta entre distintos niveles del rasgo.

Los tres parámetros de una pregunta IRT

En el modelo clásico de tres parámetros de la IRT (3PL), cada pregunta tiene tres características propias:

⚖️

Dificultad (b)

El parámetro de dificultad indica en qué nivel de rasgo la probabilidad de estar de acuerdo es del 50%. Una pregunta "difícil" solo es afirmada por personas con rasgos muy pronunciados.

🎯

Discriminación (a)

La discriminación describe qué tan bien diferencia la pregunta entre distintos niveles del rasgo. Una alta discriminación significa: la curva es empinada – la pregunta es muy discriminante (en el sentido estadístico).

🎲

Probabilidad de acierto al azar (c)

Este parámetro indica la probabilidad de una determinada respuesta incluso si alguien no posee el rasgo en absoluto. En los tests de personalidad, este parámetro suele estar cerca de cero.

¿Cómo estima la IRT el valor del rasgo?

Cuando respondes varias preguntas, el sistema tiene para cada respuesta una declaración de probabilidad: "¿Qué tan probable sería esta respuesta con un determinado valor de rasgo?" La IRT combina toda esta información con un procedimiento llamado Estimación de Máxima Verosimilitud (MLE) o estimación bayesiana.

En pocas palabras: el sistema busca el valor del rasgo que mejor explica por qué respondiste exactamente como lo hiciste. Con cada respuesta adicional, la estimación se vuelve más precisa – la incertidumbre disminuye.

IRT vs. Teoría Clásica de los Tests (TCT)

Durante mucho tiempo, la Teoría Clásica de los Tests (TCT) dominó la psicología. En la TCT, la puntuación de un test es simplemente la suma de los puntos brutos – cuantas más respuestas "correctas" o afirmativas, mayor el valor. Esto tiene graves desventajas:

Criterio	Teoría Clásica	Teoría de Respuesta al Ítem
Dependencia de preguntas	El resultado depende mucho de las preguntas específicas	El resultado es independiente de la selección específica de preguntas
Independencia de personas	Parámetros de preguntas dependientes de la muestra	Parámetros de preguntas independientes de la muestra (con buena calibración)
Error de medición	Error estándar uniforme para todos	Error estándar individual por persona
Testing adaptativo	Apenas posible	Base ideal para CAT
Eficiencia	Todos responden el mismo número de preguntas	Número mínimo de preguntas para máxima precisión

¿Qué es el Testing Adaptativo por Computadora (CAT)?

La combinación de IRT y computadora hace posible el Testing Adaptativo por Computadora (CAT) – que es lo que implementa Traitora. El ordenador puede calcular en milisegundos qué pregunta tendrá la mayor ganancia de información como próxima. Eso sería impensable sin ordenador.

El CAT se utiliza desde la década de 1970 en la investigación educativa. Aplicaciones conocidas son el GMAT (Graduate Management Admission Test), el GRE (Graduate Record Examinations) y el TOEFL (Test of English as a Foreign Language). Traitora lleva esta tecnología al campo de la psicología de la personalidad.

¿Qué tan buena es la IRT para los tests de personalidad?

La IRT fue desarrollada originalmente para tests de rendimiento (p. ej., exámenes escolares) en los que existen respuestas correctas e incorrectas. En los tests de personalidad no hay respuestas "correctas" – cada respuesta revela algo sobre la personalidad de la persona.

Para este caso de uso, Traitora utiliza el modelo IRT politómico (específicamente el Modelo de Respuesta Graduada), adecuado para varias categorías de respuesta sin una "corrección" clara. Cada opción de respuesta está asociada con ponderaciones para distintos rasgos, y el sistema calcula qué constelación de rasgos se corresponde con mayor probabilidad con tu patrón de respuestas total.

Equidad y comparabilidad

Una ventaja importante de la IRT es la equidad entre diferentes grupos de personas. Dado que los tests basados en IRT tienen en cuenta los parámetros individuales de las preguntas, los resultados de distintas personas pueden compararse directamente – incluso si no respondieron las mismas preguntas. Eso no es posible en la teoría clásica.

Este principio se llama Invarianza de Medición: los valores de rasgo subyacentes pueden compararse entre diferentes grupos sin sesgos causados por distintos conjuntos de preguntas.

🔬 Contexto científico: La IRT se remonta a los trabajos de Georg Rasch (1960) y Frederic Lord (1952). El modelo de tres parámetros, hoy más utilizado, fue formalizado por Lord y Novick (1968). Las aplicaciones modernas utilizan extensiones bayesianas para estimaciones aún más robustas.