Las escalas de rendimiento en PIRLS-TIMSS: más allá de la media (I)


Los resultados de los informes internacionales como TIMSS, PIRLS o PISA utilizan para su expresión las llamadas escalas de rendimiento. Estas escalas, de construcción compleja, se elaboran a partir de las propiedades que ofrece la Teoría de respuesta al Item, que aborda los problemas de medida de manera más eficiente y adecuada que la Teoría Clásica de los Tests.

La Teoría de Respuesta al Item  (o TRI) ofrece modelos que permiten relacionar la probabilidad de responder correctamente a un ítem con la capacidad de los sujetos, de modo que los sujetos más capaces tenderán a responder items más complejos y los menos capaces lo contrario. O de otro modo, cuanto más difíciles sean los items que un sujeto responda correctamente, mayor será su capacidad. La dificultad de los items y la capacidad (o rasgo latente) están en la misma escala de manera que se pueden comparar.

No es este el lugar para explicar la metodología de su elaboración que, en estos estudios, además se complica por otras razones como el muestreo que utilizan, la metodología de los valores plausibles, etc. Todos ellos son de extraordinaria complejidad matemática, pero nos permiten llegar a unos resultados fáciles de entender y de claras implicaciones educativas, que es de lo que aquí quiero tratar.

Baste para nuestro propósito saber que son escalas que, convencionalmente, tienen una media de 500 puntos y una desviación típica de 100 puntos y que se dividen en tramos o intervalos que vienen definidos por determinados ítems que se ordenan a lo largo de la escala en razón de su dificultad, de manera que, por lo dicho antes, la capacidad de los sujetos se determina en razón de la dificultad de los items que se responden correctamente con mayor probabilidad, no de su número como ocurre en la Teoría Clásica.

Aunque puede parecer un tanto contraintuitivo, la TRI nos permite estimar la competencia de los alumnos independientemente de la muestra de ítems empleada para ello y de las condiciones de los demás alumnos sometidos a evaluación, siempre que se cumplan los supuestos de los modelos utilizados. De modo que la estimación de la competencia de un alumno dado es independiente de la competencia de los demás (cosa que no ocurre cuando expresamos los resultados en porcentajes).

Una vez que conocemos las dificultades de los ítems y las probabilidades de responderlos correctamente, estamos en condiciones de establecer intervalos en la escala que, en virtud de lo que los especialistas determinan que miden los items que los componen, nos permiten asociar una referencia cualitativa a esos intervalos de puntuación. De esta manera no solo decimos que un país tiene una determinada media, sino que estamos en condiciones de decir qué significa esa media, o cualquier otro valor de la escala, en la disciplina que estemos tratando.

Cuando el muestreo y otras condiciones, como la distribución de los ítems en los cuadernillos, lo permiten, esto mismo que ahora solo se puede decir de la población de un país, sería aplicable a un alumno o centro educativo también. Es importante saber, sin embargo que en PIRLS-TIMSS o PISA las estimaciones de los parámetros solo son poblacionales, nunca imputables a un centro y menos a un alumno.

En el siguiente cuadro se muestran los intervalos de rendimiento calculados para TIMSS en su escala de rendimiento.


Sabiendo cuantos sujetos superan un determinado nivel y sabiendo que conocimientos y capacidades están asociados a ese nivel, tendremos una visión clara de los rendimientos obtenidos por los alumnos evaluados. Esto nos permitiría comparar lo que saben y saben hacer los alumnos con lo que se considera rendimiento satisfactorio en el sistema educativo, es decir, con los criterios que representan los conocimientos y capacidades deseables. Algo que en nuestro país está sin determinar de manera adecuada todavía.

En la figura siguiente se representa la escala de rendimiento de Matemáticas y en rojo los números que se refieren al porcentaje de alumnos que nuestro país tiene en cada tramo de la misma. La escala se establece en orden de dificultad creciente, de manera que el porcentaje de un determinado intervalo señala cuántos alumnos dominan las destrezas de ese intervalo, pero no dominan las que están por encima (en los intervalos superiores).

Escala de rendimiento en Matemáticas elaborada a partir de los datos que ofrede el informe español publicado por el INEE

Así, el 31% de nuestros estudiantes dominan (es su modo de decir que poseen razonablemente esas destrezas y otras similares o asociadas) lo que se señala para el intervalo bajo, pero ninguna de las destrezas por encima de él. Lo mismo se puede decir de los intervalos siguientes: el 39% dominan o poseen las destrezas descritas para el intervalo medio, y también las del intervalo anterior, ya que como se explicó, la escala es acumulativa y quien está en un peldaño determinado también ha superado los de dificultad inferior. De la misma forma entonces diremos que el 16% tienen las destrezas decritas para el nivel alto (y también las anteriores) y así sucesivamente. Podemos pensar en el salto de altura como un símil, y cada intervalo de la escala como una altura. Es obvio que el que salta 1.50 m también salta alturas inferiores, pero si esa es su mejor marca, no saltará alturas superiores. Pues cada intervalo de la escala representa una "altura" y los porcentajes nos indican cuantos de nuestros "atletas" la saltan.

Por otro lado, en la parte izquierda de la figura señalamos los porcentajes de alumnos que no dominan las destrezas señaladas (que no "saltan" determinada altura por seguir con el símil). Así, el 13% no dominan ninguna de las destrezas de la escala, el 44% (que es la suma de 13+31) no dominan ninguna de las capacidades que se indican, y así sucesivamente.

Analizando los conocimientos y destrezas señalados en la escala vamos -como se comprende- mucho más allá de la media, pues estamos asociando una referencia cualitativa al valor cuantitativo, indicando lo que significa respecto a la materia que se mide.

Si dispusiéramos de una clara descripción de lo que se debería saber y de las destrezas que deberían tener los alumnos, es decir, si tuviésemos los estándares de rendimiento establecidos para nuestro sistema educativo, sería directa la comparación entre lo logrado y lo deseado. Y de manera inmediata sabríamos cuáles deben ser las estrategias a poner en marcha para mejorar las situaciones no deseables. Conoceríamos cual es nuestro potencial de optimización.

En la próxima entrada ofreceré los gráficos correspondientes a las Ciencias, que es la otra materia que se evalúa en TIMSS y a la Comprensión Lectora  que se evalúa en PIRLS, pero os ahorraré todas estas explicaciones que he considerado necesarias para que se entienda bien el resultado, más allá de la media.

2 comentarios:

  1. Javier,
    en el caso de alumnos doblemente excepcionales (A.C./dislexia,A.C./asperger,A.C./tdah...)¿ podría darse que la relación de conocimientos y destrezas no fuese lineal?
    Es decir, que se puedan dominar conocimientos y destrezas complejos mientras se tienen dificultades con otros aparentemente más simples.

    En el salto con pertiga suele ocurrir que los mejores saltadores evitan los saltos más bajos en las competiciones y no solo se hace por cuestión de ahorro energético, también ocurre que su entrenamiento hace que tengan mayor seguridad en los saltos más difíciles que en los menos complicados.

    ResponderEliminar
  2. Estoy de acuerdo con lo que dices, y no es infrecuente que así ocurra. Tu observación me parece muy pertiente.
    De todos modos no soy experto en doble excepcionalidad. Si tienes interés te recomiendo que leas a Dianne Montgomery, vieja conocida del Reino Unido que ha publicado sobre el tema. En este enlace puedes encontar algunas referencias interesantes:
    http://www.amazon.co.uk/Diane-Montgomery/e/B001HOJMF2
    Saludos y feliz Navidad

    ResponderEliminar