12 de noviembre de 2012

Los instrumentos de medida en la identificación

En esta entrada puede ser interesante referirse a algunos de los criterios que deben tenerse en cuenta a la hora de seleccionar los instrumentos de medida. Es un asunto bastante técnico pero que debe ser conocido por los implicados, ya sean padres, profesores o agentes directos de la identificación. Así los padres, por ejemplo, tendrán más criterio y sabrán qué preguntar cuando reciban un diagnóstico de un hijo, lo mismo diría de los profesores cuando se les informe sobre las capacidades de un alumno, etc.

Siguiendo a Feldhusen y Jarwan (1993), se pueden señalar los siguientes cuatro aspectos clave:
flickr.com/photos/
  • relevancia del test, 
  • fiabilidad, 
  • validez, 
  • baremación, 
  • sesgos posibles y 
  • efecto de techo.

Aunque casi todos ellos son muy obvios para los especialistas, merecen un comentario en esta panorámica general. Naturalmente estos criterios son igualmente aplicables a los instrumentos empleados en cualquier proceso de diagnóstico ya sea en el ámbito de las altas capacidades o no.

La relevancia del test se refiere a la adecuación entre propósito para el cual ha sido diseñado y el uso que se pretende hacer de él. Por ejemplo, si pretendemos seleccionar los candidatos más adecuados para un programa de desarrollo de la capacidad Matemática, un test de inteligencia general no parece lo más adecuado; del mismo modo un test de capacidad Matemática tiene poco sentido —aunque sea técnicamente correcto— si se pretende seleccionar sujetos para un programa de desarrollo de la creatividad en artes plásticas.

La fiabilidad no precisa demasiados comentarios. Se trata de una condición esencial, aunque no suficiente, para que un test pueda ser empleado en un proceso de identificación o de diagnóstico en general. Indica, como es bien conocido, la precisión de la medida; es decir, que nos indica la parte de la varianza de las puntuaciones que se debe a diferencias reales entre los sujetos y la parte de varianza que se considera aleatoria o de error. Es importante valorar la información disponible sobre la fiabilidad de la prueba que pensemos utilizar: sobre qué muestras se ha obtenido, con qué procedimientos, hace cuánto tiempo, etc. Asimismo, relacionado con la fiabilidad, será importante hacer uso del error de medida, ya que permitirá realizar juicios más precisos sobre las puntuaciones individuales, el establecimiento de intervalos de confianza, puntos de corte, etc. Estos datos son importantes a la hora de tomar decisiones. Por raro que parezca es difícil encontrar referencias a este aspecto en las evaluaciones, siendo así que se ofrecen puntuaciones de los sujetos evaluados como si no estuviesen afectadas por ningún error de medida, lo que es una laguna importante. Es decir, que cuando recibimos la puntuación de un alumnos deberíamos decir o preguntar: ¿cuál es el intervalo de confianza de esta puntuación y para qué nivel de probabilidad? No es suficiente decir que tal o cual niño tiene un CI (pongamos por caso) de 128. Deberíamos decir que el intervalo de confianza de su evaluación -con un 95, 99% de probabilidad, u otro valor- se encuentra entre, digamos 125 y 131 (suponiendo un error de medida de 3 puntos, como mero ejemplo).

La validez es la condicio sine qua non. Un modo clásico sencillo de referirse a la validez es decir que se trata de una apreciación del grado en el que un instrumento mide aquello que pretende. Más precisamente habría que decir que la validez no es tanto del instrumento —aunque está implicado, naturalmente— cuanto de las inferencias que pretendamos hacer a partir de las puntuaciones del mismo. Es conocido que se distinguen diversos tipos de validez: de contenido, concurrente, predictiva, convergente, discriminante, etc., pero la concepción más inclusiva de todas ellas es la validez de constructo, que supone una inserción de la medida en la teoría, de modo que medir se convierte en una forma de validar una teoría, la estructura teórica del fenómeno medido. Sin entrar en tecnicismos ahora, podemos señalar que se trata aquí, para los propósitos que perseguimos, de responder a dos preguntas: a) ¿qué constructo (capacidad) queremos medir?, b) ¿qué evidencias muestra este instrumento de ser una medida adecuada de este constructo (capacidad)? No parece necesario insistir en la importancia de esta característica, sin la cual todas las demás son superfluas (Cfr. APA, 1986; Cronbach, 1970; Cronbach y Meehl, 1955; Tourón, 1989).

Los baremos son una pieza de información imprescindible para poder interpretar las puntuaciones. Su importancia es crucial, ya que sin ellos no podemos, desde una perspectiva normativa —que es la más común en la evaluación de este tipo—, valorar el grado o nivel de ejecución de un sujeto en la prueba correspondiente. Este es un aspecto muy preocupante en nuestro país, pues los datos de baremación de muchas de las pruebas relevantes que precisamos usar son muy deficientes, en ocasiones, inservibles. Este es un punto que sería necesario abordar con un buen número de pruebas de modo urgente. No parece necesario detenerse a explicar que constituyen la  "descripción cuantificada" del nivel de ejecución del grupo considerado normativo en el test correspondiente.

Con mucha frecuencia los baremos están poco actualizados, son inespecíficos y están realizados sobre muestras pequeñas y de carácter coyuntural, con lo cual el uso de determinadas pruebas no puede ser más que tentativo; máxime cuando estamos hablando de la evaluación de un extremo de la población.

flickr.com/photos/
Un ejemplo ilustrará el problema: en una muestra entre 100 y 300 sujetos sólo encontraríamos, con una puntuación de dos desviaciones típicas por encima de la media, entre 2 y 6. Simplemente para encontrar 10 sujetos por encima de 132 de CI, se necesitaría una muestra representativa de 438 sujetos. Así, como señala Perleth y cols. (1993), "los baremos que ofrecen dichos valores extremos están construidos sobre la base de una extrapolación aleatoria y suavizada, pero no sobre la base se datos empíricos procedentes de muestras representativas".

Los efectos de sesgo son otro de los criterios a tener en cuenta a la hora de seleccionar un instrumento de medida. Los sesgos se refieren, entre otras cosas, al hecho de que las puntuaciones obtenidas por los sujetos pueden ser inferiores o, en general, verse alteradas, por razón de su sexo, raza, situación cultural, religión, etc., lo que llevaría a una inadecuada valoración de los mismos. El sesgo, como señalan Feldhusen y Jarwan (1993), es —principalmente— un problema de fiabilidad del diagnóstico.

La justicia (adecuación) del diagnóstico es una cuestión de validez. Por ejemplo, sería poco razonable someter a los alumnos españoles a un test de razonamiento verbal en el que muchos items incluyesen vocabulario perteneciente a algún deporte típicamente norteamericano, como el beisbol o el fútbol americano ( y en ocasiones se hace). Del mismo modo, sujetos que hayan vivido en el ámbito rural extremo durante toda su vida tendrán problemas para contestar a tests profundamente impregnados de cultura urbana. Todos estos efectos producen sesgos que llevan a los sujetos a obtener puntuaciones que no reflejan su habilidad o capacidad real en la variable medida. Por lo mismo, un test de inteligencia general excesivamente verbalizado producirá un sesgo claro en sujetos deficientemente escolarizados o que viven en un ámbito culturalmente deprivado.

Así pues, para planificar el proceso de diagnóstico será necesario atender a la validez y equidad del test para la población específica para la que se va a emplear, al tiempo que se deben estudiar con cautela los baremos disponibles.

El efecto de techo es el último de los aspectos que quiero señalar, pero en absoluto el menos importante. Más aún, es un aspecto crucial. Se refiere, como es sabido, a la falta de un rango de dificultad adecuado en los items, lo que conduce a que los sujetos más capaces no puedan demostrar adecuadamente todo su potencial. Dicho en otros términos, el test pierde la capacidad de discriminar o distinguir las diferencias entre los sujetos a partir de determinado nivel. De este modo, cuando se produce el efecto de techo, sujetos muy distintos en su potencial aparecerán como iguales al obtener puntuaciones similares.

Este efecto es más acusado, lógicamente, cuanto más extremos son los sujetos evaluados. Se considera que comienza a presentarse este efecto cuando la puntuación media de un grupo está por encima del 75% de la puntuación máxima del test, o cuando la distribución de las puntuaciones está muy sesgada negativamente.

Uno de los mejores sistemas para corregir el efecto de techo es utilizar el procedimiento denominado en el ámbito sajón "out of level testing", es decir, utilizar tests previstos para sujetos de mayor edad que la de aquellos que van a ser evaluados. Esta es la base de un modelo de identificación al que dedicaré varios posts pronto, pues se ha utilizado extensivamente en muchos países, también en España por mí mismo, con resultados excelentes.

2 comentarios:

Anónimo dijo...

Grácias Javier, a mi como madre cada uno de sus artículos me resulta de mucha utilidad. Va usted dando respuesta a todas mis dudas, y descubriendome nuevos aspectos a los que atender,que yo no había tenido en cuenta.
En este caso me llama la atención el efecto de techo. A mi hija le hicieron una evaluación que dio como resultado una Inteligencia General en el percentil 99, según el psicólogo había contestado bien a todas las cuestiones del test.
¿Habría que hacerle un test de nivel superior,en este caso?,¿hay necesidad de saber su límite si ya esta siendo atendida por sus altas capacidades?.
Le agradezco esta ventanita que nos brinda a los padres através de su blog, para conocer el mundo de las altas capacidades.

Anónimo dijo...

Grácias Javier, a mi como madre cada uno de sus artículos me resulta de mucha utilidad. Va usted dando respuesta a todas mis dudas, y descubriendome nuevos aspectos a los que atender,que yo no había tenido en cuenta.
En este caso me llama la atención el efecto de techo. A mi hija le hicieron una evaluación que dio como resultado una Inteligencia General en el percentil 99. Nos dijo el psicólogo que había contestado bien todas las cuestiones del test. ¿Habría que hacerle en este caso, un test de mayor nivel?, ¿Es necesario conocer su límite, si ya va a ser atendida por sus altas capacidades?.
Le agradezco esta ventanita que nos ofrece através de su blog a los padres, para conocer mejor el mundo de las altas capacidades.

¿Quieres compartirlo?

Related Posts Plugin for WordPress, Blogger...