PAPELES DEL PSICÓLOGO Vol. 43-1 Enero - Abril 2022
emocionante hablar con muchas personas diferentes {Ex+} ; B. Me siento cómodo conmigo mismo {Es+} ), como bloques heteropolares, formados por ítems que miden las dimensiones en direcciones con- trarias (p.ej ., A. Me gusta hablar con extraños {Ex+} ; B. Me preocu- po por las cosas {Es-} ). Por ejemplo, si se utilizan únicamente bloques del primer tipo puede ser más difícil saber si alguien escoge el ítem A por tener alta extroversión o por tener baja estabilidad, mientras que incluir bloques del segundo tipo ayudará a distinguir esos dos perfiles. A pesar de esto, la necesidad de usar bloques he- teropolares es discutible, ya que puede ser más difícil igualar los ítems en deseabilidad social (Bürkner et al., 2019; Lee & Joo, 2021), facilitando el falseamiento que se pretende prevenir en este formato. Por otro lado, Morillo et al. (2016) y Kreitchmann et al. (2021) han mostrado la posibilidad de estimar con precisión sin blo- ques heteropolares siempre que se haga un ensamblaje óptimo y haya un rango suficiente en los pesos de los ítems (algo que también apuntan Frick et al., 2021). Otro factor importante es el tamaño de los bloques. Incrementar su tamaño (p.ej. , usando tripletas) puede reducir la ipsatividad, pero in- crementa la carga cognitiva al requerir más comparaciones por blo- que (Sass et al., 2020). De hecho, Frick et al. (2021) encuentran fiabilidades similares cuando se comparan pares y tripletas si se man- tiene constante el número de comparaciones binarias. Otro problema de los bloques de más de dos ítems es que, al aplicar el TIRT en ausen- cia de bloques heteropolares, se tiende a sobrestimar la fiabilidad. Otros factores relevantes para la presencia de ipsatividad son las correlaciones entre dimensiones y el número de estas. Cuanto me- nor sea el número de dimensiones medidas o mayor la correlación positiva, mayor será la ipsatividad. Por ejemplo, a partir de los re- sultados en sus estudios de simulación, Bürkner et al. (2019) sugie- ren que con cinco o menos dimensiones y bloques homopolares no se pueden alcanzar mediciones precisas, mientras que con 30 sí obtienen una buena recuperación (no consideraron casos interme- dios, entre 6 y 29 factores). Fisher et al., (2019) también son pesi- mistas en cuanto al uso del TIRT, encontrando peor validez referida a criterio en contextos de selección. En realidad, son va- rios los estudios empíricos que encuentran que las fiabilidades de las pruebas pueden ser bajas (p.ej ., Kreitchmann et al., 2019) o que las correlaciones entre rasgos pueden verse distorsionadas (p.ej ., Morillo et al., 2016). Probablemente, estas inconsistencias entre estudios se deben a la dificultad para construir buenos blo- ques homopolares de elección forzosa. LA CONSTRUCCIÓN DE BLOQUES DE ELECCIÓN FORZOSA La clave para el éxito en la construcción de una prueba de elec- ción forzosa es el emparejamiento de los ítems en deseabilidad so- cial, atendiendo a la información que proporciona el bloque en su conjunto. Respecto al emparejamiento en deseabilidad, suele recu- rrirse a valoraciones de expertos (o de muestras similares a la que es objeto de evaluación) para puntuar la deseabilidad social de los ítems. En este punto, Pavlov et al., (2021) destacan la importancia de emparejar los ítems no solo por deseabilidad social, sino tenien- do en cuenta el consenso de los jueces en la valoración. Respecto a la formación de bloques informativos, la utilización de un modelo de TRI permite anticipar cuánta información proporcionará el bloque cuando se aplique (esto es, el grado en que reducirá la varianza error de los niveles de rasgo estimados) y ensamblar ítems en bloques para maximizar la información. No obstante, un problema suele ser el tamaño del universo potencial de bloques. Por ejemplo, ensamblar 60 ítems en 30 bloques de 2 deriva, aproximadamente, en 2.92 X 10 40 cuestionarios posibles (Kreitchmann et al., 2021). Para resolver este pro- blema, Kreitchmann et al. (2021) adaptan el algoritmo genético NHBSA (node histogram-based sampling algorithm; Tsutsui, 2006) al problema de ensamblar ítems en bloques y proporcionan una implementación ami- gable en Shiny que permite diseñar una prueba de elección forzosa (https://psychometricmodelling.shinyapps.io/FCoptimization/) . Kreitch- mann et al. (2021) encontraron que el algoritmo propuesto era más efi- ciente que los métodos ya existentes (p.ej ., al azar con restricciones de contenido o fuerza bruta). En resumen, la calidad de una prueba de elección forzosa dependería, como en test tradicionales, de la calidad psicométrica de sus componentes: los bloques que lo forman. TEST ADAPTATIVOS INFORMATIZADOS EN PERSONALIDAD CON FORMATO LIKERT En el ámbito de la personalidad pueden encontrarse algunos ejem- plos de TAIs para medir los Big Five con escalas Likert. Destaca el tra- bajo pionero de Reise y Henson (2000) para el NEO-PI-R en el que encontraron que un TAI-unidimensional de tan solo cuatro ítems por fa- ceta (esto es, reduciendo la longitud a la mitad) proporcionaba una buena recuperación de los niveles de rasgo. También se han desarro- llado TAIs basados en modelos multidimensionales asumiendo factores correlacionados (p.ej. , Makransky et al., 2013; Nieto et al., 2018) y basados en el modelo bifactor (Nieto et al., 2018), aplicados dentro de cada dominio de personalidad (p.ej. , Extraversión). Los TAIs multi- dimensionales muestran cierta ventaja al tener en cuenta las correla- ciones entre las distintas facetas (p.ej. , en el estudio de Makransky et al., 2013, se obtuvo una correlación promedio elevada de 0,7 para las facetas del dominio de estabilidad emocional). En los estudios de Nieto et al. (2017; 2018) se investigaron las correlaciones entre las puntuaciones obtenidas en los TAI con las obtenidas en el banco com- pleto. Para los dominios, con 12 ítems por dominio, se alcanzaban co- rrelaciones promedio de 0,89 para el TAI unidimensional (y para las escalas cortas), y de 0,94 para los TAI multidimensionales (Nieto et al., 2018). Estos últimos, además, proporcionaban un mejor balance en la proporción de ítems aplicados en cada faceta (i.e., mayor vali- dez de contenido). Para las facetas, los TAIs multidimensionales alcan- zaban una correlación promedio más baja que los unidimensionales (0,87 vs. 0,95), pero con la mitad de los ítems. CONSTRUYENDO TAIS DE ELECCIÓN FORZOSA ADAPTATIVOS Las ventajas de un TAI pueden hacerse especialmente importantes en ítems de pocas categorías de respuesta, como en el formato PICK-PAIR, ya que en esos casos el rango de niveles de rasgo para los que el ítem es preciso es estrecho. Existen múltiples TAIs de elec- ción forzosa (TAI-EF), siendo el más famoso el TAPAS (p.ej ., Stark et al., 2014), que mide 22 dimensiones de personalidad y que se en- tiende como un “test a la carta”, pudiéndose elegir, por ejemplo, las dimensiones a evaluar, el tipo de test (adaptativo o fijo) y el formato (p.ej ., binario, politómico, de elección forzosa unidimensional o de elección forzosa multidimensional) en función del contexto de apli- cación (p.ej ., mayor o menor previsión de deseabilidad social). Las TESTS ADAPTATIVOS DE ELECCIÓN FORZOSA 32 S e c c i ó n M o n o g r á f i c a
Made with FlippingBook
RkJQdWJsaXNoZXIy NDY3NTY=