PAPELES DEL PSICÓLOGO Vol. 43-1 Enero - Abril 2022

ventajas asociadas a los ítems de elección de respuesta y con ello, permiten la medición de aspectos difícilmente alcanzables con el for- mato de opción múltiple o con sus variantes. Baste citar como ejemplo de la expansión y uso común de los nue- vos formatos de ítems que la evaluación internacional PISA ( Pro- gramme for International Student Assessment ) gestionada por la OCDE introdujo la administración computerizada en el año 2006; a partir de la edición de 2015 PISA se diseña y aplica de forma digi- tal (puede el lector ver ejemplos de ítems del programa PISA en https://www.oecd.org/pisa/test/ ). La animación incluida en un ítem puede ser bidimensional, tridi- mensional simple y tridimensional fotorrealista o realidad virtual (Popp et al., 2016). La realidad virtual es una simulación, derivada de la industria del juego, que crea la sensación de presencia física (Linowes, 2015; Parisi, 2015). En principio, estos ítems prevén una validez aparente mayor, se acompañan de presentaciones dinámi- cas e interactivas que pueden generar una mejor aceptación e inte- rés hacia la situación de test por parte de la persona evaluada, y favorecen la evaluación de tareas complejas (Bruk-Lee et al., 2013; Ryall et al., 2016). Sin embargo, los formatos multimedia también podrían introducir factores no deseados en el proceso evaluativo; por ejemplo, la caracterización sociodemográfica del avatar es un rasgo saliente que puede activar actitudes o experiencias afectivas que interactúan de forma no buscada ni deseada (Sadler et al., 2012). Son varias las críticas vertidas hacia este tipo de ítem por su falta de validez en el campo educativo (Young et. al, 2012), si bien en medicina gozan de tradición y prestigio (McGaghie et al., 2010). Corrección automatizada de ensayos La aparición en los años 30 de los lectores ópticos incrementó la eficiencia en el proceso de corrección, y con ello el volumen de los test de selección de respuesta; sin embargo, la implementación y ca- da vez mayor aplicación de ítems de producción (ensayos, ítems abiertos) han impulsado la búsqueda de métodos de corrección efi- cientes para este formato de tarea. La corrección automatizada de ensayos se inició en los años 60 (Page, 1968), y con la sofisticación del procesamiento del lenguaje natural y el machine learning , la co- rrección automatizada de ensayos está hoy aceptada como parte de la práctica educativa. Son varios los estudios que la comparan con la evaluación mediatizada por jueces, y han mostrado su efica- cia en la evaluación sobre diferentes criterios de corrección (Wi- lliamson et al., 2012). Las compañías más pujantes relacionadas con la evaluación educativa disponen de software diseñado con esta fi- nalidad (Pearson Test of English ; ETS criterion ; Accuplacer del Colle- ge Board …). La idea que subyace a la corrección automatizada de ensayos es que el sistema es capaz de convertir la producción del estudiante (oral o escrita) en una puntuación (o varias puntuaciones) o feedback , que es preciso, fiable y está alineado con los constructos a evaluar. El pro- ceso descansa en una muestra amplia de ensayos que representa el rango de posibles producciones y puntuaciones. Los ensayos se corri- gen por expertos humanos que ofrecen al sistema la información nece- saria para que este se entrene en la estimación de la puntuación verdadera. Con esa base, el software aprende a asociar las caracte- rísticas distintivas de cada ensayo con las puntuaciones asignadas por los expertos. Una vez construido el modelo el sistema es capaz de pre- decir la puntuación que los expertos asignarían a un nuevo ensayo. Modelado psicométrico Al mismo tiempo que la tecnología digital impregna la forma de construir, administrar y corregir test, los modelos psicométricos para el análisis de datos y estimación de las puntuaciones verdaderas y erro- res de medida se adaptan a las exigencias de los nuevos entornos. Los mayores retos a los que se enfrentan podrían ser la modelización de la multidimensionalidad, y la adaptación de la metodología cons- truida para su uso en entornos controlados y estructurados para su uso en entornos dinámicos y con datos con un nivel de estructuración menor. Modelos bifactoriales Los modelos bifactoriales modelan la multidimensionalidad presen- te en muchos constructos analizados por la psicología, y se aplican cuando existe un factor general y factores específicos o factores de grupo. Aunque los modelos bifactoriales o modelos anidados fueron propuestos en 1937 (Holzinger y Swineford) su aplicación se ha ex- tendido la última década (Rodriguez et al., 2016). Básicamente el modelo bifactorial y el modelo factorial de segundo orden podrían tener interpretaciones similares (Chen et al., 2006) pero los primeros cobran relevancia cuando el interés se centra en los factores de gru- po, se desea analizar la relación entre éstos y los ítems que la con- forman, o quiere profundizarse en la capacidad predictiva de las escalas parciales. Modelos testlet Los modelos TRI basados en testlet son formalmente modelos bifac- toriales; la diferencia entre ambos proviene de la tradición en su uso que viene ligada a modelos factoriales y modelos TRI, o a campos de especialización psicológica o educativa. El testlet se construye por la necesidad de estimación en condiciones de violación de inde- pendencia local asociada a la aplicación de grupos de ítems depen- dientes de un contexto (Bradlow et al., 1999; Wainer et al., 2007). En un testlet cada ítem es un indicador de una dimensión general, y de una dimensión asociada a un grupo de ítems. La dimensión gene- ral representa la variable latente de interés central (por ejemplo, la competencia lectora) mientras que el resto se incorpora para tener en cuenta las dependencias adicionales entre los ítems que pertene- cen al mismo subgrupo. Modelado de ítems de elección forzosa Frente al ítem comúnmente denominado Likert en el que una perso- na responde a una cuestión en una escala de respuesta ordenada, los ítems de elección forzosa o ítems ipsativos obligan a elegir entre dos o más enunciados que pueden ordenarse en función de las pre- ferencias mostradas (en este monográfico Abad et al., 2022). Con ello se busca controlar el sesgo de respuesta (aquiescencia, desea- bilidad social, tendencia central, severidad...) y mejorar el proceso evaluativo (Brown y Maydeu-Olivares, 2011, 2018; Chan, 2003). Análisis de redes El análisis de redes en psicología es una alternativa a la visión psi- cométrica tradicional que relaciona un constructo con varios indica- PAULA ELOSUA 7 S e c c i ó n M o n o g r á f i c a

RkJQdWJsaXNoZXIy NDY3NTY=