ARTÍCULO ORIGINAL
Raúl Martínez Pérez,I Maricela Rios Rodríguez,IIYaymí Roque Marrero,III Kelita Yeledan Caballero Padrón,IV
IEspecialista de I y II Grado en Angiología.Máster en Urgencias Médicas. Investigador y Profesor Auxiliar Facultad de Ciencias Médicas Mayabeque. Güines, Cuba. Correo electrónico: raulmart@infomed.sld.cu
IILicenciada en Enfermería. Máster en Educación Médica Superior y en Atención Integral al niño. Profesora Auxiliar. Investigador Agregado. Facultad de Ciencias Médicas Mayabeque. Güines, Cuba. Correo electrónico: maricela.rios@infomed.sld.cu
IIILicenciada en Enfermería. Máster en Comunicación. Profesora Auxiliar. Investigador Agregado Facultad de Ciencias Médicas Mayabeque. Güines, Cuba. Correo electrónico: yamiroque@infomed.sld.cu
IVLicenciada en Enfermería. Especialista de I grado en Atención Comunitaria. Máster en Atención Integral al niño.Instructor. Facultad de Ciencias Médicas Mayabeque. Güines, Cuba. Correo electrónico: kelita@infomed.sld.cu
RESUMEN
Introducción: por su dimensión y por el poderoso impacto social que tienen, la elaboración de exámenes debe ajustarse a rigurosos estándares de calidad, pues los defectos en la elaboración de los mismos tienen efectos negativos en el currículo, el proceso docente y los estudiantes.
Objetivo: analizar evidencias que argumentan la validez del examen final de la asignatura Biología molecular de la carrera de Medicina, aplicado en la convocatoria ordinaria del curso 2018/2019, en la Facultad de Ciencias Médicas de Mayabeque.
Métodos: estudio observacional analítico transversal. Universo estudiado en su totalidad, constituido por los resultados del examen final ordinario de 98 estudiantes. Como fuentes de evidencia para argumentar la validez se utilizarán las relacionadas con el contenido y con la estructura interna de los exámenes.
Resultados: coeficiente de correlación positivo débil entre el fondo de tiempo asignado en la planificación docente de los contenidos y la cantidad de incisos que los exploran, el 36 % de distractores No funcionales. Ausencia de incisos medianamente difíciles y 16.7% de incisos fáciles. Poder de discriminación de los incisos, excelente, buena en el 56.7% y 33 % pobre o pésimo.
Conclusiones: la muestra que explora el examen no es representativa de los contenidos del prog
rama; predominio de preguntas de carácter reproductivo; elevada proporción de incisos fáciles; presencia de varios incisos y de una pregunta que deben ser reelaborados para incrementar su poder discriminativo.
Palabras clave: evaluación del aprendizaje, examen escrito, evidencias de validez
Descriptores: evaluación educacional; pregunta de examen; rendimiento académico, reproducibilidad de los resultados
ABSTRACT
Introduction: because of its dimension and the powerful social impact of elaboration of tests the quality standards should be adjusted to rigorous quality standards, because defects in their elaboration have negative effects in the curriculum, the teaching process and the students.
Objective: to analyze evidences that argument validity of the final test of the subject Molecular Biology, Career of Medicine, applying an ordinary test, course 2018/2019, Mayabeque Faculty of Medical Sciences
Methods: observational analytic transversal study. The universe was totally studied, and it was formed by the results of the ordinary final test of 98 students. As evidence sources to argument its validity, relations between content and internal structure of the tests will be used.
Results: weak positive correlation coefficient between the assigned time in teaching planning of the contents and the quantity of items that explore them, the 36 % of Nonfunctional detractors. Absence of mildly difficult items, and the 16.7 % of easy ones. Discrimination power of the items, excellent, good in the 56.7% and 33 % of poor or very poor
Conclusions: the sample that explores the test is not representative of the contents of the syllabus; reproductive questions prevail; high proportion of easy items; presence of some items and a question that should be re-elaborated to increase its discriminative power.
Key words: learning assessment, written test, validity evidences
Descriptors: educational measurement; examination question; academic performance, reproducibility of results
INTRODUCCIÓN
La evaluación educativa es un proceso que involucra la elaboración, aplicación y análisis de los instrumentos de medición. La función principal de un instrumento de medición educativa, cuando se crea como medida para inferir las capacidades de las personas, es ofrecer información para la correcta toma de decisiones.
La evaluación del aprendizaje es un proceso consustancial al desarrollo del proceso docente educativo que tiene como propósito comprobar el grado de cumplimiento de los objetivos formulados en los planes de estudio, mediante la valoración de los conocimientos y habilidades que los estudiantes van adquiriendo y desarrollando, así como por la conducta que manifiestan en el proceso docente educativo.1
La evaluación, a su vez, constituye una vía para la retroalimentación y la regulación de dicho proceso ya que le permite al profesor indagar sobre el grado de aprendizaje y desarrollo de los estudiantes en su proceso de formación, así como la capacidad que poseen para aplicar los contenidos en la resolución de problemas de la profesión, brindándole información oportuna y confiable para descubrir aquellos elementos de su práctica que interfieren en los procesos de enseñanza y aprendizaje, de tal manera que pueda reflexionar en torno a estos para mejorarlos y reorientarlos permanentemente.1
Constantemente se emiten juicios y decisiones sobre los aprendices basados en varios tipos de evaluación. Para hacer juicios sanos, tenemos que entender cuidadosamente las fortalezas y limitaciones de las herramientas y procesos de evaluación sobre el cual se basan estas decisiones. En realidad, requerimos evidencia para respaldar la validez de nuestras decisiones.2
Cuando se utilizan instrumentos de alto impacto, como es el caso de los exámenes finales de las asignaturas, es necesario conocer los indicadores técnicos que definen la calidad del instrumento evaluativo que se emplea. Por su dimensión y por el poderoso impacto social que tienen, la elaboración de exámenes debe ajustarse a rigurosos estándares de calidad, pues los defectos en la elaboración de los mismos tienen efectos negativos en el currículo, el proceso docente y los estudiantes.3
Diversos estudios, realizados tanto en nuestro país como en otros, reportan defectos en la elaboración de instrumentos evaluativos escritos,3-9 los cuales repercuten de manera perjudicial en las características psicométricas y, por tanto, en la validez de dichos instrumentos.
En el actual plan de estudios de la carrera de Medicina, Plan “D”, el programa de varias asignaturas tiene previsto, en su sistema de evaluación, la utilización de un examen escrito como acto de evaluación final, con el propósito fundamental de comprobar el grado de cumplimiento de los objetivos generales declarados en dichas asignaturas.10
La asignatura Biología molecular, perteneciente a la disciplina Bases biológicas de la medicina, se cursa durante el primer semestre de la carrera y se encuentra entre las que tienen previsto, como ejercicio de evaluación final, la realización de un examen escrito, por lo que se considera pertinente la realización de un estudio con el objetivo de analizar evidencias que argumentan la validez del examen final de dicha asignatura, aplicado en la convocatoria ordinaria del curso 2018-2019, en la Facultad de Ciencias Médicas de Mayabeque.
MÉTODO
Para la consecución del objetivo planteado se desarrolló una investigación pedagógica con un enfoque cuanti-cualitativo, empleando métodos teóricos y empíricos, seleccionados y desarrollados a partir de las exigencias del enfoque dialéctico-materialista.
Se realizó un estudio observacional analítico transversal, cuyo universo, estudiado en su totalidad, estuvo constituido por los resultados del examen final de la asignatura Biología molecular aplicado en convocatoria ordinaria, a la cual se presentaron 98 estudiantes.
La información fue obtenida mediante la revisión documental del programa y del plan calendario (P1) de la asignatura, así como del examen de cada estudiante. Como fuentes de evidencia para argumentar la validez, se utilizaron las relacionadas con el contenido y con la estructura interna del examen.
En relación con el contenido del examen se analizó:
Aplicación. Si la pregunta requiere que el estudiante llegue a una conclusión, haga una predicción o seleccione una línea de acción.
Reproducción. Si una pregunta evalúa solamente la memorización de un contenido, sin la necesidad de su aplicación.
En relación con la estructura interna se realizó un análisis psicométrico donde se calculó:
Funcionales. Aquellos que fueron seleccionados por más del 5% de los examinados y que cumplan el requisito de que la proporción de los examinados pertenecientes al “grupo superior” que seleccionaron el distractor sea menor a la de los del mismo grupo que escogieron la opción correcta y a la del “grupo inferior” que escogieron el mismo distractor.
No funcionales. Cuando no se cumple todo lo anterior
El índice de dificultad se clasificó en las categorías:
Difícil: < 0,32
Medianamente difícil: 0,32 - 0,52
Dificultad media: 0,53 - 0,73
Medianamente fácil: 0,74 - 0,86
Fácil: > 0,86
Se clasificó según la siguiente escala:
Excelente: ≥ 0,40
Buena: 0,30 - 039
Regular: 0,20 - 0,29
Pobre: 0,0 - 0,19
Pésimo: < 0,0
RESULTADOS
La correspondencia entre el fondo de tiempo asignado en la planificación docente a cada tema de los contenidos y la cantidad de incisos que los exploran no fue adecuada, con un coeficiente de correlación positivo débil (Rho Spearman= 0.26).
De las siete preguntas del examen, dos fueron de ensayo y el resto tipo test objetivo. Estas últimas comprendieron un total de 30 incisos distribuidos, respectivamente, en seis de tipo completar oraciones, de apareamiento y de respuesta alternativa. Los doce restantes correspondieron a dos preguntas de selección múltiple, cada una con cuatro incisos de complemento simple y dos de complemento agrupado.
Todas las preguntas abordaron un único tema, en ninguna se integraron contenidos de varios temas, predominando el carácter reproductivo como nivel de asimilación del conocimiento evaluado.
Las principales deficiencias identificadas en cuanto a la calidad técnica de la elaboración de las preguntas e ítems fueron:
- Las preguntas tipo ensayo no precisan adecuadamente el alcance de la tarea a realizar por el educando.
- Los criterios de calificación de las preguntas tipo ensayo no son exhaustivos.
- No se respeta que cuando la raíz es en forma de interrogación las opciones deben comenzar con letras mayúsculas y cuando es en forma de afirmación incompleta deben comenzar con minúscula, para respetar la coherencia gramatical.
Los doce incisos de selección múltiple tenían tres distractores cada uno, lo que representa un total de 36 distractores, de los cuales 13 (36 %) fueron identificados como No funcionales, distribuidos en cinco incisos con un distractor No funcional y cuatro con dos. Sólo tres incisos no presentaron distractores No funcionales.
Tabla 1. Proporción de incisos esperados y reales según índice de dificultad
Índice de Dificultad |
Esperado |
Real |
Difícil |
5 |
6,7 |
Medianamente difícil |
20 |
0 |
Dificultad media |
50 |
46.6 |
Medianamente fácil |
20 |
30 |
Fácil |
5 |
16.7 |
Rho Spearman= 076 |
En la proporción de incisos, según el índice de dificultad, en relación con lo recomendado12 se destaca la ausencia de incisos medianamente difíciles y la elevada proporción de incisos fáciles, aunque en general se obtuvo una correlación positiva considerable (Rho Spearman= 0,76), (tabla 1)
El índice de dificultad de las preguntas fue de dificultad media en seis de ellas y de fácil en la restante, lo cual es congruente con los resultados mostrados con respecto a los incisos, así como en el examen, ya que este último también mostró una dificultad media
El poder de discriminación de los incisos, según su índice de discriminación dio resultados de excelente y bueno en el 56,7% de ellos, mientras que la tercera parte de los mismos presentó un índice de discriminación pobre o pésimo, (tabla 2).
Tabla 2. Distribución de incisos según índice de discriminación
Índice de Discriminación |
Incisos |
||
No |
% |
||
Excelente |
9 |
30 |
|
Buena |
8 |
26.7 |
|
Regular |
3 |
10 |
|
Pobre |
7 |
23.3 |
|
Pésimo |
3 |
10 |
|
Total |
30 |
100 |
El valor alfa de Cronbach para el examen fue de 0,64, considerado aceptable. Todas las preguntas, excepto la pregunta IV, aportaron a la consistencia interna del examen.
DISCUSIÓN
La inadecuada correspondencia entre el fondo de tiempo asignado en la planificación docente a cada tema y la cantidad de incisos que los exploran también se reporta en otro estudio en Cuba; 9 además, la falta de correspondencia resta validez al examen porque el contenido del mismo debe ser una muestra representativa del constructo o dominio definido en el programa educativo.
La selección de temas a evaluar en el examen se centra en la relevancia y representatividad del contenido objeto de la evaluación, por tanto, ha de reflejar fielmente los núcleos básicos de contenidos y sus esencialidades, con el nivel de asimilación establecido, existiendo una correspondencia entre el fondo de tiempo asignado en la planificación docente y la cantidad de ítems que los exploran.12
Los tipos de preguntas e ítems que se emplean deben presentar un balance adecuado. No obstante, debe señalarse que no es la variedad de formatos lo que aporta calidad a un examen sino la elección del formato que más se adecue al objetivo y a las características del contenido que se evalúa.
El nivel de asimilación de los conocimientos evaluados presenta un predominio del carácter reproductivo, lo cual es también reportan otros autores.4,5 Al respecto se suscribe el planteamiento de que la reproducción del conocimiento siempre está presente en la base del aprendizaje, pero en exámenes finales es inexplicable que aún predominen preguntas cuyas tareas se planteen a nivel reproductivo, varias de ellas francamente memorísticas.5
En cuanto a las principales deficiencias identificadas en relación con la calidad técnica de la elaboración de las preguntas e ítems debe señalarse:
- La no precisión adecuada del alcance de la tarea a realizar por el estudiante en las preguntas tipo ensayo dificulta la elaboración de la respuesta. La capacidad para comprender enunciados de preguntas y problemas en los exámenes es un factor importante, por lo que elaborarlos con precisión resulta imprescindible.
- La falta de exhaustividad en los criterios de calificación de las preguntas tipo ensayo da margen a la subjetividad del evaluador, lo cual atenta contra la confiabilidad del instrumento evaluativo.
- Las palabras repetidas en el inicio de las opciones de respuesta en preguntas objetivas debieron haber sido incluidas en la raíz haciéndolas más completas y ahorrándole tiempo y lecturas innecesarias al estudiante.
En relación con la funcionabilidad de los distractores en los ítems objetivos, los resultados sugieren que, aunque todos los incisos están diseñados con cuatro opciones de respuesta (la correcta y tres distractores), en el 75 % de los casos los estudiantes en realidad trabajan con dos o tres opciones (la correcta y uno o dos distractores), lo cual coincide con lo que reportan otros autores14 los cuales señalan que tres opciones pueden constituir un probable límite natural y representar la máxima eficiencia en este tipo de ítems.
Cuando un distractor es elegido por muy pocos evaluados generalmente se debe a que no es plausible o porque presenta algún defecto en su diseño, en ambos casos no cumple su función evaluativa por lo que debe ser eliminado en futuras ediciones del ítem. En otros casos, cuando un distractor es elegido por los estudiantes con más altas calificaciones en el examen con mayor frecuencia que por los estudiantes con calificaciones más bajas, es una alerta de que ese distractor debe ser revisado.14
Un examen en cuya aplicación se obtenga un nivel de dificultad media permite distinguir mejor entre los estudiantes con mayor y con menor dominio de los contenidos que se evalúan. Exámenes muy fáciles o muy difíciles dan poco margen de discriminación, ya que la mayoría obtendría, respectivamente, resultados altos o bajos.4
La tercera parte de los incisos deben ser revisados en profundidad o descartados, según recomienda la literatura,12 por tener índice pobre o pésimo respectivamente, lo cual se corresponde con la cantidad de incisos con índice de dificultad fácil o difícil. Sin embargo, su distribución homogénea entre las preguntas posibilita que seis de ellas tengan un índice de discriminación excelente o bueno. La pregunta IV, de tipo ensayo, presenta discriminación pobre, precisamente la clasificada como fácil según el índice de dificultad, por lo que debe ser descartada.
La elaboración de instrumentos evaluativos escritos, sobre todo cuando se trata de exámenes de alto impacto, como es el caso de los exámenes finales de las asignaturas, debe ajustarse a rigurosos estándares de calidad, por las importantes implicaciones sociales y educativas que tienen.
Se requiere dominio del papel de la asignatura en el currículo, de los objetivos y contenidos del programa, de los diferentes formatos de preguntas y de los indicadores técnicos que definen la calidad del instrumento evaluativo. Para ello, resulta imprescindible el trabajo metodológico individual y colectivo.
Se concluye que las principales deficiencias detectadas que afectan la validez del examen están relacionadas con: inadecuada correspondencia entre el fondo de tiempo asignado en la planificación docente a cada tema de los contenidos y la cantidad de incisos que los exploran; predominio del carácter reproductivo como nivel de asimilación del conocimiento evaluado; elevada proporción de incisos fáciles y ausencia de medianamente difíciles; presencia de varios incisos y de una pregunta que deben ser reelaborados para incrementar su poder discriminativo.
Conflicto de intereses
Los autores declaran que no existen conflictos de intereses para la publicación del artículo.
REFERENCIAS BIBLIOGRÁFICAS
Recibido:5/9/2019
Aprobado:15/11/19
MSC. Raúl Martínez Pérez. Facultad de Ciencias Médicas Mayabeque. Güines, Cuba. Correo electrónico: raulmart@infomed.sld.cu
Contribución de autoría
Todos los autores participaron en la elaboración del artículo y aprobaron el texto final.
Copyright Revista Electrónica Medimay. Este artículo se encuentra protegido con una licencia de CreativeCommons Reconocimiento 4.0 Internacional, los lectores pueden realizar copias y distribución de los contenidos, siempre que mantengan el reconocimiento de sus autores.