Speak - Quick.Accurate.Innovative.

Investigación Lingüística

Evaluaciones válidas y confiables

Todos los puntajes de las pruebas potenciadas por IA se basan en una investigación exhaustiva, proporcionando una base confiable para evaluar las competencias lingüísticas del examinando.

Contáctanos»

Fundamentada en una investigación académica sólida

Nuestra evaluación mide las habilidades en inglés de los examinandos en situaciones de la vida real, especialmente en contextos profesionales y académicos donde la comunicación en inglés es esencial.

Para alcanzar esto, la prueba potenciada por IA evalúa la precisión, la variedad y la claridad del inglés hablado y escrito, cubriendo aspectos tanto lingüísticos como pragmáticos.

Nuestras pruebas adaptativas de escucha y lectura están basadas en pasajes auténticos de audio y texto.

La prueba está estructurada para evaluar las competencias lingüísticas del examinando a través de niveles de puntuación. Todas las interpretaciones de los puntajes, así como las pruebas mismas, están fundamentadas en una sólida base teórica.

Métodos para establecer Validez y Confiabilidad de la Prueba SPEAKNOW

Introducción

SPEAKNOW es una prueba de inglés para realizar por medio de un computador. El objetivo del test es evaluar la competencia lingüística en inglés de un candidato para entornos profesionales y académicos, donde el inglés es necesario para comunicarse con éxito. Para garantizar que el test pueda utilizarse para tomar decisiones sobre la competencia lingüística de un candidato o solicitante, el test debe diseñarse de tal manera que sus calificaciones puedan utilizarse con este fin, y que las interpretaciones de los niveles de puntuación se basen en un marco teórico sólido. En este documento se explican los métodos para establecer las premisas de validez de los datos, según las cuales, la evaluación SPEAKNOW es adecuada para asignar niveles de dominio del inglés, así como los métodos que garantizan la fiabilidad de los resultados

Estructura de la prueba:

La estructura de la prueba se compone de preguntas adaptativas de opción múltiple, preguntas de comprensión de respuesta corta y preguntas abiertas que requieren respuestas extensas. Se evalúa el vocabulario, el control de la fonética, la fluidez, la cohesión, la precisión gramatical y la comprensión.

Validez de estructura de la evaluación Speaknow

Validez de los niveles

La validez de estructura es "el grado en que un test mide lo que pretende medir" (Brown, 1996, p. 231). En este caso, la afirmación es que el test mide el nivel de competencia del candidato para comunicarse oralmente con éxito en un contexto profesional o académico. Parte de la validez de la evaluación SPEAKNOW se obtiene mediante la alineación con el MCER (Marco Común Europeo de Referencia para las Lenguas). El MCER es una norma internacional que establece una serie de niveles de competencia lingüística necesarios para diversos fines. Por ejemplo: El B2 se considera "el primer nivel de competencia y habilidad para trabajar ". El C1 se describe como "competencia operativa efectiva", y el C2 como "dominio práctico de la lengua como hablante no nativo" (North, 2007). Dado que estos niveles han sido probados y validados en una amplia gama de contextos y países, proporcionan una medida sólida de validez para la Evaluación SPEAKNOW.

El uso de los descriptores del MCER ayudan a un posible empleador o profesor a determinar si un determinado candidato tiene el nivel de inglés adecuado para comunicarse eficazmente en el entorno en cuestión. Se han realizado estudios que validan el uso del nivel B2 como necesario para el éxito académico, por ejemplo (Carlsen, 2018). Ciertamente, diferentes trabajos y tareas requieren diferentes niveles de competencia. En consecuencia, SPEAKNOW no establece una "puntuación de aprobación", sino que proporciona una descripción de la competencia del solicitante para que la determinación de la suficiencia pueda ser realizada por el posible empleador o profesor.

Validez de los ítems de la prueba

Los ítems de las pruebas (es decir, las preguntas y tareas) son redactados por hablantes nativos de inglés con experiencia tanto en la enseñanza como en la evaluación de estudiantes de idiomas. Los especialistas en la redacción de ítems reciben una formación que les familiariza con los niveles del MCER. Los ítems se escriben para evaluar destrezas en diferentes niveles del MCER. Los ítems se someten a un proceso de revisión por pares para comprobar su nivel, redacción y dificultad. Todos los ítems se someten a pruebas de campo con estudiantes de idiomas de distintos niveles de competencia.

Todos los ítems de la prueba se someten a un análisis de Rasch, que mide los niveles relativos de las preguntas y garantiza que los aspirantes con niveles de competencia más bajos reciban preguntas que no supondrían un reto para aquellos con niveles más altos y que los aspirantes con niveles más altos reciban preguntas que estimulen toda la gama de sus capacidades. El uso del análisis Rasch proporciona una validación adicional de nuestros niveles (Karlin, 2018).

Validez del formato de evaluación:

La piedra angular de la evaluación SPEAKNOW son sus preguntas de respuesta abierta. Estas preguntas varían en complejidad y se asignan en función de una medida adaptativa de competencia gramatical, léxica y pragmática. Las preguntas adaptativas generan una estimación del nivel general de lengua receptiva del candidato, que se clasifica en principiante, independiente o competente. En función de esta estimación, se asignan a los alumnos preguntas diseñadas para obtener sus máximas capacidades productivas, tanto léxicas como gramaticales. Las preguntas abiertas aumentan en nivel de abstracción. Las preguntas de los niveles superiores requieren una mayor complejidad lingüística y la capacidad de adoptar una postura sobre un tema. Las preguntas de nivel inferior están relacionadas con temas cotidianos y familiares y requieren menos complejidad gramatical y léxica.

La opción de utilizar preguntas abiertas permite que la evaluación se asemeje a tareas reales de uso de la lengua, al tiempo que se mantiene un cierto grado de control que permite la evaluación automatizada.

Validez de las medidas probadas

La evaluación SPEAKNOW se centra en la precisión, el alcance y la claridad y comprensión del inglés hablado. Estas medidas abarcan los ámbitos de la competencia lingüística y algunos aspectos de la competencia pragmática. Se ha demostrado que todas estas medidas influyen significativamente en la valoración de la competencia lingüística que hacen los evaluadores (tanto profesionales como no profesionales).

Vocabulario

La amplitud de vocabulario se ha establecido como una habilidad necesaria para el éxito en contextos académicos y profesionales. La investigación ha establecido un umbral de un vocabulario productivo de aproximadamente 3000 palabras para el éxito a nivel universitario (Nation, 1993, AB Manan et al, 2017).

Fluidez

También se ha demostrado que las características relacionadas con la fluidez, como la ubicación y la duración de las pausas, contribuyen a juzgar la competencia de un hablante, al igual que la gramática y el vocabulario, en menor medida (Saito, et al, 2016).

Pronunciación

La pronunciación se cita con frecuencia como una fuente de juicios negativos de los hablantes no nativos de inglés tanto en la literatura académica como en la popular, con respecto a los asistentes de enseñanza internacional (por ejemplo, Isaacs, 2008) y los profesionales de negocios (Executive Education, 2013). Aunque es necesario reconocer que muchos de estos juicios pueden reflejar prejuicios o juicios sobre competencias no lingüísticas, presentar los niveles de puntuación de pronunciación junto con el resto de competencias lingüísticas del candidato permite determinar la inteligibilidad del hablante, hasta qué punto el acento puede o no impedir la comunicación y hasta qué punto la pronunciación refleja una competencia lingüística más general. De este modo, la prueba SPEAKNOW puede utilizarse junto con la formación del personal de recursos humanos para mitigar los prejuicios contra los hablantes no nativos de inglés de alto nivel.

Gramática

Según la mayoría de los lingüistas y profesores de idiomas actuales, "el principal objetivo del aprendizaje de idiomas hoy en día es fomentar la competencia comunicativa, es decir, la capacidad de comunicarse de forma eficaz y espontánea en contextos de la vida real" (Purpura, 2004). La evaluación SPEAKNOW hace la diferencia entre los juicios de precisión gramatical y la capacidad de producir un discurso gramaticalmente preciso. La primera medida, junto con preguntas sobre vocabulario y conocimientos comunicativos, se utiliza para obtener un nivel de competencia general (principiante, intermedio o avanzado). La capacidad de utilizar eficazmente la gramática en el discurso se evalúa mediante las preguntas abiertas.

Fiabilidad de la evaluación SPEAKNOW

Calificación de los exámenes:

Los exámenes son calificados por el algoritmo interno de Speaknow, que se ajusta a las calificaciones de evaluadores formados. Con el fin de garantizar datos de alta calidad para la formación de los algoritmos, los evaluadores humanos se someten a un proceso de formación en la aplicación de las rúbricas de Speaknow. Las rúbricas de Speaknow para la calificación están estrechamente alineadas con las del MCER y los exámenes que califican basándose en el MCER. Los evaluadores fueron formados en consulta con un formador experimentado para evaluadores de exámenes similares. La formación de los evaluadores incluye la familiarización con las rúbricas SPEAKNOW, la práctica de la identificación de las características de las rúbricas aplicables a los archivos de audio nivelados y la calificación a ciegas de un conjunto de archivos de audio. El proceso de calificación continúa hasta que el evaluador puede calificar de forma consistente y fiable un conjunto de archivos de audio.

Los exámenes de referencia de cada nivel se prepararon para la formación mediante un proceso de calificación ciega en el que varios evaluadores expertos, incluidos consultores externos, calificaron conjuntos de exámenes. Los niveles de puntuación se compararon, y se asignaron puntuaciones de referencia basadas en la mediana o la moda, según fuera más aplicable. A continuación, los exámenes se anotaron y se convirtieron en conjuntos de entrenamiento, utilizados para formar a nuevos evaluadores. Los evaluadores se entrenan con estos conjuntos hasta que son capaces de obtener una coherencia superior al 85%.

Se utilizan evaluadores de forma continua para garantizar la precisión de los algoritmos. Al menos el 10% de todos los exámenes, ya hayan sido calificados por un evaluador humano o por una máquina, se someten a una segunda calificación por un evaluador humano diferente. Si hay discrepancias entre las dos primeras calificaciones, se recurre a un tercer evaluador humano. Las calificaciones se supervisan continuamente para garantizar la coherencia en la asignación de los niveles del MCER. Cuando la coherencia de los calificadores cae por debajo del 80%, vuelven a formarse.

Los evaluadores humanos también revisan los exámenes que han sido marcados como problemáticos por diversas razones (audio cuestionable, comportamiento sospechoso, etc.). Este proceso garantiza que los resultados proporcionados a los clientes y para el perfeccionamiento de los algoritmos de Speaknow sean coherentes y de alta calidad.

Las estadísticas de fiabilidad entre evaluadores se muestran en la tabla 1.

Table 1:

Medida Spearman’s ρ
Puntuación global 0.969923
Fluidez 0.939273
Pronunciación 0.925404
Vocabulario 0.933235
Gramática 0.934466

p<.05

Bibliografía

ab Manan, Nor & Azizan, Noraziah & Fatima Wahida Mohs Nasir, Nur. (2017). Receptive and Productive Vocabulary Level of Diploma Students from a Public University in Malaysia. Journal of Applied Environmental and Biological Sciences. 7. 53-59. Carlsen, C. H. (2018). The Adequacy of the B2 Level as University Entrance Requirement. Language Assessment Quarterly, 15(1), 75–89. doi: 10.1080/15434303.2017.1405962 Executive Education. (2013, December 7). The Glass Ceiling Facing Nonnative English Speakers -- K@W. Retrieved from https://knowledge.wharton.upenn.edu/article/glass-ceiling-facing-nonnative-english-speakers/ Isaacs, T. (2008). Towards Defining a Valid Assessment Criterion of Pronunciation Proficiency in Non-Native English-Speaking Graduate Students. Canadian Modern Language Review, 64(4), 555–580. doi: 10.3138/cmlr.64.4.555 Jaroszek, M. (2011). The Development of Conjunction Use in Advanced L2 Speech. Studies in Second Language Learning and Teaching, 1(4), 533–553. Retrieved from https://search-ebscohost-com.ezproxy.snhu.edu/login.aspx?direct=true&db=eric&AN=EJ1136573&site=eds-live&scope=site Karlin, O., & Karlin, S. (2018). Making Better Tests with the Rasch Measurement Model. InSight: A Journal of Scholarly Teaching , 13, 76–100. Retrieved from https://files.eric.ed.gov/fulltext/EJ1184946.pdf Nation, I.S.P. (1993) Vocabulary size, growth and use. In The Bilingual Lexicon. R. Schreuder and B. Weltens (eds.), Amsterdam/Philadelphia: John Benjamins: 115-134. North, B. (2007, February 6). Common European Framework of Reference for Languages (CEFR). Retrieved from https://www.coe.int/en/web/common-european-framework-reference-languages/documents Purpura, J. (2004). Differing notions of ‘grammar’ for assessment. In Assessing Grammar (Cambridge Language Assessment, pp. 1-23). Cambridge: Cambridge University Press. doi:10.1017/CBO9780511733086.002 Sato, Takanori. (2013). The Influential Features on Linguistic Laypersons' Evaluative Judgments of Second Language Oral Communication Ability. JLTA Journal. 16. 107-126. 10.20622/jltajournal.16.0_107. Saito, K., Trofimovich, P., & Isaacs, T. (2016). Second language speech production: Investigating linguistic correlates of comprehensibility and accentedness for learners at different ability levels. Applied Psycholinguistics, 37(2), 217-240. doi:http://dx.doi.org.ezproxy.snhu.edu/10.1017/S0142716414000502