¡Nueva experiencia de aprendizaje de inglés de Alexa!

Alexa
Corrección de pronunciación: El texto en azul indica una pronunciación correcta, mientras que el rojo indica una pronunciación incorrecta. Para frases/palabras pronunciadas incorrectamente, Alexa brindará instrucciones detalladas sobre cómo pronunciarlas.
Imagen cortesía de Amazon

En enero de 2023, Alexa lanzó en España una experiencia de aprendizaje de idiomas para ayudar a los hispanohablantes a aprender inglés para principiantes. Esta experiencia se desarrolló en colaboración con Vaughan, el principal proveedor de aprendizaje de inglés en España, con el objetivo de ofrecer un programa de aprendizaje de inglés inmersivo centrado en la mejora de la pronunciación.

Ahora estamos ampliando esta oferta a México y a la población de habla hispana de Estados Unidos, y en el futuro planeamos añadir más idiomas. Esta experiencia de aprendizaje de idiomas incluye lecciones estructuradas de vocabulario, gramática, expresión y pronunciación, con ejercicios prácticos y pruebas. Para probarla, configura el idioma de tu dispositivo a español y dile a Alexa «Quiero aprender inglés».

Alexa
Página de contenidos de lecciones cortas: lecciones de vocabulario, gramática, expresión y pronunciación. Imagen cortesía de Amazon

Lo más destacado de este skill de Alexa es su función de pronunciación, la cual proporciona información precisa cada vez que un cliente pronuncia mal una palabra o frase.
Nuestro método utiliza un novedoso modelo fonético de redes neuronales recurrentes (RNN-T por sus siglas en inglés) que predice los fonemas, las unidades más pequeñas del habla, a partir de la pronunciación del alumno. Por lo tanto, el modelo puede proporcionar una evaluación detallada de la pronunciación a nivel de palabra, sílaba o fonema. Por ejemplo, si un alumno pronuncia incorrectamente la palabra «rabbit» como «rabid», el modelo mostrará la secuencia de cinco fonemas R AE B IH D. Posteriormente, puede detectar los fonemas (IH D) y la sílaba (-bid) mal pronunciados utilizando la alineación de Levenshtein para comparar la secuencia de fonemas con la secuencia de referencia «R AE B AH T».

El artículo destaca dos brechas de conocimiento que no se habían abordado en anteriores modelos de pronunciación. La primera es la capacidad de distinguir fonemas similares en distintos idiomas (por ejemplo, la «r» rodada en español vs. la «r» en inglés). Para ello, diseñamos un léxico de pronunciación multilingüe y creamos un inmenso conjunto de datos fonéticos mixtos para el programa de aprendizaje.

La otra brecha de conocimiento es la capacidad de aprender patrones únicos de pronunciación errónea de los alumnos de idiomas. Para ello, aprovechamos la autorregresividad del modelo RNN-T, es decir, la dependencia de sus resultados de las entradas y salidas anteriores. Este conocimiento del contexto significa que el modelo puede captar patrones frecuentes de pronunciación errónea a partir de los datos del entrenamiento. Nuestro modelo de pronunciación ha obtenido los mejores resultados tanto en precisión de predicción de fonemas, como de detección de errores de pronunciación.

Notas relacionadas: Educación bilingüe para niños y lo que necesitas saber