The purpose of this document is to describe the use of a natural language processing model in the multiplatform system ”Gamivity” by means of a sentence similarity algorithm to offer a personalized experience module based on the conceptual relationship between questions. For the selection process, certain criteria were chosen that will allow several pre-trained models under the “Transformers” architecture for evaluation, later. These criteria were the language with which the model was altered; Python was the programming language used for the implementation. Regarding the evaluation phase of the selected models, the ”Sentence Transformers” library of the Python programming language was used. In addition, a work environment analogous to the module present in the ”Gamivity” system was built, in which the development platform ”Google Colab” was used to test these models. The criteria for choosing the candidate model were based on its effectiveness in relation to questions as well as the computational cost involved while performing the operations in the said model Based on the applied methodology, the model that yielded the best results was ”paraphrase-multilingual- MiniLM-L12-v2,” modified with a large corpus of text in Spanish and 50 other languages, which showed a degree of precision. When it comes to conceptually relating the questions provided it was found to be optimal, having relatively low computational cost when performing these operations.
Keywords: sentence transformers, sentence similarity, relate questions, personalized learning.
Resumen
El presente documento, tiene como propósito el de describir la utilización de un modelo de procesamiento de lenguaje natural en el sistema multiplataforma “Gamivity”, por medio de un algoritmo de similitud de oraciones para ofrecer un módulo de experiencia personalizada a partir de la relación conceptual entre preguntas. Para el proceso de selección, se establecieron ciertos criterios que permitieron elegir varios modelos pre entrenados bajo la arquitectura “Transformers” para su posterior evaluación. Dichos criterios, fueron el idioma con el que fue entrenado el modelo, así como que el lenguaje de programación utilizado para la implementación fuese Python. En lo que concierne a la fase de evaluación de los modelos seleccionados, se hizo uso de la biblioteca “Sentence Transformers” del lenguaje de programación Python, además se construyó un entorno de trabajo análogo al módulo presente en el sistema “Gamivity”, en la plataforma de desarrollo “Google Colab” para poner a prueba dichos modelos, los criterios para la elección del modelo candidato, se resumen en la eficacia a la hora de relacionar preguntas, así como el coste computacional a la hora de realizar las operaciones involucradas en dicho proceso. A partir de la metodología aplicada, el modelo que mejor resultados generó fue “paraphrase-multilingual-MiniLM L12-v2”, entrenado con un gran corpus de texto en español, así como de otros 50 idiomas, el cual mostró un grado de precisión óptimo a la hora de relacionar conceptualmente las preguntas proporcionadas, así como su relativo bajo coste computacional a la hora de efectuar dichas operaciones.
Palabras Clave: sentence transformers, sentence similarity, relacionar preguntas, aprendizaje personalizado.