Enfoque
1. Introducción
Una unidad terminológica poliléxica (UTP) con 3 formantes, o UTP ternaria, es un término formado por 3 palabras que no pueden separarse. Ejemplos de UTP ternarias, en lengua inglesa, son natural sediment supply (aporte natural de sedimentos) y flood prevention operation (medida de prevención de inundaciones). Una cuestión importante en las UTP con 3 o más formantes es su correcta desambiguación estructural, un proceso también denominado bracketing.
El bracketing consiste en reducir la UTP, en la lengua inglesa, a su forma básica de modificador+núcleo. Así, se puede indicar si el bracketing, en el caso de una UTP ternaria, es derecho (p.ej., natural [sediment supply]) o izquierdo (p.ej., [flood prevention] operation). Determinar correctamente el bracketing de una UTP es fundamental para elaborar su traducción precisa en otra lengua. Además, conocer el bracketing correcto de una UTP mejora el desempeño de los sistemas de traducción automática y de los analizadores sintácticos.
2. Objetivos y Metodología
Por tanto, el objetivo general de este trabajo es predecir el bracketing de una UTP ternaria, en lengua inglesa, a partir de tres variables semánticas, que se anotan en la oración donde esa UTP se emplea. El conjunto de datos que se analiza está compuesto por 188 oraciones en inglés, anotadas con cuatro variables semánticas. Estas oraciones se caracterizan por: (1) mencionar un potamónimo (el nombre propio de un río) en uno de sus sintagmas; y (2) emplear una UTP ternaria en el otro sintagma. Estas 188 oraciones se seleccionan de una muestra de 1694 oraciones que mencionan un potamónimo, y que se extraen de un corpus sobre ingeniería de costas en lengua inglesa. Así pues, los objetivos específicos del trabajo son:
- Constituir una muestra de 188 oraciones del corpus, en las que se emplean 190 UTP ternarias y se menciona un potamónimo.
- Anotar, en la muestra de 188 oraciones, las siguientes variables semánticas con el programa de anotación de corpus INCEpTION: (1) dominio léxico del verbo; (2) categoría semántica de los argumentos del verbo; (3) rol semántico de los argumentos del verbo; y (4) bracketing (izquierdo o derecho) de la UTP ternaria.
- Construir dos modelos predictivos, a saber, random forest y árbol de decisión, para predecir el bracketing de una UTP ternaria.
- Comparar el desempeño de los dos modelos predictivos.
3. Discusión y Conclusiones
Hasta ahora, en las publicaciones relacionadas con la predicción del bracketing, el número de variables predictivas que se ha empleado va desde 12 hasta 517.254 variables. La precisión de sistemas anteriores oscila entre el 72,60 % y el 95,40 %. La novedad de este trabajo estriba en que: (1) ningún trabajo previo ha empleado las variables semánticas que hemos descrito anteriormente para la predicción del bracketing; y (2) un conjunto de solo 3 variables semánticas, empleadas en el modelo de random forest, proporciona una precisión del 100 % en el conjunto de test (Test: 57 UTP, 30 %; Entrenamiento: 133 UTP, 70 %).
Juan Rojas-García
Comentó el 21/11/2024 a las 01:25:26
Hola, Isabel:
Muchas gracias por tu interés en la ponencia que presento.
Tres terminólogos de mi grupo de investigación anotan, manualmente en el programa de anotación INCEpTION, las 188 oraciones (que contienen las 190 unidades terminológicas poliléxicas ternarias).
El índice de acuerdo entre los anotadores se mide con el coeficiente kappa de Cohen (κ). En la anotación de las categorías semánticas, los roles semánticos y el bracketing se obtiene una alta concordancia entre todas las parejas de anotadores (κ>90 %, p-valores<0,05), según las recomendaciones para el análisis de contenidos. Ahora bien, posteriormente, los desacuerdos en las anotaciones originales (esto es, sobre las que se ha medido el índice de acuerdo) se resuelven mediante la discusión entre los anotadores hasta llegar a un consenso respecto de las anotaciones definitivas en estas tres variables.
En la anotación de los dominios léxicos, el grado de concordancia fue menor entre todas las parejas de anotadores (84 %<κ<88 %, p-valores<0,05), lo que indica que esta variable se presta a interpretaciones alternativas, aunque plausibles. Al revisar las diferencias entre los anotadores, comprobamos que los dominios de movimiento y posesión son más proclives a la confusión. Este hecho se basa fundamentalmente en que existen verbos que pueden pertenecer a más de un dominio léxico, como ya advierten algunos autores del enfoque lexemático funcional que hemos aplicado en la investigación. Posteriormente, para alcanzar un consenso en las anotaciones definitivas de dominios léxicos, se aplica la factorización del significado, que desarrolla el modelo lexemático funcional, a ciertos verbos para resolver los desacuerdos entre los anotadores.
Hasta una próxima ocasión, Isabel.
Un abrazo,
Juan
Isabel Moyano Moreno
Comentó el 20/11/2024 a las 23:14:15
Hola, Juan:
¡Me ha parecido muy interesante la investigación que presentas! Me gustaría preguntarte por el proceso de anotación, que entiendo que ha sido manual o, al menos, semi-automático. ¿Cómo se llevó a cabo el proceso de anotación de las variables semánticas y qué medidas se tomaron para garantizar la consistencia entre anotadores -si fueron más de uno- y conseguir ese "inter-annotator agreement"?
Muchas gracias por tu presentación.
Abrazos,
Isabel
Deja tu comentario
Lo siento, debes estar conectado para publicar un comentario.
Organizan
Colaboran
Configuración de Cookies
Utilizamos cookies para mejorar su experiencia y las funcionalidades de esta web. Ver política de cookies