Unsupervised Word embedding Alignment in the biomedical domain
Alignement non supervisé d'embeddings de mots dans le domaine biomédical
Résumé
Notre objectif est de créer un alignement non supervisé et multilingue d’embeddings de mots (ou plongements lexicaux) basés sur des corpora de domaines différents. Plus précisément, nous cherchons à aligner un embedding cible anglais du domaine biomédical avec un embedding source du domaine général d’une autre langue, puisque les textes à traiter sont dans diverses langues (français, espagnol...) et que le vocabulaire du domaine biomédical est essentiellement disponible en anglais. Notre méthode pour aligner deux embeddings de domaines et langages différents repose sur un autre embedding pivot de même domaine que la source et de même langage que la cible. Notre méthode aligne d’abord les embeddings de même domaine pour créer un dictionnaire qui sert ensuite à aligner les embeddings de domaines et languages distincts. Elle est évaluée sur une tâche de traduction du domaine biomédical dans plusieurs langues. Bien que notre algorithme ne dépasse pas les méthodes d’alignement entre embeddings de même domaine, elle dépasse ces mêmes méthodes appliquées à des embeddings de domaines différents. Ce travail préliminaire montre qu’aligner des embeddings de domaines différents est possible de manière non supervisé.
Origine : Fichiers produits par l'(les) auteur(s)