Alignement non supervisé d'embeddings de mots dans le domaine biomédical

Félix Gaschi; Parisa Rastin; Yannick Toussaint

Communication Dans Un Congrès Année : 2021

Unsupervised Word embedding Alignment in the biomedical domain

Alignement non supervisé d'embeddings de mots dans le domaine biomédical

(1, 2) , (3) , (1)

1
2
3

Félix Gaschi

Fonction : Auteur

Knowledge representation, reasonning

Posos

Parisa Rastin

Fonction : Auteur

Machine Learning and Computational Biology

Yannick Toussaint

Fonction : Auteur

Knowledge representation, reasonning

Résumé

Notre objectif est de créer un alignement non supervisé et multilingue d’embeddings de mots (ou plongements lexicaux) basés sur des corpora de domaines différents. Plus précisément, nous cherchons à aligner un embedding cible anglais du domaine biomédical avec un embedding source du domaine général d’une autre langue, puisque les textes à traiter sont dans diverses langues (français, espagnol...) et que le vocabulaire du domaine biomédical est essentiellement disponible en anglais. Notre méthode pour aligner deux embeddings de domaines et langages différents repose sur un autre embedding pivot de même domaine que la source et de même langage que la cible. Notre méthode aligne d’abord les embeddings de même domaine pour créer un dictionnaire qui sert ensuite à aligner les embeddings de domaines et languages distincts. Elle est évaluée sur une tâche de traduction du domaine biomédical dans plusieurs langues. Bien que notre algorithme ne dépasse pas les méthodes d’alignement entre embeddings de même domaine, elle dépasse ces mêmes méthodes appliquées à des embeddings de domaines différents. Ce travail préliminaire montre qu’aligner des embeddings de domaines différents est possible de manière non supervisé.

Mots clés

embeddings de mots traitement automatique du langage multilingue apprentissage non supervisé

Domaines

Informatique et langage [cs.CL]

Fichier principal

main.pdf (336.3 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Félix Gaschi : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03259987

Soumis le : lundi 14 juin 2021-15:44:28

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : jeudi 16 septembre 2021-08:23:19

Dates et versions

hal-03259987 , version 1 (14-06-2021)

Identifiants

HAL Id : hal-03259987 , version 1

Citer

Félix Gaschi, Parisa Rastin, Yannick Toussaint. Alignement non supervisé d'embeddings de mots dans le domaine biomédical. CIFSD 2021 - Conférence Internationale Francophone sur la Science des Données, Jun 2021, Marseille/Virtuel, France. ⟨hal-03259987⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA LORIA-ALGO LORIA-NLPKD

107 Consultations

104 Téléchargements

Unsupervised Word embedding Alignment in the biomedical domain

Alignement non supervisé d'embeddings de mots dans le domaine biomédical

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager