Recherche de similarité thématique en temps réel au sein d'un débat en ligne - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Thematic similarity real-time computation during an online debate

Recherche de similarité thématique en temps réel au sein d'un débat en ligne

Résumé

This paper describes the use of a large French lexical and semantic network for text embedding computation for thematic similarity, as close as possible to real time, in the context of in-school online debates. To this purpose, our system creates on the fly enriched vectors that embed thematic aspects of text fragments. Semantic information associated to textual contents are retrieved from a knowledge base, then contextualised by a graph propagation algorithm. Those lexicalized vectors allow texts to be thematically compared. The system helps teachers by finding emergent topics of discussions or identifying clusters of opinions. The real-time constraint forces us to choose precisely which semantic processing we include in vector building, as they can have a crucial impact.
Cet article se focalise sur l’utilisation d’un large réseau lexico-sémantique français pour le calcul de similarité thématique d’interventions au cours d’un débat en ligne dans les lycées, proche du temps réel. Pour cela, notre système extrait des informations sémantiques du réseau et crée à la volée des vecteurs enrichis pour chaque fragment de texte. Les données récupérées sont contextualisées via un algorithme de propagation. Les vecteurs résultat permettent aux fragments de texte d’être comparés. Notre méthode aide à trouver les thématiques émergentes des débats et à identifier des clusters d’opinion. La contrainte temps réel nous force à sélectionner précisément les informations que nous incluons, aussi bien pour les temps de calcul des vecteurs créés que la qualité de ceux-ci.
Fichier principal
Vignette du fichier
23.pdf (717.45 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02784775 , version 1 (07-06-2020)
hal-02784775 , version 2 (18-06-2020)
hal-02784775 , version 3 (23-06-2020)

Licence

Paternité

Identifiants

  • HAL Id : hal-02784775 , version 3

Citer

Mathieu Lafourcade, Noémie-Fleur Sandillon-Rezer. Recherche de similarité thématique en temps réel au sein d'un débat en ligne. 27e édition du Traitement Automatique des Langues Naturelles (TALN), Jun 2020, Nancy, France. pp.258-267. ⟨hal-02784775v3⟩
191 Consultations
74 Téléchargements

Partager

Gmail Facebook X LinkedIn More