Modélisation thématique pour la détection de points de vue sur un corpus Wolof-Français

Présentée par: M. Abdoulaye Déthié SARR
Résumé :
L’analyse de sentiment est un domaine en plein essor avec une multitude de contributions scientifiques permettant l’analyse et la quantification des opinions dans les commentaires laissés dans les médias sociaux ou autres plateforme d’avis. Cependant, celles-ci prennent mieux en charge les langues dites véhiculaires tels que l’anglais.
Les contributions présentées dans ce mémoire s’inscrivent dans le contexte de l’analyse de sentiment à partir de textes écrit en Wolof et Français. Ce problème épineux comporte de nombreux défis inhérents entre autres au manque de ressources (lexique, dictionnaire) en Wolof et de lemmatiseur capable de reconnaître le lemme (la racine) d’un mot dans ces langages. En outre, nos travaux se sont concentrés sur la modélisation du contexte d’un mot qui reste le principal défi de l’analyse de sentiment. A cet effet, nous avons d’abord développé un lemmatiseur basé sur un dictionnaire en wolof-français créé à partir de plusieurs sources linguistiques. Celui-ci prend en charge la détection des homophones et certaines fautes d’orthographes. Ensuite, nous avons mis en place un lexique comportant plus de 15000 mots et expressions d’opinion en Wolof et Français associés à leur polarité (positive, négative, neutre). Enfin, nous avons développé deux nouveaux algorithmes de classification d’opinions qui modélisent les dépendances (relations) entre les mots dans un premier temps avec les chaînes de Markov, et ensuite avec les graphes orientés. L’utilisation des chaînes de Markov dans le premier article a permis de lever l’hypothèse de Bayes et de mieux modéliser la séquence des mots dans un commentaire. Les expériences menées sur des textes écrits enWolof et Français (avec une proportion de 30% de mots en Wolof) ont montré que les méthodes proposées (lemmatiseur, la méthode de classification de sentiment MM-FWTA) permettent de prédire la polarité des sentiments avec une précision de 0,94. Cependant la prise en charge des mots en Wolof n’est pas optimale. En effet, sur un jeu de données avec 50% de mots en Wolof, nous avons obtenu avec la méthode MM-FWTA une précision de 81, 7%. Pour une meilleure prise en charge des mots en Wolof, nous
avons proposé dans notre second article une amélioration du lemmatiseur et avons introduit l’utilisation des graphes orientés. L’algorithme proposé WF-SAG permet une meilleure modélisation de la transition entre deux mots et la modélisation de l’importance d’un mot au niveau du corpus, et ainsi de quantifier l’intensité de la polarité d’un commentaire. Pour mesurer l’intensité d’un mot, nous avons utilisé les notions
de centralité de degré, de centralité de vecteur propre et de PageRank. La validation expérimentale effectuée sur le jeu de données avec 50% de mots Wolof montre que le nouvel algorithme WF-SAG proposé est plus performant que MM-FWTA.
De plus, WF-SAG surpasse les populaires LLM (Large Language Models) tels que VADER et GPT-3.5 en termes de précision, avec un score F1 de 85% contre 15% pour VADER et 47, 38% pour GPT-3.5 d’Open AI.
THEME : Modélisation thématique pour la détection de points de vue sur un corpus Wolof-Français
Par ailleurs cette dissertation présente une revue de la littérature sur les différentes approches d’analyse de sentiment, et aussi fait une présentation détaillée des modèles de chaînes de Markov et de graphes orientés.
Mots-clés : Analyse de sentiment, Analyse d’opinions, Détection de points de vue

