Les Docteurs en linguistique infiltrent les startups pour améliorer le Traitement Automatique des Langues

linguistique

Je suis “linguiste informaticienne” (d’après l’anglais “computational linguist”)  mais pour faire simple, je me présente comme “linguiste”. Ce qui me permet souvent d’entendre ; “tu vas pouvoir relire et corriger mes fautes” ou bien encore “tu es linguiste, tu parles donc plusieurs langues”. Mais trop peu seraient capables de s’imaginer ce que je fais réellement, au quotidien : le traitement automatique des langues.

Le métier de linguiste 

Le linguiste cherche en fait à décrire les langues, les mots et les relations qu’ils entretiennent dans la phrase, les modes de signification des mots et des textes. Plus largement, il cherche à comprendre ce qui caractérise le langage humain. Aujourd’hui, à l’heure du Big Data et de l’Intelligence Artificielle, le linguiste est sollicité pour développer toutes les formes de communication entre l’homme et la machine, à l’oral comme à l’écrit.

Dotée d’une double compétence, en linguistique et en informatique, j’ai obtenu un doctorat en Traitement Automatique du Langage. L’explosion des nouvelles technologies a en effet ouvert un champ important avec le traitement automatique des langues (TAL) qui demande aussi des connaissances en informatique. C’est ainsi que j’ai mis au point un algorithme capable de construire un modèle sémantique de meilleure qualité quand peu de données sont disponibles.

Le vif du sujet

Je m’intéresse à l’application de la connaissance des langues à l’élaboration de systèmes informatiques intelligents capables de reconnaître, d’interpréter et de reproduire le langage humain sous ses différentes formes. Toute la complexité de cette tâche repose sur le fait que le langage est un système complexe qui est polysémique (les mots ou expressions peuvent avoir plusieurs sens ou significations), doté d’une structure élaborée (la syntaxe) et en évolution constante. De plus, le langage varie selon le contexte, avec différents registres (soutenu, courant, familier) et des terminologies propres à chaque domaine technique. On s’exprime aussi différemment sur le web que dans la presse ; le langage des blogs et de Twitter par exemple, n’est pas le même que celui des journaux. Enfin, chaque langue a des caractéristiques qui lui sont propres : le mandarin, par exemple, n’a pas de frontières entre les idéogrammes, comme nous avons en occident l’espace pour délimiter les mots.

Si toute cette richesse de la langue est complexe pour l’être humain, elle l’est d’autant plus pour la machine. Et ce sont ces aspects-là qui m’intéressent. Or, les textes ne sont pas seulement sur internet ou dans la presse, mais ils sont également dans les documents d’une entreprise. Dans le domaine RH, ce sont notamment des CVs, des offres d’emplois et des offres de formation. Et pour mettre au point des algorithmes capables d’extraire et de traiter l’information contenue dans ces documents, on a besoin de l’expertise et des connaissances des linguistes.

Mais que font les linguistes au quotidien dans une startup ? 

Les linguistes permettent de mettre en place une chaîne de traitement des données en langage naturel en intervenant sur ses étapes suivantes : constitution de données, exploration outillée, annotation manuelle ou automatique des données, calculs statistiques, analyses des données. En fonction de leurs compétences en informatique, ils savent développer des ressources linguistiques (grammaires, lexiques) et mettre au point des programmes de Traitement Automatique du Langage. 

Ma mission actuellement est d’appliquer aux textes des pré-traitements linguistiques automatiques afin de mieux caractériser l’information qu’ils contiennent. Ceci permet notamment de découper le texte en mots, d’étiqueter chaque mot de sa catégorie grammaticale, pour ramener ainsi chaque mot à son lemme. Les données sont ainsi normalisées pour pouvoir ensuite être interprétées et utilisées par nos différents algorithmes. Enfin, il est de mon ressort de m’assurer de la qualité de ce traitement.

Ma mission au sein de 365Talents

Chez 365Talents, nous utilisons des modèles sémantiques qui sont utilisés dans différentes fonctionnalités de la plateforme. En somme, on crée des vecteurs de mots, représentés par des suites de chiffres. Ma mission est de m’assurer que ces vecteurs soient le plus représentatif du sens contenu dans les textes, afin de permettre à l’Intelligence Artificielle de mieux interpréter les données RH et ce, dans différentes langues. J’aide la machine à distinguer les mots et expressions d’un texte. Car la machine ne comprend pas, elle trie et compare l’information en fonction des symboles que sont les lettres, les mots, les phrases. Les données sur lesquelles s’entraînent la machine ont un impact considérable sur ce que produisent les algorithmes. Mieux préparées, elles permettent à la machine de mieux traiter le langage humain. 

Ma prochaine étape est d’aller encore plus loin dans l’entraînement des algorithmes. Nous allons apprendre à la “machine” à mieux distinguer les différents sens d’un mot et la notion de souhait. Nous nous intéressons également à l’intégration de nouvelles langues parlées et utilisées par nos clients au travers le monde (français, anglais, allemand,…).

Les autres activités du linguiste 

Hormis l’enseignant-chercheur, le linguiste peut exercer dans une multitude de domaines, car le langage est au coeur des activités humaines. Ce qui est fascinant sur Internet, c’est que l’on peut trouver un texte de Platon à côté d’une discussion entre ados sur un forum. Dans le cadre de l’observation de la langue, c’est un milieu très intéressant. Ce domaine vit une croissance importante, et aujourd’hui les linguistes sont devenus incontournables, notamment dans de nombreuses grosses entreprises, les startups ou les GAFAM. J’ai d’ailleurs travaillé pendant plus de 2 ans au sein des équipes TAL de Google en France avant de rejoindre l’équipe de 365Talents.

Les spécialisations en sciences du langage sont à présent si nombreuses qu’il appartient à chacun d’orienter ses études selon ses goûts personnels. L’acquisition de compétences complémentaires détermine les débouchés, parfois insolites. Ce sont ces profils complets que les startups s’arrachent ! Envie de rejoindre l’aventure 365Talents ? Retrouvez tous nos postes ici 🚀

Pour continuer la discussion avec Amandine Périnet, Data Science Researcher chez 365Talents, vous pouvez lui écrire un petit mot directement ici 💛