Notre représentation de l’intelligence artificielle provient de films comme Minority Report de Steven Spielberg, et plus récemment Her de Spike Jonze, où la machine prend la place de l’humain, agit et pense pour lui et comme lui. Mais cette conception n’est pas celle d’Ismaïl Biskri, professeur au Département de mathématiques et d’informatique de l’UQTR. S’inspirant de l’informatique, de la logique et de la linguistique, il mène des travaux qui contribueront au développement de logiciels intelligents ayant pour objectif d’assister l’utilisateur dans l’analyse de textes électroniques.
Prenons un exemple : vous inscrivez le mot « souris » dans un moteur de recherche afin, disons, d’aider votre enfant à trouver de l’information pour un travail scolaire. Les résultats qui s’affichent à l’écran sont basés sur des algorithmes conçus pour repérer le terme recherché à travers des millions de pages et de sites Web. Et le moteur de recherche vous offre de tout : bien sûr quelques pages sur l’animal en question, mais aussi des sites d’exterminateurs, de vendeurs de matériel d’ordinateur, de littérature jeunesse, d’une ville qui se nomme Souris sur l’Île-du-Prince-Édouard…
Pour le professeur Biskri, il s’agit là « d’un beau cas d’ambiguïté lexicale et une preuve de la limite des outils actuels. L’utilisateur sait ce qu’il cherche, mais a de la difficulté à le formuler avec les outils mis à sa disposition. Il inscrit alors un mot-clé ou une expression générale dans un moteur de recherche, qui génère des dizaines de milliers de résultats. Après avoir consulté quelques pages, il délaisse sa recherche et se contente de ce qu’il a trouvé, en passant probablement à côté de sites Web fort pertinents ».
L’utilisateur au cœur de la solution
Actuellement, beaucoup d’applications en informatique-linguistique supposent que les meilleurs résultats ressortent en premier pour celui qui fait la recherche. L’approche qui sous-tend ces logiciels, principalement basés sur des modèles numériques ou statistiques, prône la complète automaticité et écarte toute intervention humaine.
Ismaïl Biskri adhère à une toute autre école de pensée. Au cours de son stage postdoctoral au Laboratoire d’ANalyse Cognitive de l’Information (LANCI) de l’UQAM entre 1995 et 1998, le chercheur fait la rencontre du philosophe Jean-Guy Meunier, à qui il doit la réflexion guidant ses recherches en intelligence artificielle appliquée au traitement des langues naturelles. [NDLR : Les langues naturelles sont le fruit de l’expérience, de l’histoire et de la culture des sociétés humaines.] « L’objectif d’une application ne devrait pas être d’effectuer le travail à la place de l’humain, mais de l’assister intelligemment dans ses tâches. Il faut mettre l’utilisateur au centre de la solution informatique. Chacun ayant sa propre façon de chercher l’information, il faut tenir compte de la perspective, des connaissances et de la subjectivité de l’utilisateur », explique le chercheur. C’est d’ailleurs là un des enjeux pour les développeurs d’applications nécessitant une analyse informatique-linguistique des textes en format électronique, soit de permettre à l’utilisateur de déterminer ses propres schèmes et filtres de recherche.
Une approche interactive
À terme, il s’agit de créer des outils intelligents et interactifs, ayant des capacités d’apprentissage. C’est justement dans cette optique que le professeur Biskri développe un outil qui permet l’identification des termes complexes (par exemple, des expressions ou mots reliés à des domaines précis, comme la médecine ou l’anthropologie) à l’intérieur de textes numériques.
Ses travaux auront comme finalité des applications pouvant traiter de grands corpus. Pour ce faire, il souhaite en arriver à la construction de cartes sémantiques fonctionnelles, c’est-à-dire des représentations graphiques mettant en relation des unités linguistiques présentes dans un texte selon les paramètres définis par l’utilisateur, afin de lui donner un indice sur son contenu.
Les usages de telles représentations seraient nombreuses : par exemple, pour la recherche et le filtrage d’informations sur le Web, pour les éditeurs ayant besoin de logiciels d’analyse de textes et d’indexeurs, pour l’assistance à la traduction, voire pour un étudiant de cycles supérieurs qui veut déterminer si tel ou tel document est pertinent à lire dans le cadre de ses recherches. On s’imagine déjà les gains en efficacité et en temps.
Le défi du multilinguisme
La multiplicité des langues ajoute toutefois à la complexité; il s’agit là d’un autre défi pour les chercheurs, de même qu’un enjeu pour les développeurs de logiciels. Ces derniers doivent en effet concevoir des produits multilingues ou, à tout le moins, faciles à adapter à plusieurs langues. Ismaïl Biskri précise : « Il faut éviter d’avoir à développer une version complète d’un même logiciel pour chaque langue naturelle. On cherchera plutôt à construire une base commune spécifique à un groupe de langues. »
D’où la question fondamentale : qu’est-ce qui est universel et spécifique à chaque langue? Pour y répondre, le chercheur se base sur la Grammaire Catégorielle Combinatoire Applicative (GCCA), un modèle qui permet l’analyse formelle des langues naturelles en faisant abstraction de l’ordre linéaire des mots et des phrases pour mieux cerner les structurations plus fondamentales : il s’agit de l’ordre opérateur-opérande. « En conceptualisant les langues comme des systèmes d’agencement d’unités linguistiques qui fonctionnent comme des opérateurs s’appliquant à des opérandes, on en vient à clarifier ce qui pourrait être universel pour un ensemble non négligeable de langues et ce qui devrait être spécifique à chacune d’elles », soutient l’informaticien-linguiste.
Dans le cadre de ses recherches, Ismaïl Biskri a mis en lumière les structures communes à trois langues, soit le français, l’anglais et l’arabe. Son constat? « Un outil “parfaitement” multilingue est probablement impossible. Cependant, nous avons montré que le noyau de notre modèle présente une indépendance certaine à la langue. L’arabe étant structurellement différente du français et de l’anglais, la GCCA permet d’analyser ces trois langues avec un unique ensemble de règles », affirme-t-il, avant de conclure : « Les compagnies qui développent des applications et des logiciels ne peuvent pas se contenter d’un analyseur pour chaque langue, puisque ce serait très coûteux. L’idéal à atteindre serait une approche grammaticale formelle la plus universelle possible avec des aménagements spécifiques à chaque langue, comme des dictionnaires. »