Historique et état de la question


vue d'ensemble:


Prémisses

Le traitement du langage naturel est un domaine qui puise à la fois dans la linguistique et dans l'intelligence artificielle. Or ces deux domaines de recherches sont relativement jeunes (bien que la linguistique soit des deux, nettement plus "âgée") et ne comptent encore que quelques dizaines d'années d'existence. De plus, même la linquistique, qui date d'un peu plus longtemps, n'arrive souvent pas à créer un consensus sur les différents problèmes rencontrés. Covington (1994) rappelle à ce sujet que malgré ce fait, il y a toutefois un certain nombre de points sur lesquels les linguistes s'entendent et il énumère ici les points suivants qui nous serviront de prémisses:

  1. Le langage concerne la forme et non le contenu. On reconnaît davantage le langage comme le système de règles régulant la production du discours que les propos tenus par ce dernier.
  2. Le langage est arbitraire. Il résulte d'un ensemble de symboles retenus par les gens pour être utilisés de façon spécifique
  3. Le langage est discret et non analogique. Les symboles qui composent le langage sont clairement distincts par opposition à des positions sur un continuum.
  4. Les langages humains utilisent la dualité de l'appariement par laquelle les mots sont des chaînes de sons et les affirmations des chaînes de mots. Les mots ont un sens, les sons, en soi n'en ont pas.
  5. Mis à part la taille du lexique, toutes les langues sont également compliquées
  6. Tous parlent leur propre langage. Il n'y a pas deux individus qui parlent la même langue. Il y a des différences mineures ici et là entre individus et plus grandes entre groupes sociaux distincts. Les règles de grammaire sont définies mais elles varient d'un dialecte à l'autre dans leur application.

Toute langue humaine se divise naturellement en 5 niveaux: la phonologie (le son des mots) , la morphologie (la formation des mots), la syntaxe (la structure de la phrase), la sémantique (le sens) et la pragmatique (l'utilisation du langage en contexte).

On définit généralement la syntaxe comme étant le plus bas niveau impliquant la création. Il nous arrive rarement de créer de nouveaux mots mais des phrases sont crées constamment, toutes distinctes les unes des autres. Ce qui implique que contrairement à la phonologie ou la morphologie, il n'y a aucun moyen de faire une liste de toutes les phrases possibles dans un langue. Elles sont trop nombreuses.

On doit à Noam Chomsky (1957) d'avoir le premier mis ce point en relief. Il présentait alors la Grammaire Générative décrivant une série de règles permettant de produire (générer) des phrases plutôt que de les énumérer. Mais avant d'en arriver à Chomsky il n'est pas inutile de rappeler ici quelques faits précédant ces travaux et de produire une histoire de la grammaire. L'angle favorisé ici sera celui du français pour lequel les applications de l'intelligence artificielle ne sont pas toujours favorisés et qui présente parfois certaines particularités par rapport à la langue naturelle du domaine: l'anglais.


Grammaire historique

La grammaire remonte aux premiers siècles avant notre ère, née d'une nécessité d'expliquer des textes anciens. Elle s'est constituée lentement suite aux observations pratiquées sur ces textes. Le moyen-Age héritera de la grammaire élaborée par les Romains et le passage de la langue parlée du latin vers le français la modifiera lentement jusqu'à la Renaissance où le français sera reconnu comme langue nationale et littéraire. Le besoin d'assurer la qualité de la langue des Anglo-Normands dont l'usage du français s'altère constamment voit apparaître des premiers ouvrages concernant la pratique de la langue. Suivront des grammaires visant à défendre le statut du français devant les langues anciennes (Henri Estienne, en 1565, dans un Traité de la conformité du langage françoys avec le grec).

Alors qu'au XVIIe siècle Paris répand la notion de bon usage du français soumis aux canons du clacissisme, le XVIIIe siècle quant à lui s'interroge de l'origine du langage cherchant à établir une Grammaire Générale établissant le fondement commun des différentes langues. Ces grammairiens feront des liens entre la Raison, la pensée et le langage visant à faire de la pratique correcte de la langue le gage d'un raisonnement rigoureux et clair.

Le XIXe siècle s'écartera de cette approche métaphysique pour tenter de donner à l'ensemble des bases scientifiques. De là naîtra la grammaire historique et comparée, reconnaissant à la langue non seulement une nature mais aussi une histoire. Cette époque mettra en évidence le fait qu'une langue change, se modifie, selon les pressions politiques et sociales. La linguistique devient active et s'embarque dans une quête du Graal réalisant des héritages communs entre les diverses langues parlées. Les linguistes occidentaux, à travers l'étude des langues orientales dont le sanskrit retrouvent des racines communes dont subsistent des traces dans certains dialectes Européens. Ils initieront à ce moment un travail, souvent contesté, visant à recréer l'arbre des langues parlées issues d'une langue originale. Ce travail est encore en cours aujourd'hui et soulève encore dans le milieu divers débats.

L'importance des découvertes de cette période permet de donner un coup d'envoi et de reconnaissance du statut de la linguistique, statut qui demeurait fragile devant l'éclosion des sciences expérimentales, mais détourne toutefois du fonctionnement de la langue. Le XXe siècle en fera son point de départ.

Les linguistes, au début du siècle, tentent donc d'établir les mécanismes qui assurent la transmission de la pensée. Il établissent du même coup le fait que la langue est un système organisé dans lequel le sens est résultat des relations entre les diverses formes de l'ensemble. Ce raisonnement conduira au structuralisme qui marquera fortement le début du siècle.


Structuralisme

La première moitié du XXe siècle sera marquée par une approche formelle de la langue: le structuralisme. Deux grandes têtes d'affiche s'illustrent ici comme représentants de ce mouvement, en Europe, Ferdinand de Saussure (1857-1913) et en Amérique, Leonard Bloomfield (1887-1949) qui influenceront tout un courant de pensée. Ce qui caractérise le structuralisme c'est l'importance et l'indépendance de la langue, comme système de signes, indépendamment du sens.

Chez Saussure il y a nette distinction entre sémiologie et linguistique, entre synchronie et diachronie. Il met au point le concept de système opératoire lié à une théorie du signe et l'opposition de la langue à la parole.

"Le signe linguistique unit non une chose et un nom, mais un concept et une image acoustique. Cette dernière n'est pas le son matériel, chose purement physique, mais l'empreinte psychique de ce son, la représentation que nous en donne le témoignage de nos sens... le signe linguistique est donc une entité psychique à deux faces pouvant être représentée par la figure ci-contre"

cours de linquistique générale, p. 98-99.

La figure 1 présente quelques uns des symboles apportés par Saussure pour dégager l'idée du rapport entre la langue, sa représentation phonétique, et le sens.

fig1. Les représentations du signe chez Saussure.

L'importance de la contribution de Saussure est très grande, donnant en quelque sorte à la linguistique les fondements qui lui manquaient pour en faire une science autonome.

Le cas de Bloomfield est différent. Ce dernier s'illustre au début pour ses études de diverses langues dont le sanskrit et les langues amérindiennes. Il se caractérise par son approche behavioriste, centrée sur l'observable du langage et des situations dans lesquelles il est utilisé. Contrairement à Saussure, il cherche à écarter de sa théorie toutes les notions extérieures, qu'il qualifie de mentalisme. Ici, conscience, esprit, image mentale ... n'ont pas de place. La doctrine de Bloomfield, décrivant les unités linguistiques d'un énoncé uniquement sur la base de leurs lois de distribution sera poussée à l'extrème chez Z.S. Harris (1951).


Distributionnalisme et transformation

Le structuralisme joue un rôle important dans l'évolution de la grammaire, par l'établissement des fondations nécessaires à l'apparition du distributionnalisme. Ce qui caractérise le distributionnalisme c'est l'identification de la place des occurrences dans une phrase.

Par la méthode distributionnelle, la syntaxe est perçue comme résultant de la distribution des morphèmes dans la phrase. Elle peut être décrite comme pratiquant une analyse des diverses unités d'un énoncé par segmentation pour en classer les morphèmes suivant leur distribution, c'est-à-dire leur arrangement selon un certain ordre.

Les problèmes liés à cette méthode tiennent au fait que les résultats atteints se présentent comme une classification descriptive des types d'occurrences rencontrés, ne permettant pas de déduire ce que l'on s'attend à trouver à l'extérieur de la distribution observée. De plus, les diverses relations existant entre les divers types de phrases ne peuvent être caractérisées, ne permettant pas de distinguer une phrase déclarative d'une phrase interrogative correspondante.


Grammaire transformationnelle et générative


fig2. Les constituants de la théorie standard de Chomsky (repris de Horrocks 1987)

Noam Chomsky répondait ainsi aux travaux réalisés antérieurement par les structuralistes dont L. Bloomfield d'abord et Z.S.Harris ensuite, qui avaient produit une méthode distributionnelle.

Chomsky propose donc de modifier les procédés distributionnels de Harris pour produire des règles servant à générer des syntagmes ou des phrases. Ce sont ces règles que l'on appelle règles de réécriture et qui s'illustrent sous la forme générale suivante:

X ® Y Z

où X se réécrit Y, Z.

Par l'application de ces règles, il devient possible de faire des prédictions quant aux types de phrases qu'on peut rencontrer dans cette même langue. Il devient aussi possible de tester les divers résultats entraînant une précision dans la terminologie qui doit devenir plus stricte pour permettre des formulations précises et des procédures d'évaluation correspondantes.

La suite de règles de la figure 3 représente la base de la Grammaire Générative de Chomsky.

Phrase

Groupe Nominal

Groupe Verbal

Déterminant

Déterminant

Nom

Nom

Verbe

Verbe

®

®

®

®

®

®

®

®

®

Groupe Nominal + Groupe Verbal

Déterminant + Nom

Verbe + Groupe Nominal

le

un

chien

chat

chasse

voit

Fig. 3 règles de réécriture amenées par Chomsky (1957)

Ces diverses règles de réécriture déterminent la base de la Grammaire Générative. Elles stipulent que par leur application il est possible de générer une phrase et toutes les phrases d'une langue donnée et de cette seule langue, signifiant par là que chaque langue peut avoir sa propre application d'une grammaire générative. Ces règles peuvent être parcourues tantôt par ordre ascendant, pour exprimer la structure d'une phrase, tantôt par ordre descendant, pour générer une phrase. Dans la figure 3, les deux premières lignes expriment les règles utilisées et les lignes suivantes des prédicats.

S'ajouteront rapidement à ces règles des règles permettant la transformation ainsi une phrase W X Y Z , après l'application d'une règle du type:

1 2 3 4 ® 3 - 1 - 4 - 2

devient Y W Z X.

Cette règle est à la base de tout l'appareil transformationnel et demandera une reformulation de la Grammaire Générative qui prendra la forme suivante:

Lexique

Règles de réécriture

¯

Structure - D

¯

Transformations

¯

Structure - S

Fig. 4 Composants syntaxiques d'une grammaire

La figure 4 insère les règles de réécriture mentionnées plus tôt dans un appareil plus large décrit comme étant un composant syntaxique. Ces règles s'avèreront trop puissantes et Chomsky pour en contraindre la portée aura recours à des ajouts, issus des règles de transformations, qui prendront la forme de divers attributs s'ajoutant à la représentation de la phrase produite. Cela donnera naissance à la théorie X' ou X Barre qui permettra de régler certains problèmes comme l'ordre d'apparition et la position des divers noeuds dans l'arbre syntaxique résultant.

Le travail de Chomsky est des plus importants pour la linguistique malgré les distances qu'il soulève à l'occasion pour sa constance dans la mise à jour et les corrections de tir apportées. Pour différentes raison, sa théorie de la grammaire générative transformationnelle appelée aussi Théorie Standard Étendue, est rapidement devenue très populaire et a permis diverses prises de position se traduisant parfois dans la création de nouvelles théories. Chomsky mit à jour constamment sa théorie (1965) lui apportant des modifications (Théorie du gouvernement et du liage, 1977, 82) et continue de publier (Théorie minimaliste, 1995).


Les grammaires d'unification

Nées d'une critique de la Grammaire Générative Transformationnelle, les grammaires d'unification apparaîtront pour tenter de corriger certains aspects, dont la place de la sémantique dans la GGT. L'espace nous manque ici pour détailler l'apport des grammaires d'unification dont nous dirons simplement qu'elles sont caractérisées par l'apport important d'outils formels développés en intelligence artificielle. Elles sont aussi le résultat de besoins nouveaux dans les domaines du traitement automatique des langues, de la correction orthographique, de l'indexation automatique, etc. Les grammaires d'unification partaient aussi de la réalisation que la grammaire générative était mal adaptée à la construction de programmes informatiques d'analyse automatique de textes.


Retour à la base menu 
principal haut de la 
page