Algorithme de Cocke-Younger-Kasami

Modèle:Voir homonymes

En informatique théorique et en théorie des langages, l'algorithme de Cocke-Younger-Kasami (CYK) est un algorithme d'analyse syntaxique pour les grammaires non contextuelles, publié par Itiroo Sakai en 1961^[1]Modèle:,^[2]. Il permet de déterminer si un mot est engendré par une grammaire, et si oui, d'en donner un arbre syntaxique. L'algorithme est nommé d'après trois autres personnes qui l'ont redécouvert indépendamment : T. Kasami^[3], D.H. Younger^[4], puis J. Cocke et J.T. Schwartz^[5]Modèle:,^[6].

L'algorithme opère par analyse ascendante et emploie la programmation dynamique. L'algorithme suppose que la grammaire est en forme normale de Chomsky. Cette restriction n'est pas gênante dans la mesure où toute grammaire non contextuelle admet une grammaire en forme normale de Chomsky équivalente^[7]. Le temps de calcul de cet algorithme est en $O (| m |^{3} \cdot | G |)$ , où $| m |$ est la longueur du mot $m$ à analyser et $| G |$ est la taille de la grammaire.

Principe

Sans perte de généralité, on suppose que la grammaire $G$ n'engendre pas le mot vide $ϵ$ . Ainsi, on peut supposer que la grammaire $G$ est sous forme normale de Chomsky et qu'elle ne contient pas de règles de la forme $N \to ϵ$ (on parle de grammaire propre, voir grammaire non contextuelle).

Soit $m$ un mot non vide à analyser. L'algorithme emploie la programmation dynamique. Les sous-problèmes sont les suivants : $P [i, j]$ est l'ensemble des non-terminaux qui engendrent le mot $m [i . . j]$ pour tout $i, j$ tels que $1 \leq i \leq j \leq | m |$ où $| m |$ est la longueur du mot $m$ .

On peut calculer les ensembles $P [i, j]$ par récurrence sur $| j - i |$ .

Cas de base : $P [i, i]$ est l'ensemble des non-terminaux $N$ tel que $N \to m [i]$ est une règle de la grammaire.
Cas récursif : Si $i < j$ , $P [i, j]$ est l'ensemble des non-terminaux $N$ tels qu'il existe une règle $N \to B C$ où $B$ et $C$ sont des non-terminaux et un entier $k \in {i, \dots, j - 1} .$ tels que $B$ est dans $P [i, k]$ et $C$ est dans $P [k + 1, j]$ .

La figure à droite montre le cas de base et le cas récursif.

On en déduit un algorithme de programmation dynamique qui calcule tous les ensembles $P [i, j]$ . Le mot $m$ est engendré par la grammaire si et seulement si $S$ est dans $P [1, | m |]$ où $S$ est l'axiome de la grammaire et $| m |$ est la longueur du mot $m$ .

Exemple

Considérons la grammaire suivante en forme normale de Chomsky :

\begin{matrix} 𝑆 & \to & 𝐺 𝑁 𝐺 𝑉 \\ 𝐺 𝑉 & \to & 𝐺 𝑉 𝐶 \\ 𝐺 𝑉 & \to & 𝑉 𝐺 𝑁 \\ 𝐺 𝑉 & \to & mange \\ 𝐶 & \to & 𝑃 𝐺 𝑁 \\ 𝐺 𝑁 & \to & 𝐷 𝑒 𝑡 𝑁 \\ 𝐺 𝑁 & \to & elle \\ 𝑉 & \to & mange \\ 𝑃 & \to & avec \\ 𝑁 & \to & poisson \\ 𝑁 & \to & fourchette \\ 𝐷 𝑒 𝑡 & \to & du \\ 𝐷 𝑒 𝑡 & \to & une \end{matrix} .

où l'ensemble des non-terminaux est ${S, G V, C, G N, V, P, N, D e t} .$ et l'ensemble des terminaux (lettres) est ${e l l e, p o i s s o n, f o u r c h e t t e, m a n g e, d u, a v e c, u n e} .$ . Ici, « elle » s'appelle une lettre (bien que ce soit un mot) et une phrase comme « elle mange du poisson avec une fourchette » s'appelle un mot.

Maintenant, analysons le mot $m$ qui est la phrase « elle mange du poisson avec une fourchette » avec l'algorithme CYK. Dans la table suivante, on indique les valeurs de $P [i, j]$ :

P[1, 7] = {S}
P[1, 6] = ø	P[2, 7] = {GV}
P[1, 5] = ø	P[2, 6] = ø	P[3, 7] = ø
P[1, 4] = S	P[2, 5] = ø	P[3, 6] = ø	P[4, 7] = ø
P[1, 3] = ø	P[2, 4] = {GV}	P[3, 5] = ø	P[4, 6] = ø	P[5, 7] = {C}
P[1, 2] = {S}	P[2, 3] = ø	P[3, 4] = {GN}	P[4, 5] = ø	P[5, 6] = ø	P[6, 7] = {GN}
P[1, 1] = {GN}	P[2, 2] = {V, GV}	P[3, 3] = {Det}	P[4, 4] = {N}	P[5, 5] = {P}	P[6, 6] = {Det}	P[7, 7] = {N}
elle	mange	du	poisson	avec	une	fourchette

Le mot « elle mange du poisson avec une fourchette » est reconnu car l'axiome $S$ est dans $P [1, 7]$ .

Pseudo-code

Voici un pseudo-code inspiré de l'analyse de la section précédente :

Pour i = 1 à  $| m |$ 
     $P [i, i]$  := ensemble des non-terminaux  $N$  tel que  $N \to m [i]$  est une règle de la grammaire
Pour d = 1 à  $| m | - 1$ 
    Pour i = 1 à  $| m |$ -d
         j := i+d
          $P [i, j]$  := ensemble des non-terminaux  $N$  tels qu'il existe une règle  $N \to B C$  et un entier  $k \in {i, \dots, j - 1} .$  tels que
                                 $B$  est dans  $P [i, k]$  et  $C$  est dans  $P [k + 1, j]$ 

Retourne oui si  $S$  est dans  $P [1, | m |]$  ; non sinon.

On peut donner un pseudo-code qui montre la complexité cubique en $| m |$ :

Pour i = 1 à  $| m |$ 
     $P [i, i]$  := ensemble des non-terminaux  $N$  tel que  $N \to m [i]$  est une règle de la grammaire
Pour d = 1 à  $| m | - 1$ 
    Pour i = 1 à  $| m |$ -d
         j := i+d
          $P [i, j]$  := ensemble vide
         Pour tout k = i à j-1
                  Pour tout  $B$  est dans  $P [i, k]$  et  $C$  est dans  $P [k + 1, j]$ 
                            Pour tout non-terminal  $N$  tel que  $N \to B C$  est une règle
                                  Ajouter  $N$  à  $P [i, j]$ 
Retourne oui si  $S$  est dans  $P [1, | m |]$  ; non sinon.

Discussions

Grammaires pondérées

Si la grammaire est pondérée, l'algorithme de CYK permet de générer l'arbre le plus lourd qui engendre la phrase^[8]Modèle:,^[9].

Intérêt de la mise en forme normale de Chomsky

La restriction qui consiste à avoir une grammaire en forme normale de Chomsky est essentiellement esthétique et Lange et Leiß ^[10] discutent une variante de l'algorithme CYK avec des restrictions plus faibles.

Lien avec la multiplication de matrices

L'algorithme CYK est en $Θ (| m |^{3} \cdot | G |)$ , où $| m |$ est la longueur du mot à analyser et $| G |$ est la taille de la grammaire en forme normale de Chomsky. Valiant^[11] donne une extension de l'algorithme CYK en $O (| m |^{2, 81} \cdot | G |)$ en adaptant l'algorithme de Strassen sur les matrices.

En utilisant l'algorithme de Coppersmith-Winograd^[12] pour multiplier les matrices, on atteint une complexité asymptotique de $O (| m |^{2, 38} \cdot | G |)$ . Mais la constante cachée dans la notation grand O fait que l'algorithme n'a pas d'intérêt en pratique^[13]. La dépendance sur un algorithme efficace pour multiplier des matrices ne peut pas être évitée dans le sens suivant : Lee^[14] a montré que l'on peut construire un algorithme pour multiplier des matrices 0-1 de taille $(n \times n)$ en temps $O (n^{3 - ε / 3})$ à partir d'un analyseur pour des grammaires non contextuelles en $O (| m |^{3 - ε} \cdot | G |)$ .

Démonstrations

Notes et références

Modèle:Références

Bibliographie

L'algorithme est exposé dans les ouvrages théoriques sur les langages formels.

Voir aussi

Modèle:Portail

↑ Modèle:Chapitre.
↑ Modèle:Ouvrage.
↑ Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Kasami
↑ Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Younger
↑ Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Cocke
↑ Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Cocke-Schwartz
↑ Modèle:Ouvrage.
↑ Modèle:Article.
↑ Modèle:Lien web.
↑ Martin Lange, Hans Leiß, « Modèle:Langue », Informatica Didactica 8, 2009.
↑ Modèle:Lien web.
↑ Don Coppersmith and Shmuel Winograd. Matrix multiplication via arithmetic progressions. Proceedings of the Nineteenth Annual ACM Symposium on Theory of Computing, pages 1–6, 1987.
↑ Modèle:Ouvrage.
↑ Modèle:Article.

[1] Modèle:Chapitre.

[2] Modèle:Ouvrage.

[Kasami-3] Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Kasami

[Younger-4] Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Younger

[Cocke-5] Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Cocke

[Cocke-Schwartz-6] Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées Cocke-Schwartz

[7] Modèle:Ouvrage.

[8] Modèle:Article.

[9] Modèle:Lien web.

[10] Martin Lange, Hans Leiß, « Modèle:Langue », Informatica Didactica 8, 2009.

[11] Modèle:Lien web.

[12] Don Coppersmith and Shmuel Winograd. Matrix multiplication via arithmetic progressions. Proceedings of the Nineteenth Annual ACM Symposium on Theory of Computing, pages 1–6, 1987.

[13] Modèle:Ouvrage.

[14] Modèle:Article.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Algorithme de Cocke-Younger-Kasami

Sommaire

Principe

Exemple

Pseudo-code

Discussions

Grammaires pondérées

Intérêt de la mise en forme normale de Chomsky

Lien avec la multiplication de matrices

Démonstrations

Notes et références

Bibliographie

Voir aussi

Menu de navigation

Algorithme de Cocke-Younger-Kasami

Principe

Exemple

Pseudo-code

Discussions

Grammaires pondérées

Intérêt de la mise en forme normale de Chomsky

Lien avec la multiplication de matrices

Démonstrations

Notes et références

Bibliographie

Voir aussi

Menu de navigation

Rechercher