Plus longue sous-séquence commune

Modèle:Confusion En informatique théorique, la plus longue sous-séquence commune à deux suites, ou deux chaînes de caractères, est une sous-suite extraite des deux suites, et de taille maximum. La résolution de ce problème peut être obtenue par programmation dynamique.

La généralisation à un nombre arbitraire de suites est un problème NP-difficile^[1] : le temps d'exécution de tout algorithme est exponentiel en le nombre de séquences.

Exemple

Pour les deux séquences de caractères suivantes :

« abcde »,
« ceij »,

la plus longue sous-séquence commune est « ce ».

Dans ce problème, il est nécessaire que les éléments communs soient dans le même ordre dans les différentes séquences, mais pas qu’ils soient obligatoirement consécutifs : « e » n’est pas consécutif à « c » dans la première séquence.

Algorithme par force brute

On constate par dénombrement qu'il existe $2^{n}$ sous-séquences pour une chaîne de longueur $n$ . Les essayer toutes par force brute pour trouver la plus longue qui soit une sous-séquence d'une autre chaîne a donc une complexité exponentielle, ce qui n'est pas souhaitable en pratique.

Résolution en temps polynomial pour deux suites

Une telle sous-séquence peut être obtenue par un algorithme de programmation dynamique dont le temps d'exécution est proportionnel au produit des longueurs des deux séquences^[2].

Structure d'une solution

Il est possible de ramener le problème de recherche de plus longue sous séquence commune (PLSC) entre deux chaînes données à une recherche entre deux chaînes de taille inférieure grâce au théorème suivant (où $X_{l}$ désigne les $l$ premiers caractères de la séquence $X$ )^[2]: Modèle:Théorème

Les trois cas $⟨ x_{m} = y_{n} ⟩$ , $⟨ x_{m} \neq y_{n} 𝖤 𝖳 z_{k} \neq x_{m} ⟩$ et $⟨ x_{m} \neq y_{n} 𝖤 𝖳 z_{k} \neq y_{n} ⟩$ sont exhaustifs, ce qui permet bien de se ramener à un problème de taille inférieure.

Longueur des plus longues sous-séquences communes

On crée un tableau à deux dimensions $c [1 \cdot \cdot m] [1 \cdot \cdot n]$ dans lequel chaque case $c [i] [j]$ est destiné à contenir la longueur des PLSCs entre $X_{i}$ et $Y_{j}$ . On peut alors calculer de proche en proche $c [i] [j]$ pour chaque couple d'indice $i$ et $j$ . Du théorème précédent découle en effet la formule^[2]:

c [i] [j] = {\begin{matrix} 0 & si i = 0 ou j = 0, \\ c [i - 1] [j - 1] + 1 & si i, j > 0 et x_{i} = y_{j}, \\ 𝗆 𝖺 𝗑 (c [i] [j - 1], c [i - 1] [j]) & si i, j > 0 et x_{i} \neq y_{j} . \end{matrix}

Le calcul du contenu des cases de $c$ peut être effectué avec une complexité $𝒪 (m n)$ , car le contenu de chaque case est calculable à partir des cases précédente en $𝒪 (1)$ ^[2].

Obtention d'une plus longue sous-séquence commune

La formule précédente permet de calculer de proche en proche les cases de $c$ . On peut reconstituer une plus longue sous-séquence commune grâce à lui.

Pour cela on effectue un parcours depuis $c [m] [n]$ suivant la règle suivante

Depuis une case $c [i] [j]$ de valeur $α$ :

Si $x_{i} = y_{j}$ , on passe à la case $c [i - 1] [j - 1]$ de valeur $α - 1$ et on ajoute ce caractère ( $x_{i} = y_{j}$ ) au début de la PLSC en construction.

Si xi≠yj,
- Si $c [i] [j - 1] = c [i - 1] [j] = α$ , on passe indifféremment à la case $c [i - 1] [j]$ ou $c [i] [j - 1]$ .
- Si $c [i] [j - 1] = α > c [i - 1] [j]$ , on passe à la case $c [i] [j - 1]$
- Si $c [i - 1] [j] = α > c [i] [j - 1]$ , on passe à la case $c [i - 1] [j]$

Un exemple de parcours est donné par le tableau suivant, grâce auquel on déduit que MJAU est une plus longue sous-séquence commune à MZJAWXU et XMJYAUZ :

		0	1	2	3	4	5	6	7
		Ø	M	Z	J	A	W	X	U
0	Ø	0	0	0	0	0	0	0	0
1	X	0	0	0	0	0	0	1	1
2	M	0	1	1	1	1	1	1	1
3	J	0	1	1	2	2	2	2	2
4	Y	0	1	1	2	2	2	2	2
5	A	0	1	1	2	3	3	3	3
6	U	0	1	1	2	3	3	3	4
7	Z	0	1	2	2	3	3	3	4

Complexité de l'algorithme

Le calcul du contenu des cases de $c$ peut être effectué avec une complexité $𝒪 (m n)$ , car le contenu de chaque case est calculable à partir des cases précédente en $𝒪 (1)$ ^[2].

Une fois $c$ connu, l'obtention d'une PLSC a une complexité $𝒪 (m + n)$ ^[2].

Notes et références

Modèle:Références

Bibliographie complémentaire

Voir aussi

Plus longue sous-suite strictement croissante
Plus longue sous-chaîne commune (restriction au cas où les éléments choisis dans chaque suite sont consécutifs)
Chaîne la plus proche

Modèle:Palette Algorithmes de manipulation de texte Modèle:Portail

↑ Modèle:Article
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 et ^2,5 Modèle:Cormen2fr, chapitre 15.4, Programmation dynamique : plus longue sous-séquence commune.

[1] Modèle:Article

[Cormen-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 et ^2,5 Modèle:Cormen2fr, chapitre 15.4, Programmation dynamique : plus longue sous-séquence commune.

[1]

[2]

Plus longue sous-séquence commune

Sommaire

Exemple

Algorithme par force brute

Résolution en temps polynomial pour deux suites

Structure d'une solution

Longueur des plus longues sous-séquences communes

Obtention d'une plus longue sous-séquence commune

Complexité de l'algorithme

Notes et références

Bibliographie complémentaire

Voir aussi

Menu de navigation

		0	1	2	3	4	5	6	7
		Ø	M	Z	J	A	W	X	U
0	Ø	0	0	0	0	0	0	0	0
1	X	0	0	0	0	0	0	1	1
2	M	0	1	1	1	1	1	1	1
3	J	0	1	1	2	2	2	2	2
4	Y	0	1	1	2	2	2	2	2
5	A	0	1	1	2	3	3	3	3
6	U	0	1	1	2	3	3	3	4
7	Z	0	1	2	2	3	3	3	4

		0	1	2	3	4	5	6	7
		Ø	M	Z	J	A	W	X	U
0	Ø	0	0	0	0	0	0	0	0
1	X	0	0	0	0	0	0	1	1
2	M	0	1	1	1	1	1	1	1
3	J	0	1	1	2	2	2	2	2
4	Y	0	1	1	2	2	2	2	2
5	A	0	1	1	2	3	3	3	3
6	U	0	1	1	2	3	3	3	4
7	Z	0	1	2	2	3	3	3	4

Plus longue sous-séquence commune

Exemple

Algorithme par force brute

Résolution en temps polynomial pour deux suites

Structure d'une solution

Longueur des plus longues sous-séquences communes

Obtention d'une plus longue sous-séquence commune

Complexité de l'algorithme

Notes et références

Bibliographie complémentaire

Voir aussi

Menu de navigation

Rechercher

		0	1	2	3	4	5	6	7
		Ø	M	Z	J	A	W	X	U
0	Ø	0	0	0	0	0	0	0	0
1	X	0	0	0	0	0	0	1	1
2	M	0	1	1	1	1	1	1	1
3	J	0	1	1	2	2	2	2	2
4	Y	0	1	1	2	2	2	2	2
5	A	0	1	1	2	3	3	3	3
6	U	0	1	1	2	3	3	3	4
7	Z	0	1	2	2	3	3	3	4