Automate de Parikh

En informatique théorique, et notamment en théorie des automates, un automate de Parikh est un automate fini non déterministe dont les transitions comportent des vecteurs d’entiers naturels qui permettent de tester si la somme des vecteurs d'un calcul satisfait une contrainte semi-linéaire. L'intérêt de cette famille d'automates est qu'elle possède d'autres caractérisations équivalentes, sous forme de machine de Turing et sous une forme plus algébrique, dite RCM.

Description informelle

Un automate de Parikh est un automate fini dont les transitions sont étiquetées par des couples $(a, v)$ , où $a$ est une lettre de l’alphabet d’entrée et $v$ est un vecteur de $ℕ^{d}$ , pour un entier $d$ . Un chemin est une suite

q_{0} \overset{a_{1}, v_{1}}{\to} q_{1} \overset{a_{2}, v_{2}}{\to} \dots q_{n - 1} \overset{a_{n}, v_{n}}{\to} q_{n}

de transitions qui calcule le mot $a_{1} \dots a_{n}$ et le vecteur $v_{1} + \dots + v_{n}$ , où la somme est faite composante par composante. La condition d’acceptation est donnée par un ensemble d’états terminaux et un ensemble semi-linéaire. Un chemin est un calcul réussi si, partant de l’état initial, il atteint un état final et si son vecteur appartient à l’ensemble semi-linéaire donné.

Les automates de Parikh ont été introduits en 2003 dans l’étude de la logique du second ordre^[1]. Ces automates acceptent les mêmes langages formels que les machines de Turing à compteurs à renversements bornées (en anglais « reversal bounded »)^[2]. Cette famille coïncide à son tour avec une classe définie par Massazza sous le nom de classe RCM^[3].

Exemple

L’automate de l'introduction^[4], avec la contrainte ${(n_{1}, n_{2}, n_{1} + n_{2} ∣ n_{1}, n_{2} \geq 0}$ , accepte l’ensemble des mots $w$ sur l’alphabet ${a, b, c}$ qui commence et finissent par un $a$ , et tels que $| w |_{a} + | w |_{b} = | w |_{c}$ . `

Automates de Parikh

Ensemble semi-linéaire

Modèle:Loupe Un sous-ensemble de $ℕ^{d}$ est linéaire s'il est de la forme

u_{0} + u_{1} ℕ + \dots + u_{k} ℕ = {u_{0} + t_{1} u_{1} + \dots + t_{m} u_{m} ∣ t_{1}, \dots, t_{m} \in ℕ}

pour des vecteurs $u_{0}, \dots, u_{m}$ . C'est donc l'ensemble des combinaisons linéaires, à coefficients entiers naturels, d'un ensemble fini de vecteurs de $ℕ^{d}$ , auxquels est ajouté le vecteur $u_{0}$ . Par exemple, pour $d = 3$ , l'ensemble $(1, 0, 0) + (1, 1, 1) ℕ = {(n + 1, n, n) | n \in ℕ}$ est un ensemble linéaire très simple.

Un sous-ensemble de $ℕ^{d}$ est semi-linéaire s'il est une union finie de parties linéaires. Tout ensemble semi-linéaire possède une représentation inambigue, où les unions sont disjointes et où les écritures comme combinaisons linéaires sont uniques.

Définition des automates

Un automate de Parikh de dimension $d \geq 1$ est un tuple $𝒜 = (Σ, Q, q_{I}, F, C, Δ)$ , où

$Σ$ est l'alphabet,
$Q$ est l'ensemble d'états
$q_{I} \in Q$ est l'état initial
$F \subset Q$ est l’ensemble des états terminaux
$C \subset ℕ^{d}$ est l'ensemble des contraintes semi-linéaires
$Δ \subset Q \times (Σ \times ℕ^{d}) \times Q$ est la relation de transition.

Un chemin dans l'automate est une suite

q_{0} \overset{a_{1}, v_{1}}{\to} q_{1} \overset{a_{2}, v_{2}}{\to} \dots q_{n - 1} \overset{a_{n}, v_{n}}{\to} q_{n}

où, pour $1 \leq i \leq n$ , le triplet $(q_{i - 1), (a_{i}, v_{i}} q_{i})$ est dans $Δ$ . LModèle:'étiquette de ce chemin est le couple $(a_{1} \dots a_{n}, v_{1} + \dots + v_{n})$ . Le chemin est réussi ou acceptant si $q_{0} = q_{I}$ , $q_{n} \in F$ et si de plus le vecteur $v_{1} + \dots + v_{n}$ est dans $C$ . Dans ce cas, le mot $w = a_{1} \dots a_{n}$ est accepté ou reconnu par l'automate $𝒜$ . Le langage reconnu par $𝒜$ est noté $L (𝒜)$ .

Automates inambigus

Un automate de Parikh est faiblement inambigu^[4] si, pour tout mot, il existe au plus un chemin réussi^[5]. L'automate de la figure ci-contre est faiblement inambigu. Il a pour ensemble semi-linéaire de contraintes l'ensemble $C = {(n_{1}, n_{2}, n_{3}) ∣ n_{1} = n_{2} + n_{3} et n_{2} < n_{3}}$ . Si on oublie la partie semi-linéaire, l'automate sous-jacent, qui reconnait le langage $c^{*} (a + b)^{+}$ , est en revanche un automate fini ambigu.

La famille des langages reconnus par des automates de Parikh faiblement inambigus est fermée par intersection ; la fermeture par union ou par complémentation est une question encore ouverte^[4]. Il existe des langages inhéremment faiblement inambigus au sens que tout automate de Parikh les reconnaissants est faiblement ambigu^[4].

Caractérisation par machines de Turing

Une machine de Turing à $k$ compteurs est une machine de Turing qui possède, en plus de ses attributs usuels, un ensemble de $k$ compteurs^[2]. La machine, dans l'état $q$ et en lisant une lettre $a$ sur sa bande d'entrée, peut examiner ses compteurs, et incrémenter ou décrémenter certains de ses compteurs. La machine ne connaît pas la valeur de ses compteurs mais sait tester s'ils sont nuls ou non. Une machine de Turing est à renversements bornés (en anglais « reversal bounded ») si sa tête de lecture ne peut changer de direction qu'un nombre borné de fois ; plus précisément, elle est $(m, n)$ -bornée si elle peut changer de direction au plus $m$ fois, et si chaque compteur ne peut alterner l'incrémentation et la décrémentation au plus $n$ fois. Une machine de Turing, à $k$ compteurs et $(m, n)$ -bornée est inambigue si, de plus, chaque mot possède au plus un calcul acceptant.

Modèle:Théorème

L'égalité de ces familles de langages n'est plus vraie dans le cas déterministe^[6]. En revanche, la version inambigue est valide : Modèle:Théorème

Langages RCM

Paolo Massazza^[3] a introduit en 1993 une famille de langages appelée RCM^[7]. La construction rappelle, mais de loin, la représentation des langages algébriques par langages de Dyck. Ces langages sont définis comme suit.

On se donne un alphabet $A = {a_{1}, \dots, a_{d}}$ totalement ordonné avec $a_{1} < \dots < a_{d}$ . À tout ensemble semi-linéaire $C$ de dimension $d$ on associe le langage $[C] = {w \in A^{*} ∣ (| w |_{a_{1}}, \dots, | w |_{a_{d}}) \in C}$ . Ce langage est l'ensemble des mots dont les nombres d'occurrences de chaque lettre satisfont les contraintes de $C$ . Si par exemple $C_{0} = {(n, m, n, m) | n, m \geq 0}$ et l'alphabet est $a < b < c < d$ , le langage $[C_{0}]$ est l'ensemble de tous les mots sur ces 4 lettres qui ont autant d'occurrences de $a$ que de $c$ et autant de $b$ que de $d$ .

Par définition, un langage $L$ sur un alphabet $Σ$ appartient à la famille RCM s'il existe un langage rationnel $R$ sur $A = {a_{1}, \dots, a_{d}}$ , un ensemble semi-linéaire $C \subset ℕ^{d}$ et un morphisme préservant la longueur $μ : A^{*} \to Σ^{*}$ qui est injectif sur $R \cap [C]$ tels que

L = μ (R \cap [C])

.

Par exemple, le langage $L_{a b a b} = {a^{n} b^{m} a^{n} b^{m} | n, m \geq 0}$ est dans la famille RCM parce qu'il s'écrit sous la forme $L_{a b a b} = μ (R \cap [C_{0}])$ , où $C_{0}$ est l'ensemble semi-linaire défini ci-dessus et $μ$ identifie $a$ et $c$ respectivement $b$ et $d$ .

Le lien entre les langages RCM est les automates de Parikh est le résultat suivant :

Modèle:Théorème

Notes et références

Modèle:Références

Bibliographie

Modèle:Chapitre.

Modèle:Article.

Modèle:Article

Modèle:Article

Articles liés

Modèle:Portail

↑ Modèle:Harvsp.
↑ ^2,0 et ^2,1 Modèle:Harvsp.
↑ ^3,0 et ^3,1 Modèle:Harvsp.
↑ ^4,0 ^4,1 ^4,2 et ^4,3 Modèle:Harvsp.
↑ Il existe aussi une notion d'automate de Parikh inambigu, définie dans Modèle:Harv mais qui est strictement plus forte. La définition ci-dessus correspond à la notion usuelle.
↑ Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées C
↑ Le nom vient de que ces langages sont définis à l'aide de langages réguliers, de contraintes semi-linéaires et de morphismes.

[K-1] Modèle:Harvsp.

[I-2] 2,0 et ^2,1 Modèle:Harvsp.

[Massazza_1993-3] 3,0 et ^3,1 Modèle:Harvsp.

[B-4] 4,0 ^4,1 ^4,2 et ^4,3 Modèle:Harvsp.

[5] Il existe aussi une notion d'automate de Parikh inambigu, définie dans Modèle:Harv mais qui est strictement plus forte. La définition ci-dessus correspond à la notion usuelle.

[C-6] Erreur de référence : Balise <ref> incorrecte : aucun texte n’a été fourni pour les références nommées C

[7] Le nom vient de que ces langages sont définis à l'aide de langages réguliers, de contraintes semi-linéaires et de morphismes.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Automate de Parikh

Sommaire

Description informelle

Exemple

Automates de Parikh

Ensemble semi-linéaire

Définition des automates

Automates inambigus

Caractérisation par machines de Turing

Langages RCM

Notes et références

Bibliographie

Articles liés

Menu de navigation

Automate de Parikh

Description informelle

Exemple

Automates de Parikh

Ensemble semi-linéaire

Définition des automates

Automates inambigus

Caractérisation par machines de Turing

Langages RCM

Notes et références

Bibliographie

Articles liés

Menu de navigation

Rechercher