Conditions d'optimalité

De testwiki
Aller à la navigation Aller à la recherche

En optimisation mathématique, les conditions d'optimalité sont un ensemble d'équations, d'inéquations (c'est-à-dire des inégalités) et d'expressions diverses (par exemple, la copositivité de matrices) vérifiées par une solution d'un problème d'optimisation (on parle alors de conditions nécessaires d'optimalité) ou qui permettent d'affirmer qu'un point qui les vérifie est solution du problème d'optimisation considéré (on parle alors de conditions suffisantes d'optimalité). Ces expressions analytiques de l'optimalité sont utiles entre autres pour :

  • calculer les solutions d'un problème d'optimisation,
  • vérifier l'optimalité d'un point donné,
  • concevoir des algorithmes de résolution.

Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie.

Les plus importantes sont les conditions KKT.

Préambule

Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie. Le terme différentiable signale que les fonctions définissant le problème sont supposées différentiables au sens classique (celui de Fréchet). Lorsque la différentiabilité a lieu dans un sens plus faible on parle dModèle:'optimisation non lisse ou dModèle:'optimisation non différentiable, discipline dans laquelle on établit des conditions d'optimalité plus fines que celles présentées dans cet article. Il ne sera donc pas non plus question ici des problèmes dModèle:'optimisation combinatoire dans lesquels les variables prennent des valeurs discrètes, si bien que la différentiabilité requise n'a pas de sens. Quant aux termes dimension finie, ils font référence au fait que l'on cherche la valeur optimale d'un nombre fini de paramètres (mais ceux-ci doivent pouvoir varier continûment). Le système à optimiser peut, quant à lui, être de dimension infinie, comme c'est le cas de l'optimisation d'une forme géométrique (de dimension infinie) décrite par des splines (représentés par un nombre fini de paramètres). Les conditions d'optimalité des problèmes d'optimisation de dimension infinie sont considérées ailleurs.

On parle de conditions du premier ordre si ces conditions font intervenir les dérivées premières des objets définissant le problème (il faudra définir ce que l'on entend par la dérivée de l'ensemble admissible du problème), mais pas les dérivées d'ordre supérieur, et de conditions du second ordre si ces conditions font intervenir les dérivées secondes des objets définissant le problème, mais pas les dérivées d'ordre supérieur.

Les conditions d'optimalité d'un problème d'optimisation avec contraintes introduisent des variables cachées, les multiplicateurs ou variables duales, qui n'apparaissent pas dans l'énoncé du problème et qui sont donc difficiles à appréhender (elles appartiennent à un autre espace que celui des variables à optimiser). Elles jouent cependant un rôle crucial dans la compréhension du problème, notamment parce qu'elles s'interprètent comme des coûts marginaux, très utiles en pratique ; il est donc important de s'y familiariser.

Les conditions d'optimalité sont présentées ci-dessous pour des problèmes d'optimisation de généralité (et de difficulté) croissante. Celles énoncées pour un problème d'une certaine généralité peuvent être utilisées pour exprimer les conditions d'optimalité d'un problème qui l'est moins, car celui-ci pourra toujours être vu comme un cas particulier du premier problème. Le lecteur pressé peut donc directement aborder le cas du problème le plus abstrait, mais il lui manquera alors certaines notions coutumièrement utilisées à des niveaux d'abstraction moindres.

Connaissances supposées : le calcul différentiel, l'algèbre linéaire, les bases de l'analyse convexe (en particulier le lemme de Farkas).

Le problème générique

Le problème PX

Soit 𝔼 un espace vectoriel sur de dimension finie, qui désigne l'ensemble auquel appartiennent les paramètres que l'on cherche à optimiser. Étant de dimension finie, il n'y a pas de restriction à supposer que cet espace vectoriel est muni d'un produit scalaire, noté ,, qui en fait un espace euclidien. La norme associée à ce produit scalaire est notée . Le problème d'optimisation considéré s'exprime mathématiquement comme celui qui consiste à minimiser une fonction f:𝔼 sur une partie X de 𝔼. La fonction f a de nombreuses appellations, ce qui permet de varier le vocabulaire : fonction-coût, coût, fonction-objectif, objectif, critère, etc. L'ensemble X est appelé l'ensemble admissible du problème et un point lui appartenant est appelé point admissible. Ce problème, désigné ci-après (PX), s'écrit au choix comme suit :

(PX)infxXf(x)ouinf{f(x):xX}ou{inff(x)xX.

Une solution ou minimum ou minimiseur de ce problème est un point x* de l'espace vectoriel 𝔼 vérifiant deux conditions : il doit être admissible et minimiser le critère sur l'ensemble admissible. Ceci s'écrit

x*Xetf(x*)f(x)pour toutxX.

On adjoint souvent le qualificatif global à cette notion de solution pour la distinguer d'autres notions présentées ci-dessous. Signalons également que l'on remplace parfois ‘‘inf’’ par ‘‘min’’ dans l'écriture du problème d'optimisation (PX) lorsqu'il est certain que ce problème a une solution.

Dans certaines sous-disciplines de l'optimisation, on utilise parfois la locution malheureuse solution optimale qui, avec le sens de solution donné ci-dessus, est un pléonasme (dans cette locution, le mot solution signifie en réalité point admissible, mais il semble préférable de laisser au mot solution son sens habituel de solution d'un problème).

On introduit aussi d'autres notions de solutions. Ainsi on dit que x* est une solution locale ou minimum local ou minimiseur local du problème (PX) s'il existe un voisinage V de x* tel que x* minimise f sur XV. Par ailleurs, on dit que x* est une solution stricte [resp. une solution locale stricte] si x* est admissible et si f(x*)<f(x) (inégalité stricte) pour tout xX différent de x* [resp. pour tout xXV différent de x*V est un voisinage de x*].

Forme géométrique de l'optimalité au premier ordre

Lorsqu'une fonction atteint un minimum en un point, elle varie peu dans le voisinage de ce point. Mathématiquement, cette observation se traduit par le fait que sa dérivée y est nulle. Ceci est une condition d'optimalité du premier ordre bien connue pour un problème sans contrainte (ces conditions sont présentées à la section problèmes sans contrainte ci-dessous). Si l'on veut établir une expression similaire dans le cas des problèmes avec contrainte, il est nécessaire de dire ce qu'est l'approximation au premier ordre de l'ensemble admissible en un point, de linéariser cet ensemble en ce point, comme on peut le faire pour la fonction-coût. Ceci conduit à la notion de cône tangent, développée dans un autre article.

Rappelons quand même ici qu'une partie K de 𝔼 (un espace vectoriel suffit pour cette notion) est un cône si ++KK, ce qui signifie que td doit appartenir à K chaque fois que t est un réel strictement positif (i.e., t>0) et dK. Un cône n'est pas un objet de l'algèbre linéaire, mais de l'analyse convexe. On rencontre donc ici une première manifestation de l'importance de cette dernière théorie en optimisation.

On utilisera ici la notion de cône tangent au sens de Bouligand[1], qui suffit en dimension finie. Précisons que ce cône tangent à X en x, noté TxX ci-dessous, est l'ensemble des directions tangentes à X en x, c'est-à-dire des directions d pour lesquelles il existe des suites {xk}k d'éléments de 𝔼 et {tk}k d'éléments de telles que

{xk}X,tk0etxkxtkd.

La notion de cône tangent permet d'obtenir aisément une condition nécessaire d'optimalité du premier ordre pour le problème générique (PX) — on suppose donc ici que le critère de ce problème est différentiable. Cette condition exprime que la fonction-coût f croît depuis un minimum local x* en suivant une direction tangente, ce qui se traduit mathématiquement par

dTx*X:f(x*)d0.

C'est ce qu'on appelle la forme géométrique de l'optimalité au premier ordre. Ce résultat avait déjà été exprimé par Peano dès 1887[2]Modèle:,[3], puis par Kantorovitch en 1940[4], mais il est passé inaperçu ou a été oublié[5]Modèle:,[6]. On peut en donner une expression plus compacte en introduisant les notions de gradient et de cône dual.

h𝔼:f(x),h=f(x)h.


Ce vecteur

f(x)

est appelé le gradient de

f

en

x

. Il dépend manifestement du produit scalaire de l'espace euclidien

𝔼

.

  • Soit P une partie non vide de l'espace euclidien 𝔼. Le cône dual (positif) de P est l'ensemble défini par
P+:={d𝔼:d,x0 pour tout xP}.


C'est un cône convexe fermé non vide.

Avec ces deux concepts, l'expression géométrique de l'optimalité donnée ci-dessus devient

f(x*)(Tx*X)+.

Cette condition est générique et c'est elle qui sera particularisée ci-dessous à des problèmes dont l'ensemble admissible a une structure plus précise. Le travail sera dans chaque cas celui de trouver une expression plus pratique, plus accessible au calcul, du cône dual du cône tangent, conduisant ainsi à la forme analytique de l'optimalité.

Résumons le résultat obtenu. On utilise l'abréviation CN1 pour désigner une condition nécessaire d'optimalité du premier ordre.

Modèle:AncreModèle:Ancre Modèle:Théorème

On dit que x* est un point stationnaire ou un point critique du problème (PX), si ce point est admissible et s'il vérifie la condition d'optimalité du premier ordre donnée dans le résultat ci-dessus.

Lorsque l'ensemble admissible est convexe, on dispose d'une CN1 ne faisant pas intervenir le cône tangent. On y a noté f(x;d) la dérivée directionnelle de f en x dans la direction d, c'est-à-dire la limite lorsque t0 du quotient différentiel (f(x+td)f(x))/t.

Modèle:Théorème

Enfin, lorsque à la fois l'ensemble admissible est convexe et le critère est convexe sur l'ensemble admissible, la condition précédente est une condition nécessaire et suffisante d'optimalité du premier ordre, une propriété que l'on résume par l'abréviation CNS1. Il n'y a alors plus de distinction entre minimum local et global.

Modèle:Théorème

Pour les problèmes convexes, il n'y a donc pas de distinction entre un minimum local et global : tous les minima locaux sont globaux. C'est une seconde manifestation de l'importance de l'analyse convexe en optimisation.

Problèmes d'optimisation sans contrainte

Le problème que l'on considère dans cette section est celui de minimiser la fonction f sur 𝔼 tout entier, problème que l'on écrit

infx𝔼f(x).

Dès lors, l'ensemble admissible X est l'espace vectoriel 𝔼.

Conditions du premier ordre sans contrainte

Le cône tangent à 𝔼 en x*𝔼 est l'espace 𝔼 tout entier. Comme le dual de 𝔼 est {0}, la CN1 générique exprime que le gradient f(x*) est nul en un minimum local x* de f sur 𝔼. Cette condition d'optimalité est parfois appelée « équation de Fermat » pour rappeler une condition similaire trouvée, dans le cas d'un polynôme réel d'une variable réelle, par Pierre de Fermat vers 1629, c'est-à-dire environ quarante ans avant l'invention du calcul différentiel par Newton et Leibniz[7].

Modèle:Théorème

Lorsque f est convexe, ces conditions deviennent des conditions nécessaires et suffisantes d'optimalité globale de x*.

Modèle:Théorème

Conditions du deuxième ordre sans contrainte

On désigne ci-dessous par f(x) la dérivée seconde de f en x, qui est une application bilinéaire symétrique de 𝔼×𝔼 dans , et par 2f(x) la hessienne de f en x𝔼 pour le produit scalaire , de l'espace euclidien 𝔼, qui est l'unique opérateur linéaire auto-adjoint sur 𝔼 vérifiant

h𝔼:f(x)(h,h)=2f(x)h,h.

Rappelons également les notions de semi-définie positivité et définie positivité d'un opérateur auto-adjoint A sur 𝔼, associées au produit scalaire de 𝔼, qui sont utilisées dans les résultats ci-dessous :

Les résultats suivants résument les conditions nécessaires du second ordre (CN2) et les conditions suffisantes du second ordre (CS2) pour les problèmes d'optimisation sans contrainte.

Modèle:Théorème Modèle:Théorème

On peut se servir de ces conditions du second ordre comme suit. La CN1 de Fermat est un système non linéaire qui a quelques chances d'être bien posé. Par exemple si 𝔼=n est équipé du produit scalaire euclidien, ce système est formé de n équations (les dérivées partielles du critère) à n inconnues. Si on calcule toutes les solutions de l'équation de Fermat (ceci est rarement une tâche aisée), on dispose, par définition, de tous les points stationnaires du critère. Ceux-ci ne sont pas nécessairement des minimiseurs de f. Les conditions du deuxième ordre permettent souvent de sélectionner parmi ces points stationnaires ceux qui sont des minima locaux. En effet, d'après ces conditions

  • si x* est un point stationnaire tel que 2f(x*) n'est pas semi-défini positif, alors x* n'est pas un minimum local (condition nécessaire),
  • si x* est un point stationnaire tel que 2f(x*) est défini positif, alors x* est un minimum local strict (condition suffisante).

On ne recouvre pas ainsi tous les cas, puisque l'on pourrait avoir un point stationnaire x* avec une hessienne 2f(x*) semi-défini positif, mais non défini positif (il a un noyau non trivial, une valeur propre nulle). L'ambiguïté de tels cas peut parfois être levée en examinant des conditions d'ordre plus élevé.

Problèmes d'optimisation avec contraintes d'égalité

Le problème (PE)

L'ensemble admissible du problème d'optimisation considéré dans cette section n'est pas l'espace 𝔼 tout entier, comme pour les problèmes sans contrainte de la section précédente, mais une partie de celui-ci, définie par un nombre fini de contraintes d'égalité :

XE:={x𝔼:c(x)=0}.

Ces contraintes sont spécifiées au moyen d'une fonction

c:𝔼𝔽,

𝔽 est, tout comme 𝔼, un espace euclidien (de dimension finie) dont le produit scalaire est aussi noté ,. Les dimensions des espaces sont notées

n:=dim𝔼etm:=dim𝔽.

Il sera souvent approprié de supposer qu'en la solution x* recherchée, la jacobienne c(x*) de la contrainte vérifie

c(x*) est surjective.

Ceci requiert certainement d'avoir mn, c'est-à-dire d'avoir moins de contraintes que de variables à optimiser. Lorsque cette hypothèse est vérifiée, l'ensemble admissible XE est, dans un voisinage de x*, une variété (concept de base de la géométrie différentielle que l'on peut voir comme une surface ayant des propriétés de représentation particulières) de dimension nm.

Le problème d'optimisation considéré dans cette section s'écrit donc

(PE){inff(x)c(x)=0,

f:𝔼 en est le critère.

Modèle:Théorème

L'ensemble admissible XE d'un problème (PE) convexe est donc un sous-espace affine de 𝔼, donc un convexe.

Conditions du premier ordre avec contraintes d'égalité

Comme le montre le cas générique, les conditions nécessaires d'optimalité du premier ordre peuvent s'obtenir en trouvant une représentation convenable du cône tangent à l'ensemble admissible XE et en prenant ensuite son cône dual.

On note 𝒩(A) le noyau et (A) l'image d'une application linéaire A:𝔼𝔽 entre deux espaces euclidiens 𝔼 et 𝔽. L'adjointe de A est l'application linéaire A*:𝔽𝔼 définie par la relation Au,v=u,A*v, pour tout u𝔼 et tout v𝔽. On rappelle qu'en dimension finie, on a

𝒩(A)=(A*).

Cette identité joue un rôle-clé dans le passage de la forme géométrique (utilisant la partie gauche de l'identité) à la forme analytique (utilisant sa partie droite) des conditions d'optimalité du premier ordre.

Le cône tangent à XE

Le résultat suivant montre que le cône tangent est inclus dans un sous-espace vectoriel ; il lui sera égal dans les bons cas.

Modèle:Théorème

Dans l'inclusion TxXE𝒩(c(x)), le cône tangent TxXE ne dépend que de l'ensemble admissible XE, alors que 𝒩(c(x)) dépend de la fonction c utilisée pour définir XE. Il peut y avoir plusieurs fonctions c définissant le même ensemble XE. Du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité TxXE=𝒩(c(x)) a lieu. On dit alors que la contrainte c (léger abus de langage, il faudrait dire la fonction c utilisée pour définir XE) est qualifiée en x (sous-entendu «pour représenter XE»).

Modèle:Théorème

Voici le résultat principal assurant que la contrainte c est qualifiée en un point. On y retrouve la condition mentionnée ci-dessus assurant que XE est une variété dans le voisinage x.

Modèle:Théorème

Voici une conséquence pratique de la notion de qualification de contrainte. Au lieu d'utiliser la fonction c pour représenter l'ensemble admissible XE, on pourrait utiliser la fonction c~:𝔼, définie par c~(x)=c(x)2/2, puisque c~(x)=0 si, et seulement si, c(x)=0. Ceci paraît attrayant puisque l'on a ainsi remplacé toutes les contraintes d'égalité, en nombre potentiellement grand, par une seule contrainte. Cependant, la contrainte c~ a encore moins de chance d'être qualifiée que c puisque c~(x)=c(x)*c(x)=0 en un point xXE et donc 𝒩(c~(x))=𝔼, qui est le plus souvent trop grand. Il n'est donc, en général, pas recommandé de remplacer c par c~.

Condition de Lagrange

Lorsque la contrainte est qualifiée, le cône tangent est le sous-espace vectoriel 𝒩(c(x)), dont le dual est alors son orthogonal 𝒩(c(x))=(c(x)*). Par la CN1 générique, le gradient de f en un minimum local de f sur XE appartient à ce dernier ensemble, ce qui conduit aux conditions nécessaires d'optimalité du premier ordre (CN1) de Lagrange[8].

Modèle:Théorème

Ce résultat, parfois appelé méthode du multiplicateur de Lagrange, est attribué à Lagrange qui l'énonça dans sa Méchanique analytique (1788). On en trouve toutefois déjà des traces dans des travaux d'Euler sur les problèmes isopérimétriques (1744). Lagrange utilisa d'abord cette méthode pour résoudre un problème de calcul des variations sous contraintes et plus tard, dans sa Théorie des fonctions analytiques (1797), il l'applique aux problèmes de la forme (PE). [9]Modèle:,[10]

En l'absence de qualification de la contrainte, l'existence du multiplicateur n'est plus assurée, si bien que la condition nécessaire d'optimalité de Lagrange peut ne pas avoir lieu. Un exemple est donné dans la section suivante.

En pratique, il est souvent commode de retrouver la condition de Lagrange en introduisant le lagrangien du problème.

Modèle:Théorème

La variable x est aussi appelée variable primale ; quant au couple (x,λ), on lui donne parfois le nom de variable(s) primale(s)-duale(s).

Le lagrangien joue un rôle essentiel en optimisation avec contraintes. Le multiplicateur porte ce nom car il multiplie les contraintes dans le lagrangien, par l'intermédiaire du produit scalaire de 𝔽. Sous les hypothèses du résultat ci-dessus, les conditions nécessaires d'optimalité du premier ordre peuvent maintenant s'écrire comme suit

{x(x*,λ*)=0c(x*)=0ou(x,λ)(x*,λ*)=0.

On note ici x [resp. (x,λ)] le gradient par rapport à x [resp. à (x,λ)]. Ce système (non linéaire, en toute généralité) permet souvent de calculer une solution du problème d'optimisation (PE). En réalité, cette solution est ce qu'on appelle un point stationnaire. Ce n'est pas nécessairement un minimum local du problème (ce point peut être un maximum local, qui n'est a priori pas le type de solution recherché), sauf si celui-ci est convexe.

Modèle:Théorème

Pour les problèmes non convexes, ce sont les conditions du second ordre qui permettrons de sélectionner les minima locaux parmi les points stationnaires calculés.

Minimisation d'une fonction de n variables soumise à m contraintes

Il est utile de spécifier les conditions d'optimalité de Lagrange lorsque 𝔼=n, 𝔽=m et que l'on munit ces espaces du produit scalaire euclidien

u,v=uv=iuivi.

Il y a alors n variables x1,,xn à optimiser et les m contraintes du problème (PE) sont données explicitement au moyen de m fonctions ci:n :

c1(x1,,xn)=0,,cm(x1,,xn)=0.

Le lagrangien du problème s'écrit

(x,λ)=f(x)+λc(x)=f(x)+i=1mλici(x).

Observons que le multiplicateur de Lagrange λm a autant de composantes qu'il y a de contraintes ; chacune des composantes λi étant associée à une contrainte ci ; on dit d'ailleurs que le multiplicateur λi est associé à la contrainte ci. Si on utilise pour désigner le gradient d'une fonction réelle de n variables par rapport au produit scalaire euclidien, c'est-à-dire le vecteur de ses dérivées partielles, les conditions d'optimalité s'écrivent sous la forme d'un système de n+m équations à n+m inconnues (x*,λ*) :

f(x*)+i=1m(λ*)ici(x*)=0netc(x*)=0m.

On voit donc qu'en la solution le gradient du critère est combinaison linéaire des gradients des contraintes (on se rappelle qu'en optimisation sans contrainte le gradient du critère est nul).

Voici un exemple de problème avec 2 variables et 2 contraintes, avec solution, mais sans multiplicateur optimal et donc sans condition de Lagrange (c'est l'absence de qualification des contraintes qui produit cet effet) :

f(x)=x1+x2,c1(x)=12(x12+(x21)21)etc2(x)=12(x12+(x2+1)21).

L'unique point admissible est le point x*=(0,0), qui est donc l'unique solution du problème. Cependant les contraintes ne sont pas qualifiées en ce point car le cône tangent est réduit à {(0,0)} alors que le noyau de la jacobienne des contraintes est {d2:d2=0} (on note par ailleurs que cette jacobienne, qui est une matrice 2×2 ne saurait alors être surjective). Dans cet exemple, les conditions de Lagrange ne sont pas vérifiées (il n'y a pas de multiplicateur optimal), puisque le gradient de f en la solution ne peut être combinaison linéaire des gradients des contraintes (ces derniers sont linéairement dépendants) :

f(x*)=(11),c1(x*)=(01)etc2(x*)=(01).

Conditions du deuxième ordre avec contraintes d'égalité

Comme en optimisation sans contrainte, les conditions d'optimalité du second ordre permettent de sélectionner les éventuelles solutions parmi les points stationnaires (i.e., les points vérifiant la condition de Lagrange). Ces conditions du second ordre des problèmes avec contraintes d'égalité diffèrent de celles des problèmes sans contrainte sur deux points :

  • ce n'est pas la hessienne du critère qui intervient dans ces conditions, mais la hessienne du lagrangien,
  • la hessienne du lagrangien n'est pas semi-définie positive sur l'espace 𝔼 des variables primales tout entier, mais sur le cône tangent.

D'où proviennent ces différences ?

En optimisation sans contrainte, les conditions nécessaires du second ordre résultent du fait que dans le voisinage d'une solution, le critère prend une valeur supérieure à celle qu'il prend en la solution. Un développement de Taylor du critère autour d'une solution et l'utilisation du fait que son gradient est nul en la solution impliquent alors immédiatement que la hessienne du critère doit être semi-définie positive en la solution. Dans le cas des problèmes avec contraintes d'égalité, utiliser la même démarche ne conduirait nulle part, car le gradient du critère n'est pas nécessairement nul en une solution (selon la condition de Lagrange, il est dans l'image de l'adjointe de la jacobienne de la contrainte). En réalité, c'est le gradient du lagrangien qui s'annule en une solution. C'est donc un développement de Taylor de cette fonction qui pourra apporter de l'information sur sa hessienne. Ceci explique le premier point ci-dessus. Par ailleurs, il est clair que sur l'ensemble admissible le lagrangien prend les mêmes valeurs que le critère, si bien qu'il prend aussi des valeurs supérieures à celle qu'il a en une solution. C'est la relation de monotonie recherchée qui conduira à la semi-définie positivité de la hessienne du lagrangien. Cependant, ce n'est que sur la variété des contraintes que cette relation de monotonie a lieu, si bien que la semi-définie positivité de la hessienne du lagrangien ne sera vérifiée que sur la variété linéarisée qu'est le cône tangent. Ceci explique le second point ci-dessus.

On devrait à présent mieux comprendre les conditions nécessaires du second ordre (CN2) pour un problème avec contraintes d'égalité, que voici.

Modèle:Théorème

Ce résultat donne-t-il suffisamment de conditions ou aurait-on pu en obtenir d'autres ? Ce sont les bonnes conditions car, comme en optimisation sans contrainte, si l'on remplace la semi-définie positivité par la définie positivité, on obtient des conditions suffisantes d'optimalité du second ordre (abrégées par CS2).

Modèle:Théorème

On notera que les CS2 ne requièrent pas d'hypothèse de qualification de contrainte.

Vérifier la (semi-)définie positivité de la hessienne du lagrangien L*:=xx2(x*,λ*) dans le noyau de c(x*) ne pose pas de difficulté, pourvu que l'on puisse calculer une base de ce noyau. On peut en effet voir ce noyau comme l'image d'une application linéaire injective B:p𝔼 tel que c(x*)B=0, avec p=ndim(c(x*)). Il suffit alors de vérifier la (semi-)définie positivité de B*L*B, ce qui peut se faire en temps polynomial par des techniques d'algèbre linéaire.

Interprétation marginaliste des multiplicateurs de Lagrange

Exemple : vecteurs propres et quotient de Rayleigh

Soit 𝔼 un espace euclidien muni d'un produit scalaire noté , ; on note la norme associée. On s'intéresse aux vecteurs propres d'une application linéaire A:𝔼𝔼 auto-adjointe. Par exemple, on pourrait avoir 𝔼=n, muni du produit scalaire euclidien, et A une matrice symétrique.

Le problème d'optimisation

Dans ce but, on considère le quotient de Rayleigh qr:𝔼, défini en x𝔼{0} par

qr(x):=Ax,xx2.

Comme qr est constant le long des rayons issus de zéro, il revient au même de minimiser la fonction quadratique q:𝔼 définie en x𝔼 par

q(x):=12Ax,x,

sur la sphère unité S:={x𝔼:x=1}. On considère donc le problème d'optimisation avec une unique contrainte d'égalité suivant

infx=1q(x).

Ce problème a toujours une solution (le critère est continu et, comme 𝔼 est de dimension finie, S est compact). Calculons les points stationnaires du problème d'optimisation.

Conditions d'optimalité du premier ordre

La fonction xx1 est non différentiable en zéro, mais cela n'a pas trop d'importance, car la solution est de norme un. On préfère toutefois définir l'ensemble admissible au moyen de la contrainte xc(x):=(1x2)/2, qui se dérive plus facilement. Cette contrainte est qualifiée en tout point admissible, car sa jacobienne hx,h est surjective si x0. Pour calculer la solution du problème d'optimisation, on introduit son lagrangien, qui prend en (x,λ)𝔼× la valeur

(x,λ)=12Ax,x+λ2(1x2).

Comme il y a une seule contrainte, il y a un seul multiplicateur λ.

Les conditions d'optimalité de Lagrange s'écrivent

{Ax=λxx=1.

Dès lors, x¯ est un point stationnaire de multiplicateur λ¯ si, et seulement si, x¯ est un vecteur propre unitaire de A, de valeur propre λ¯. Ce multiplicateur est aussi la valeur du critère en x¯, puisque q(x¯)=Ax¯,x¯=λ¯x¯2=λ¯. Dès lors, une solution du problème d'optimisation est un vecteur propre unitaire de valeur propre minimale. Si au lieu de minimiser Ax,x, on minimisait Ax,x ou on maximisait Ax,x, une solution du problème d'optimisation serait un vecteur propre unitaire de valeur propre maximale.

Conditions d'optimalité du deuxième ordre

La hessienne du lagrangien en une solution primale-duale (x¯,λ¯) du problème d'optimisation est l'opérateur auto-adjoint (Aλ¯I) sur 𝔼. Comme λ¯ est la valeur minimale de q sur la sphère unité, on a Ax,xλ¯ pour tout vecteur unitaire x. On peut en déduire que (Aλ¯I)x,x0 pour tout vecteur x𝔼, ce qui signifie que la hessienne du lagrangien AλI est semi-définie positive dans tout l'espace 𝔼, pas seulement dans l'espace tangent à la contrainte comme l'assurent les CN2. C'est le caractère quadratique du critère et des contraintes qui permet d'avoir cette propriété.

Si un couple (x¯,λ¯) vérifie les CS2, alors x¯ est un vecteur propre de A de valeur propre λ¯ ; de plus Ax,x>Ax¯,x¯=λ¯, pour tout vecteur unitaire x, voisin mais différent de x¯. On en déduit aisément que Ax,x>λ¯ pour tout x unitaire différent de ±x¯ (on peut par exemple prendre t]0,1] assez petit pour que xt/xt, avec xt:=(1t)x¯+tx, soit voisin mais différent de x¯ et développer la relation Axt,xt>λ¯xt2 qui en résulte). On en déduit que λ¯ est la valeur propre minimale et est simple (i.e., l'espace propre associé est de dimension 1). La réciproque est également vraie : si la plus petite valeur propre de A est simple, les CS2 sont vérifiées.

Résultats obtenus

Modèle:Théorème

Problèmes d'optimisation avec contraintes d'égalité et d'inégalité

Le problème (PEI)

Dans cette section, on considère le problème d'optimisation avec contraintes d'égalité et d'inégalité, que l'on écrit sous la forme suivante

(PEI){inff(x)ci(x)=0,iEci(x)0,iI.

Cette écriture exprime le fait que l'on cherche à minimiser un critère f:𝔼 défini sur un espace euclidien 𝔼 dont l'argument x, qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter un nombre fini de contraintes spécifiées par des fonctions ci:𝔼. Le produit scalaire de l'espace euclidien est noté ,. On y trouve des contraintes d'égalité et d'inégalité en nombre fini, repérées par des ensembles finis d'indices E et I, dont le cardinal est noté

mE:=|E|etmI:=|I|.

Le nombre total de contraintes est noté m:=mE+mI.

Il est commode de supposer que les ensembles d'indices E et I forment une partition de l'ensemble des m premiers entiers {1,,m} :

EI={1,,m}etEI=.

Si vm, on note vE le vecteur de mE formé des composantes vi de v avec iE. De même pour vI. On peut alors rassembler les fonctions réelles ci en une seule fonction c:𝔼m, dont les composantes cE et cI sont utilisées pour définir les contraintes d'égalité et d'inégalité.

L'ensemble admissible de (PEI) est noté

XEI:={x𝔼:cE(x)=0,cI(x)0}.

Ici et ci-dessous, les inégalités vectorielles doivent être comprises composante par composante : pour un vecteur v, v0 signifie que vi0 pour tout indice i. Si en un point admissible x, c(x) est surjective, cet ensemble se présente autour de x comme une partie de la variété {z𝔼:cE(z)=0} formée des points qui vérifient aussi l'inégalité cI(z)0.

Modèle:Ancre Modèle:Théorème

L'ensemble admissible XEI d'un problème (PEI) convexe est clairement convexe.

Comme la CN1 générique l'a montré, l'écriture des conditions d'optimalité du premier ordre passe par la détermination du cône tangent à l'ensemble admissible. Ce cône tangent en x est un concept local, dans le sens où une modification de l'ensemble admissible en dehors d'un voisinage de x n'aura pas d'incidence sur le cône tangent en ce point. Dès lors si une contrainte d'inégalité prend une valeur strictement négative en x, disons ci(x)<0, une perturbation de cette contrainte ne modifiera pas l'ensemble admissible dans le voisinage de x. Il est donc nécessaire de pouvoir nommer les contraintes d'inégalité qui sont nulles au point considéré, ce qui conduit à la notion suivante.

Modèle:Théorème

Les problèmes d'optimisation avec contraintes d'inégalité sont considérablement plus difficiles à analyser et à résoudre numériquement (un calcul analytique, sur papier, est rarement possible et d'ailleurs souvent difficile lui aussi) que les problèmes rencontrés jusqu'ici. Lorsqu'il n'y a que des contraintes d'égalité, la compréhension du problème repose sur l'analyse mathématique classique, en particulier sur le théorème des fonctions implicites, ce qui explique que les conditions de Lagrange sont en général vues dans un cours de calcul différentiel et font ainsi partie du bagage de beaucoup de mathématiciens ou d'autres scientifiques. La situation est différente lorsque des contraintes d'inégalité sont présentes, car il faut alors faire appel à des outils spécifiques, essentiellement ceux de l'analyse convexe, moins souvent enseignés. Par ailleurs, numériquement, la difficulté principale provient du fait que, d'une manière ou d'une autre, le calcul de la solution détermine forcément les contraintes qui sont actives en cette solution. Si ces contraintes actives étaient connues, on pourrait se ramener au cas des problèmes avec seulement des contraintes d'égalité lisses. Or il y a 2mI manières de rendre les mI contraintes d'inégalité actives. C'est à ce nombre exponentiel que l'on fait allusion lorsque l'on parle de la combinatoire des problèmes d'optimisation avec contraintes d'inégalité. Celle-ci est redoutable et en rapport direct avec la conjecture P = NP, puisqu'un problème d'optimisation quadratique non convexe (i.e., un problème avec un critère quadratique non convexe et des contraintes affines) est NP ardu. On est donc en présence d'un problème pour lequel il est vraisemblable que le principe de conservation des ennuis s'applique ; on veut dire par là que la difficulté du problème ne peut être éliminée en lui trouvant une autre formulation équivalente. Ainsi, on pourrait penser simplifier le problème en reformulant les contraintes d'inégalité par l'une des contraintes d'égalité apparemment plus simples et équivalentes suivantes

max(0,cI(x))=0oumax(0,cI(x))2=0.

Cependant la première contrainte est non lisse et la seconde, bien qu'une fois différentiable, n'est en général pas qualifiée dans le sens discuté ci-dessous.

Conditions du premier ordre pour (PEI)

Si les conditions nécessaires d'optimalité des problèmes avec contraintes d'égalité ont été établies au Modèle:XVIIIe siècle, celles des problèmes avec contraintes d'inégalité sont beaucoup plus récentes, puisqu'elles datent du milieu du Modèle:XXe siècle. Il est vraisemblable que le besoin d'une analyse fine de ces questions ait été stimulé par l'augmentation des moyens de calcul. Le développement de l'analyse convexe a aussi permis de poser la théorie sur des bases solides, notamment avec le lemme de Farkas[11] qui sera ci-dessous une des clés permettant de passer de la version géométrique à la version analytique des conditions d'optimalité du premier ordre.

Le cône tangent à XEI

Le résultat suivant permet d'affirmer que le cône tangent est inclus dans le cône linéarisant, noté T'xXEI et défini ci-dessous ; il lui sera égal dans les bons cas.

Modèle:Théorème

Observons que, comme annoncé, seules les contraintes d'inégalité actives interviennent dans l'estimation du cône tangent qu'est le cône linéarisant. On retrouverait le noyau de la jacobienne des contraintes s'il n'y avait que des contraintes d'égalité.

On peut faire, sur l'inclusion précédente, les mêmes remarques que celles sur l'estimation du cône tangent à des contraintes d'égalité par le noyau de la jacobienne de ces contraintes : TxXEI ne dépend que de l'ensemble admissible XEI, pas de la manière de le décrire par la fonction c, alors que T'xXEI dépend manifestement de c. Il peut y avoir plusieurs fonctions c définissant le même ensemble admissible et, du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité TxXEI=T'xXEI a lieu ; d'ailleurs le premier cône est difficile à calculer s'il n'est égal au second, alors que l'on dispose d'une formule explicite pour le second. On introduit donc la notion de qualification de (fonctions définissant les) contraintes suivante.

Modèle:Théorème

En général, le cône tangent et le cône linéarisant diffèrent, car le premier n'est pas nécessairement convexe, alors que le second l'est (c'est un cône polyédrique convexe). Par ailleurs, la notion de qualification des contraintes a un aspect global, dans le sens où elle porte sur toutes les fonctions définissant le problème d'optimisation ; il n'est pas question d'utiliser cette notion fonction par fonction parce que le cône tangent à une intersection d'ensembles n'est pas égal à l'intersection des cônes tangents à ces ensembles (voir l'article sur le cône tangent).

Comme pour les problèmes avec contraintes d'égalité, il n'est presque jamais judicieux de remplacer les contraintes de (PEI) par l'unique contrainte d'égalité équivalente c~(x)=0, où c~:𝔼 est définie par

c~(x)=12cE(x)22+12cI(x)+22,

même si le fait de n'avoir qu'une seule contrainte est a priori attrayant. Cette dernière contrainte a, en effet, l'inconvénient de n'être pratiquement jamais qualifiée, puisque c~(x)=c'E(x)*cE(x)+cI(x)*cI(x)+ est nul en tout point admissible. Dès lors, pour cette contrainte, T'xXEI=𝔼, qui est pratiquement toujours trop grand, plus grand que TxXEI.

Vérifier si les contraintes sont qualifiées est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône linéarisant. On connaît un certain nombre de conditions suffisantes de qualification de contraintes, qui sont plus subtiles que lorsque seules des contraintes d'égalité sont présentes. Elles sont présentées dans l'article Qualification de contraintes.

Conditions de Karush, Kuhn et Tucker (KKT)

Modèle:Voir homonymes

On suppose dans cette section que les contraintes du problème (PEI) sont qualifiés, au sens précisé dans la section précédente. Si l'on veut trouver une expression plus explicite de la condition nécessaire d'optimalité du première ordre en x, à savoir f(x)(TxXEI)+, il faut calculer le cône dual du cône tangent, que l'on suppose donc égal au cône dual du cône linéarisant (T'xXEI)+. Il s'agit donc de calculer le dual d'un cône convexe polyédrique. Le lemme de Farkas fournit une réponse à cette question. Une version légèrement généralisée est donnée ci-dessous.

Modèle:Théorème

On ne peut pas se passer de l'adhérence dans le membre de droite de l'identité car le cône A(K) n'est pas nécessairement fermé (même si K est fermé) alors que, en tant que cône dual, le cône du membre de gauche est toujours fermé. Signalons que si K est un cône convexe polyédrique (comme l'orthant positif d'un certain p), alors A(K) est un polyèdre convexe, donc un fermé ; dans ce cas, on peut ôter l'adhérence dans le membre de droite.

Simplifions les notations en posant J:=I0(x), AE:=c'E(x) et AJ:=c'J(x). On peut établir une expression duale du cône

(T'xXEI)+:={d𝔼:AEd=0,AJd0}+,

en utilisant le lemme de Farkas généralisé avec

  • 𝔼=mE×mJ muni du produit scalaire euclidien,
  • 𝔽=n muni du produit scalaire euclidien,
  • A=(AEAJ):(λE,λJ)𝔼AEλE+AJλJ𝔽,
  • K=mE×mJ.

On a noté mJ:={λJmJ:λJ0}. On vérifie facilement que

K+={0}×mJetA*=(AEAJ).

Par le lemme de Farkas, on trouve alors la représentation duale du cône linéarisant suivante (il n'est pas nécessaire de prendre l'adhérence de l'ensemble obtenu, car il est fermé par sa polyédricité)

(T'xXEI)+={AEμE+AJμJ:μEmE,μJmJ}.

On en déduit les conditions nécessaires d'optimalité du premier ordre suivantes, dites de Karush, Kuhn et Tucker (KKT). Elles sont fondamentales.

Modèle:Ancre Modèle:Théorème

Un point x* vérifiant les conditions (KKT) ci-dessus est dit stationnaire pour le problème (PEI).

Les conditions nécessaires d’optimalité ci-dessus ont longtemps été attribuées à Kuhn et Tucker (1951[12]). Après bien des années, on constata que ces conditions avaient déjà été données par Karush (1939[13]) dans une thèse qui ne fut jamais publiée, mais qui est décrite dans le compte rendu historique de Kuhn[14]. Une approche différente conduisant au même résultat a été suivie par John (1948[15]), également avant les travaux de Kuhn et Tucker.

Avant de discuter le système (KKT), introduisons le lagrangien du problème, qui a la même forme que pour les problèmes d'optimisation avec contraintes d'égalité.

Modèle:Ancre Modèle:Théorème

La variable x est aussi appelée variable primale ; quant au couple (x,λ), on lui donne parfois le nom de variable(s) primale(s)-duale(s).

Voici quelques commentaires sur les conditions de Karush, Kuhn et Tucker.

  • On reconnaît dans (KKT)-(a) la nullité du gradient du lagrangien par rapport à la variable primale, x(x*,λ*)=0, équation qui était déjà présente pour les problèmes d'optimisation avec contraintes d'égalite et que l'on peut aussi écrire
    f(x*)+i=1m(λ*)ici(x*)=0,
    où les gradients sont pris par rapport au produit scalaire équipant 𝔼. Si l'espace euclidien 𝔼 est n muni du produit scalaire euclidien, ces gradients sont les vecteurs des dérivées partielles par rapport aux n variables x1,,xn.
  • Les conditions (KKT)-(b) et (KKT)-(c) certifient l'admissibilité de la solution.
  • Les deux dernières conditions sont attachées aux contraintes d'inégalité. La première, (KKT)-(d), assure que les multiplicateurs optimaux associés aux contraintes d'inégalité sont positifs. Ce signe serait chaque fois changé si au lieu d'avoir un problème de minimisation on avait un problème de maximisation, ou si on avait écrit les contraintes sous la forme cI(x)0 au lieu de cI(x)0, ou encore si on avait utilisé le signe au lieu du signe + dans la définition du lagrangien.
  • La dernière condition, (KKT)-(e), est connue sous le nom de condition de complémentarité. Du fait du signe de (λ*)I et de cI(x*), elle est équivalente à
    iI:(λ*)ici(x*)=0,
    si bien que soit (λ*)i=0 soit ci(x*)=0, lorsque iI. C'est de cette alternative que provient le nom de complémentarité. Cette condition s'écrit aussi
    iI:ci(x*)<0(λ*)i=0.
    Autrement dit, les multiplicateurs associés aux contraintes d'inégalité inactives sont nuls. Pour certains problèmes, l'implication ci-dessus est remplacée par une équivalence :
    iI:ci(x*)<0(λ*)i=0.
    On dit alors que l'on a complémentarité stricte.
  • Les conditions (KKT)-(cde) peuvent être rassemblées sous l'une des formes compactes suivantes (il y en a d'autres)
    0(λ*)I(cI(x))0oumin((λ*)I,(cI(x*)))=0,
    qui exprime la positivité de (λ*)I, celle de cI(x*) et l'orthogonalité de ces deux vecteurs pour le produit scalaire euclidien. Les systèmes de ce type, appelés problèmes de complémentarité, ont fait l'objet d'études systématiques, conduisant à une discipline à part entière. Celle-ci englobe donc l'optimisation et se généralise à ce que l'on appelle les problèmes d'inéquations variationnelles.

Les conditions de KKT sont compliquées et difficiles à résoudre numériquement (elles ne le sont analytiquement que pour de rares problèmes à la structure particulière ; des exemples sont donnés ci-dessous). Il n'y a cependant ni trop ni trop peu de conditions, comme le montre la démonstration de la propriété suivante, stipulant que, si le problème est convexe, ces conditions sont suffisantes pour impliquer l'optimalité globale.

Modèle:Théorème

Ensemble des multiplicateurs optimaux

Soit λ*m un multiplicateur optimal (ou solution duale) associé à une solution x*𝔼 du problème (PEI). Il sera utile d'introduire les ensembles d'indices suivants :

I*0+:={iI*0:(λ*)i>0}etI*00:={iI*0:(λ*)i=0}.

Ce sont donc des ensembles d'indices qui dépendent à la fois de x* et λ*. Les contraintes d'indices iI*0+ sont dites fortement actives et celles d'indices iI*00 sont dites faiblement actives. Ces dernières, bien qu'actives (ci(x*)=0), peuvent être ôtées du problème sans modifier la stationnarité de x* ((λ*)i=0).

Il peut y avoir plus d'une solution duale λ* associée à une solution primale x*. L'ensemble des multiplicateurs associés à x* est noté

Λ*:=Λ(x*):={λ*m:(x*,λ*)est solution primale-duale de(PEI)}.

La solution x* étant fixée, les conditions d'optimalité de KKT montrent que Λ* est un polyèdre convexe de m :

Λ*={λm:f(x*)+c(x*)*λ=0,λI*00,λII*0=0}.

En particulier, Λ* est fermé. Il est non vide si les contraintes sont qualifiées en x* (théorème d'optimalité de KKT). Par ailleurs, λ*Λ* est un sommet de Λ* si c'EI*0+(x*) est surjective. En particulier, Λ* n'a pas de sommet si c'E(x*) n'est pas surjective.

Cet ensemble Λ* est clairement réduit à un seul multiplicateur si les conditions de qualification (QC-IL) (indépendance linéaire des gradients des contraintes actives) sont vérifiées en x*. Mais, l'unicité du multiplicateur optimal a lieu, en fait, sous une condition plus faible que (QC-IL), mais plus forte que la qualification de Mangasarian-Fromovitz (QC-MF), celle que donne le résultat suivant[16]. Cette condition est aussi nécessaire et suffisante et est parfois appelée la condition de qualification de Mangasarian-Fromovitz stricte (QC-MFS).

Modèle:Théorème

Mais en toute généralité, Λ* peut ne pas être réduit à un point. En ce qui concerne le caractère borné de Λ*, on a le résultat suivant[17].

Modèle:Théorème

Résolution analytique des conditions d'optimalité

Les conditions d'optimalité de Karush, Kuhn et Tucker permettent d'affirmer que, sous certaines conditions, en particulier de qualification des contraintes, une solution locale de (PEI) est un point stationnaire de ce problème, ce qui veut dire qu'elle vérifie l'ensemble des relations désignées par (KKT) ci-dessus. Pour calculer les solutions de (PEI), on pourra donc, dans un premier temps, calculer les solutions du système d'optimalité (KKT). Toutefois, ce calcul est beaucoup plus difficile que lorsqu'il n'y a que des contraintes d'égalité. La difficulté vient de la présence d'inégalités et, en particulier, des conditions de complémentarité. On y retrouvera la combinatoire des problèmes d'optimisation avec contraintes d'inégalité, confirmant ainsi le principe de conservation des ennuis déjà évoqué.

En général, il faut utiliser des algorithmes spécifiques pour résoudre ce système d'optimalité (c'est ce à quoi est consacré une grande partie de l'optimisation numérique). Dans certains cas, cependant, en particulier pour des problèmes de petite taille ayant peu de contraintes d'inégalité ou des problèmes très structurés, on peut chercher les solutions de ce système (KKT) analytiquement en considérant l'une après l'autre toutes les manières de satisfaire les contraintes d'inégalité. Dans chaque cas considéré, on suppose qu'un certain nombre de contraintes d'inégalité sont actives et que les autres ne le sont pas. Soit JI, l'ensemble des indices des contraintes d'inégalité supposées actives en la solution : cEJ(x*)=0 et cJc(x*)<0 (on a noté Jc le complémentaire de J dans I). Du fait de la complémentarité, (λ*)Jc=0 et on est donc conduit à chercher les solutions du système de n+|EJ| équations à n+|EJ| inconnues suivant

{f(x*)+c'EJ(x*)*(λ*)EJ=0cEJ(x*)=0.

Si une solution (x*,(λ*)EJ) de ce système vérifie cJc(x*)0 et (λ*)J0, le couple (x*,((λ*)EJ,0Jc)) est une solution de (KKT). Sinon cette solution doit être écartée. En examinant ainsi tous les ensembles JI possibles, on peut trouver tous les points stationnaires du problème.

La méthode présentée ci-dessus est fastidieuse et, répétons-le, n'est utilisée que dans de rares cas. On notera en effet qu'avec mI contraintes d'inégalité, il y a 2mI cas à examiner, et donc 2mI systèmes non linéaires à résoudre, ce qui peut vite devenir fastidieux. C'est ici que l'on retrouve la combinatoire des problèmes d'optimisation. Le but des algorithmes d'optimisation pour problèmes avec contraintes d'inégalité est précisément de trouver des solutions du système d'optimalité (KKT), en gérant de manière efficace cette combinatoire, c'est-à-dire en évitant d'explorer toutes les possibilités. L'algorithme du simplexe en a été un des premiers exemples.

Comme pour les problèmes d'optimisation avec contraintes d'égalité, tous les points stationnaires (les solutions de (KKT)) ne sont pas solutions de (PEI). Pour déterminer si un point stationnaire est solution de (PEI), on pourra utiliser les conditions d'optimalité du second ordre décrites ci-dessous, de la manière suivante :

  • si les CN2 ne sont pas vérifiées au point stationnaire, alors celui-ci n'est pas une solution locale de (PEI) ;
  • si les CS2 sont vérifiées au point stationnaire, alors celui-ci est un minimum local strict de (PEI).

Ces deux cas recouvrent un grand nombre de situations, mais pas toutes, car les CN2 et les CS2 ne sont pas identiques. Le cas est indéterminé lorsqu'un point stationnaire vérifie les CN2, mais pas les CS2. Alors les résultats donnés dans cet article ne sont pas suffisants et il faut recourir à des conditions d'optimalité d'ordre supérieur pour pouvoir dire si le point stationnaire est solution de (PEI).

Conditions du deuxième ordre pour (PEI)

Les conditions d'optimalité du second ordre en présence de contraintes d'inégalité ne s'obtiennent ni ne s'écrivent aussi aisément que lorsqu'il n'y a que des contraintes d'égalité. D'abord, ce n'est pas le cône tangent qui intervient comme pour les problèmes avec contraintes d'égalité, mais un cône plus petit que l'on appelle le cône critique. Par ailleurs, le multiplicateur optimal qui intervient dans la hessienne du lagrangien doit être déterminé en fonction de la direction choisie dans le cône critique.

Le cône critique

Il est tentant d'essayer de généraliser les conditions nécessaires du second ordre du problème (PE) au problème (PEI), en cherchant à montrer qu'en une solution primale-duale (x*,λ*), on doit avoir L*d,d positif pour toute direction tangente dTx*XEI. Comme précédemment, on a noté L*:=xx2(x*,λ*) la hessienne du lagrangien en (x*,λ*). Ce résultat n'est pas correct, car le cône tangent Tx*XEI n'est pas celui qui convient, comme le montre le problème suivant

min{1/(x+1):x+}.

Ce problème a pour unique solution primale-duale (x*,λ*)=(0,1) et le cône tangent en la solution s'écrit Tx*XEI=+ si bien que l'on peut prendre d=1 comme direction tangente, mais L*d,d=2 n'est pas positif. On pourra voir que L*d,d est positif, mais pour des directions d dans un cône plus petit que le cône tangent.

À la recherche d'un cône plus petit, on peut observer que, comme toute solution x* du problème (PEI) minimise aussi f sur

XEI=:={x𝔼:cEI*0(x)=0},

les conditions du second ordre des problèmes avec contraintes d'égalité donnent que L*d,d est positif pour toute direction dTx*XEI= et toute solution duale λ*Λ* (celles-ci sont aussi solutions duales du problème minimisant f sur XEI=). Il faut voir cependant que le cône Tx*XEI= est trop petit, dans le sens où il ne permet pas d'établir des conditions suffisantes d'optimalité du second ordre. Considérons en effet le problème

min{x2:x+}.

Si x*=0, XEI=={0}, si bien que Tx*XEI=={0} et la hessienne du lagrangien L*=2 est bien définie positive sur Tx*XEI={0}=, mais x* n'est pas un minimum local du problème.

Le bon cône s'avérera être le cône linéarisant T'x*XEI,f de l'ensemble

XEI,f:={xXEI:f(x)f(x*)},

sur lequel f est également minimisée en une solution x* du problème (PEI). Ce cône est plus petit que le cône tangent à l'ensemble admissible en x*, mais suffisamment grand pour permettre d'avoir des conditions suffisantes d'optimalité du second ordre. On l'appelle le cône critique du problème.

Modèle:Théorème

Dans le premier exemple ci-dessus, C*={0} est plus petit que le cône tangent Tx*XEI=+. Dans le second exemple ci-dessus, C*=+ est plus grand que le cône tangent Tx*XEI=={0}. Il est remarquable que l'optimalité au second ordre puisse être synthétisée au moyen de l'unique cône critique, alors que les deux problèmes précédents recouvrent des situations très différentes.

En un point stationnaire x*, de multiplicateur λ*, le cône critique en x* s'écrit aussi

C*={d𝔼:cE(x*)d=0,cI*0(x*)d0,f(x*)d=0},={d𝔼:cEI*0+(x*)d=0,cI*00(x*)d0},

où les ensembles d'indices I*0+ et I*00 ont été introduits ci-dessus. Ces expressions s'obtiennent en utilisant les conditions d'optimalité de KKT. Observons enfin que si les conditions de complémentarité stricte sont satisfaites, le cône critique s'écrit simplement

C*={d𝔼:c'EI*0(x*)d=0},

qui est donc le cône linéarisant T'x*XEI= (un sous-espace vectoriel). En l'absence de complémentarité stricte, ce dernier sous-espace vectoriel est contenu dans C*, lui-même contenu dans T'x*XEI.

Trois exemples instructifs

Une autre difficulté dans l'établissement des conditions d'optimalité du second ordre du problème (PEI) provient du fait que l'on doit prendre le multiplicateur optimal λ* intervenant dans la hessienne du lagrangien L*:=xx2(x*,λ*) en fonction de la direction critique choisie. Les trois exemples suivant devraient permettre de mieux comprendre pourquoi il en est ainsi et d'apprendre à sélectionner correctement les quantificateurs qui s'appliquent à dC* et λ*Λ*.

Considérons d'abord le problème à deux variables réelles

{minx2x2x12,

dont la solution est x*=(0,0). Il y a un unique multiplicateur optimal associé à la contrainte, valant λ*=1. La contrainte étant active, (x*,λ*) est aussi la solution primale-duale du problème avec contrainte d'égalité x2=x12, si bien que la hessienne du lagrangien L*:=xx2(x*,λ*)=diag(2,0) doit être semi-définie positive dans l'espace tangent à la contrainte (voir ci-dessus) : d𝖳L*d0 pour toute direction d dans {d2:d2=0}. C'est le cas le plus simple qui peut se présenter. On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre fortes : quel que soit le multiplicateur optimal (il n'y en a qu'un seul ici), L* est semi-défini positif dans le cône critique. Ces conditions sont vérifiées s'il y a un unique multiplicateur, comme ici, ou comme lorsque la condition de qualification (QC-A) ou (QC-IL) a lieu.

Considérons à présent une variante du problème précédent où l'on ajoute une contrainte superflue

{minx2x2x12x212x12.

La seconde contrainte ne modifie pas la solution primale qui est toujours x*=(0,0), mais il y a maintenant plusieurs multiplicateurs optimaux formant l'ensemble Λ*={λ+2: λ1+λ2=1}. En prenant comme multiplicateur λ*=(1,0), un sommet de Λ*, on ignore la seconde contrainte (comme il se doit) et on a le résultat précédent sur la semi-définie positivité de L*=diag(2,0) dans {d2:d2=0}. Par contre, avec λ*=(0,1), l'autre sommet de Λ*, la hessienne du lagrangien L*=diag(1,0) est définie négative dans {d2:d2=0}. C'est normal ; le lagrangien ne voit que la seconde contrainte, ignorant la première, et (0,0) n'est qu'un point stationnaire du problème min{x2:x212x12}, pas un minimum local. On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre semi-fortes : il existe un multiplicateur optimal tel que L* est semi-défini positif dans le cône critique.

Considérons enfin le problème à trois variables

{minx3x3(x1+x2)(x1x2)x3(x2+3x1)(2x2x1)x3(2x2+x1)(x23x1).

On voit que, quel que soit (x1,x2) non nul, un des membres de droite des contraintes est strictement positif. Dès lors, l'unique solution de ce problème est x*=0. D'autre part, l'ensemble des multiplicateurs optimaux est le simplexe unité Λ*={λ+3:λ1+λ2+λ3=1}. Enfin, la hessienne du lagrangien s'écrit

L(x,λ)=(2λ16(λ2+λ3)5(λ2λ3)05(λ2λ3)2λ1+4(λ2+λ3)0000).

Quelle que soit la valeur de λ*Λ*, L* n'est pas semi-définie positive sur le cône critique, qui est ici le sous-espace {d3:d3=0} (en effet, l'élément (1,1) vaut 8λ16 et l'élément (2,2) vaut 46λ1, si bien qu'il faudrait que λ1 soit supérieur à 3/4 et inférieur à 2/3). On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre faibles : pour toute direction critique d, il existe un multiplicateur optimal λ* (dépendant de d) tel que d𝖳L*d0.

Conditions nécessaires du second ordre

Voici des conditions nécessaires d'optimalité du second ordre lorsque la qualification Mangasarian-Fromovitz (QC-MF) a lieu en la solution x* du problème.

Modèle:Théorème

Les conditions nécessaires d'optimalité du second ordre (CN2) énoncées dans ce résultat sont dites faibles, car le multiplicateur optimal est choisi en fonction de la direction critique. Dans certains problèmes, on a la condition plus forte (mois souvent vérifiée) suivante

λ*Λ*,dC*:L*d,d0.

On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre semi-fortes. Dans certains cas, l'on a des conditions encore plus fortes, à savoir

λ*Λ*,dC*:L*d,d0.

On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre fortes. Comme l'affirme le résultat suivant, ce dernier cas est vérifié lorsque la qualification (QC-A) ou (QC-IL) a lieu.

Modèle:Théorème

La vérification numérique des conditions nécessaires d'optimalité du second ordre n'est pas aisée. Déjà, lorsque les conditions semi-fortes ont lieu pour un multiplicateur optimal λ*, il s'agit de vérifier que la forme quadratique dL*d,d associée à la hessienne du lagrangien est semi-définie positive sur le cône critique C*, qui est polyédrique, c'est-à-dire que L* est C*-copositive. En toute généralité, une telle vérification est un problème NP-ardu[18]Modèle:,[19]. Maintenant, s'il y a aussi complémentarité stricte, le cône critique devient un sous-espace vectoriel et la vérification de la semi-définie positivité de dL*d,d sur ce sous-espace est alors une opération simple d'algèbre linéaire.

Conditions suffisantes du second ordre

Les conditions suffisantes du second ordre (CS2) s'obtiennent comme pour les problèmes plus simples en requérant que L*d,d soit strictement positif pour un multiplicateur dépendant d'une direction critique d choisie dans le cône critique. Le fait que le cône critique intervienne aussi dans ces conditions suffisantes d'optimalité est une garantie de sa pertinence.

Modèle:Théorème

L'inégalité obtenue en conclusion du résultat précédent est connue sous le nom de propriété de croissance quadratique. Elle montre que f croît au moins quadratiquement lorsqu'on se déplace de x* vers l'«intérieur» de l'ensemble admissible XEI.

Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker

Exemples

Inégalités de Hölder

Les inégalités de Hölder généralisent l'inégalité de Cauchy-Schwarz, dans le sens où elles donnent une majoration du produit scalaire euclidien de deux vecteurs x et yn par leur norme p et p, plutôt que par leur norme euclidienne. Dans cette majoration, les scalaires p et p doivent être pris dans [1,+] et vérifier 1p+1p=1. Cette relation accepte les valeurs infinies, si bien que p=1 si, et seulement si, p=. Pour de tels p et p, l'inégalité de Hölder s'écrit : x,yn:|xy|xpyp.

Cette inégalité se généralise aux espaces p des suites de puissance p sommables et aux espaces Lp des fonctions de puissance p intégrables. Dans n, elles peuvent être démontrées à partir d'une solution du problème de minimisation d'une fonction linéaire sur la boule unité fermée associée à la norme p, à savoir Bp:={xn:xp1}, problème qui s'écrit (Pp)minxBpxy. Par la compacité de Bp (en dimension finie), ce problème a clairement une solution ; elle est unique si 1<p<+. On donne ici le calcul des solutions de ce problème par les conditions d'optimalité de Karush, Kuhn et Tucker et d'en déduire les inégalités de Hölder.

Cas où p = ∞

C'est le cas le plus simple, qui peut se résoudre sans utiliser les conditions d'optimalité de KKT. En effet, le problème (P), qui s'écrit (P)min1x1i=1nxiyi se décompose en n problèmes indépendants, à savoir min1xi1xiyi dont les solutions x¯i sont triviales :

x¯i{=1siyi>0[1,1]siyi=0=1siyi<0.

L'inégalité de Hölder correspondante s'obtient alors en observant que, quels que soient xB et yn, on a si l'on note σ(t) le signe de t : xyx¯y=i=1nσ(yi)yi=y1, si bien que |xy|y1. On met ensuite x à l'échelle si ce vecteur n'est pas dans la boule unité B, ce qui conduit à |xy|xy1.

Cas où 1 < p < ∞

Si y=0, tout xBp est solution et l'inégalité de Hölder est triviale.

Supposons à présent que y0. En écrivant la contrainte xpp/p1/p de manière à la rendre différentiable et éviter le facteur p après différentiation, le lagrangien du problème (Pp) s'écrit

(x,λ)=xy+λp(i=1n|xi|p1).

Comme la contrainte est qualifiée (par les conditions suffisantes de Slater par exemple) et le problème est convexe, x¯ en est solution si, et seulement si, il existe un multiplicateur optimal λ¯ tel que les conditions de KKT suivantes soient vérifiées :

{yi+λ¯ix¯i|x¯i|p2=0,i=1,,nx¯p1λ¯0λ¯(x¯p1)=0.

Comment résoudre ce système compliqué ? Comme le suggère la méthode générale présentée ci-dessus, il est souvent judicieux de commencer par considérer les conditions de complémentarité (la Modèle:4e), qui ont ici une combinatoire particulièrement réduite. Il y a seulement deux possibilités (parce que le problème n'a qu'une seule contrainte) : soit le multiplicateur est nul, soit la contrainte est active. Lorsque y0, la première condition montre clairement que le multiplicateur ne peut être nul ; la contrainte est donc active, ce qui résout du même coup la seconde condition. Gardons en mémoire que le multiplicateur optimal est positif (Modèle:3e) en exploitant la première condition. En prenant la norme p de y, on obtient la valeur du multiplicateur optimal

λ¯=yp,

qui est donc strictement positif. En observant que x¯i et y¯i sont de signe contraire et en se rappelant que y0, la première condition donne alors

x¯i=σ(yi)(|yi|yp)pp,

où on a noté σ(t) le signe de t. En particulier, x¯=y/y2 si p=2.

L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas p=. Quels que soient xBp et yn, on a :

xyx¯y=(1yp)ppi=1n|yi|pp+1=yppypp/p=yp,

si bien que |xy|yp. On met ensuite x à l'échelle si ce vecteur n'est pas dans la boule unité Bp, ce qui conduit à |xy|xpyp.

Cas où p = 1

Le cas où y=0 étant trivial, on considère ci-dessous que y0.

Il n'est pas nécessaire de résoudre (P1) si l'on ne cherche qu'à obtenir l'inégalité de Hölder correspondante puisque celle-ci est identique au cas p= déjà considéré. On cherche ici plutôt comment résoudre (P1) en utilisant les conditions d'optimalité de KKT.

La première difficulté à surmonter est de récrire la contrainte x11 de manière différentiable (la norme 1 ne l'est pas). On vérifiera sans peine que x11 si, et seulement si, il existe un vecteur vn tel que i=1nvi=1 et vxv, si bien que le problème (P1) est «équivalent» au problème en (x,v)n×n suivant

(P'1){min(x,v)yxi=1nvi=1vxv.

Ayant un domaine admissible compact et non vide, ce problème a aussi une solution ; de plus x¯ est solution de (P1) si, et seulement si, (x¯,v¯) est solution de (P'1). Le lagrangien du problème (P'1) s'écrit

(x,v,λ,α,β)=xy+λ(i=1nvi1)+i=1nαi(xivi)i=1nβi(xi+vi).

Comme les contraintes de (P'1) sont qualifiées (par affinité locale par exemple) et comme le problème est convexe, (x¯,v¯) en est une solution si, et seulement si, il existe des multiplicateurs optimaux (λ¯,α¯,β¯)×n×n tels que les conditions de KKT suivantes soient vérifiées :

{(a)y+α¯β¯=0(b)λ¯eα¯β¯=0(c)i=1nv¯i=1(d)v¯x¯v¯(e)α¯0,β¯0(f)α¯i(x¯iv¯i)=0,β¯i(x¯i+v¯i)=0,i{1,,n},

e est un vecteur dont toutes les composantes valent 1. Voici un système avec une combinatoire importante : 22n manières de réaliser les conditions de complémentarité (f). La méthode générale présentée ci-dessus est ici de peu d'utilité, mais une astuce de calcul permet d'éviter une application fastidieuse. On remarque d'abord que, par (a) et (b), l'on peut écrire α¯ et β¯ en fonction de λ¯ :

α¯=12(λ¯ey)etβ¯=12(λ¯e+y).

Par (e), on en déduit que λ¯y. Mais si λ¯>y, α¯ et β¯ seraient strictement positifs et on déduirait de (f) que x¯=v¯=0, en contradiction avec (c). Dès lors

λ¯=y,

comme lorsque 1<p<. On distingue ensuite les cas :

  • si |yi|<y, alors α¯i>0, β¯i>0, puis x¯i=v¯i=v¯i par (e), donc x¯i=v¯i=0,
  • si yi=y>0, alors α¯i=0, β¯i>0, donc x¯i=v¯i0 par (f) et (d),
  • si yi=y<0, alors α¯i>0, β¯i=0, donc x¯i=v¯i0 par (f) et (d).

On déduit de ces observations que les solutions x¯ de (P1) vérifient x¯1=1,x¯Ic=0etx¯IyI0,

I:={i:|yi|=y}, Ic est son complémentaire et uv désigne le produit de Hadamard. Inversement, on vérifie que si x¯ satisfait les conditions encadrées, si v¯=|x¯|, si λ¯=y, si α¯=(yey)/2 et si β¯=(ye+y)/2, alors (x¯,v¯,λ¯,α¯,β¯) satisfait les conditions d'optimalité (a)-(f), si bien qu'alors x¯ est une solution de (P1).

L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas 1<p. Quels que soient xB1 et yn, on a :

xyx¯y=iI|x¯i||yi|=yiI|x¯i|=y,

si bien que |xy|y. On met ensuite x à l'échelle si ce vecteur n'est pas dans la boule unité B1, ce qui conduit à |xy|x1y.

Minimisation d'une fonction quadratique sur la boule euclidienne

Problèmes d'optimisation avec contraintes générales

Le problème (PG)

Dans cette section, on considère le problème d'optimisation avec contraintes plus générales, que l'on écrit sous la forme suivante

(PG){infxf(x)c(x)G.

Cette écriture exprime le fait que l'on cherche à minimiser un critère f:𝔼 défini sur un espace euclidien 𝔼 dont l'argument x, qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter des contraintes spécifiées par l'expression c(x)G. Celle-ci signifie que l'image de x par la fonction c:𝔼𝔽 doit appartenir au convexe fermé non vide G de l'espace euclidien 𝔽. Le produit scalaire des espaces euclidiens 𝔼 et 𝔽 sont tous deux notés ,.

On désigne par

XG:={x𝔼:c(x)G}=c1(G)

l'ensemble admissible du problème (PG).

Le problème (PG) est bien une généralisation du problème (PEI), puisqu'on retrouve ce dernier en prenant

𝔽=metG={0mE}×mI.

Un des intérêts de cette formulation générale est d'avoir tout son sens en dimension infinie, ce qui n'est pas le cas de (PEI). Il est en effet malaisé de spécifier ce qu'est un ensemble infini de contraintes d'inégalité à valeurs dans un espace de dimension infinie. On peut donc voir la généralisation proposée comme un premier pas dans l'étude des problèmes d'optimisation de dimension infinie. Les résultats obtenus sont cependant aussi utiles pour résoudre certains problèmes de dimension finie à la structure différente de celle de (PEI). Un autre avantage de cette généralisation est de mieux faire ressortir la structure des objets manipulés, ainsi que celle des raisonnements employés.

On sait que la convexité joue un rôle crucial en optimisation. On est donc conduit à définir ce qu'est un problème (PG) convexe.

Modèle:Ancre Modèle:Théorème

On a la propriété attendue suivante

(PG)est convexeXGest convexe.

Dans le cas du problème (PEI), G={0mE}×mI et la convexité de xc(x)G revient à dire que cE est affine et cI a toutes ses composantes convexes.

Conditions du premier ordre pour (PG)

Le cône tangent à XG

Des conditions d'optimalité du premier ordre pour (PG) peuvent s'obtenir comme pour les problèmes précédents, par l'intermédiaire de la condition du premier ordre générique de Peano-Kantorovitch. Cette condition requiert le calcul du cône tangent TxXG à l'ensemble admissible XG. Comme précédemment, on cherche à exprimer ce cône tangent en «linéarisant» les objets c et G qui définissent l'ensemble admissible. Cette linéarisation se fait en x pour c, qui est définie sur 𝔼, et en c(x) pour G, qui est défini sur 𝔽. Cette opération conduit au cône T'xXG, plus grand que TxXG, que l'on appelle le cône linéarisant de XG.

Modèle:Théorème

On n'a pas nécessairement l'égalité entre les deux cônes, car T'xXG est convexe (c'est l'image réciproque par l'application linéaire c(x) du cône tangent Tc(x)G, qui est convexe par la convexité de G) alors que TxXG ne l'est pas nécessairement (on n'a pas imposé à la fonction c définissant XG d'être affine et donc l'ensemble admissible XG n'est pas nécessairement convexe). C'est gênant, car c'est le cône tangent TxXG qui intervient dans la condition nécessaire d'optimalité générique de Peano-Kantorovitch alors que le cône linéarisant T'xXG a l'avantage d'avoir une expression analytique que l'on aimerait pouvoir exploiter. Comme pour le problème (PEI), la notion de qualification des contraintes définissant XG est liée au fait de pouvoir avoir l'égalité entre les deux cônes, mais pas seulement. La technique de démonstration conduisant aux conditions d'optimalité du premier ordre de Karush, Kuhn et Tucker, technique qui sera aussi utilisée pour obtenir la condition du premier ordre ci-dessous, cherche à montrer que le gradient f(x*) appartient à un cône que l'on peut expliciter. Deux ingrédients interviennent dans cette approche :

  • l'égalité entre le cône tangent et le cône linéarisant, qui permet ainsi d'avoir une expression exploitable du premier,
  • la polyédricité du cône linéarisant, qui permet d'éliminer la prise de l'adhérence après application du lemme de Farkas.

Ici T'xXG n'est pas polyédrique, parce que l'on ne veut pas imposer cette propriété restrictive de polyédricité à G. De manière à sélectionner les problèmes non convexes pour lesquels on peut utiliser l'approche proposée pour établir les conditions d'optimalité du premier ordre, on introduit une hypothèse, dite de qualification, qui assure précisément l'égalité entre le cône tangent et le cône linéarisant (c'est la première condition ci-dessous), mais aussi le caractère fermé de l'image par c(x)* du dual du cône linéarisant (c'est la seconde condition ci-dessous).

Modèle:Théorème

Vérifier que c est qualifié pour représenter XG est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône linéarisant. La condition suffisante de qualification la plus utilisée, généralisant au problème (PG) la condition de Mangasarian-Fromovitz du problème (PEI), est celle de Robinson[20]. On y note intP l'intérieur d'un ensemble P

Modèle:Théorème

Cette condition de Robinson est davantage examinée dans la section Condition suffisante de qualification de Robinson.

Conditions du premier ordre pour (PG)

Précisons quelques notations qui seront utilisées dans l'énoncé des conditions du premier ordre. Comme ci-dessus, f(x*)𝔼 est le gradient de f en x* et c(x*)*:𝔽𝔼 est l'opérateur adjoint de la dérivée c(x*):𝔼𝔽 (c'est un opérateur linéaire) pour les produits scalaires donnés sur 𝔼 et 𝔽 ; si P est un ensemble, P:=P+ est le cône dual négatif de P ; enfin, la notation

KuvK

signifie les trois conditions suivantes :

uK,vKetu,v=0.

Modèle:Ancre Modèle:Théorème

Un point x*𝔼 tel que (x*,λ*) vérifie les conditions d'optimalité du premier ordre ci-dessus pour un certain λ*𝔽 est qualifié de stationnaire.

Dans la première condition d'optimalité f(x*)+c(x*)*λ*=0, on reconnaît le gradient du lagrangien du problème (PG) qui est la fonction :𝔼×𝔽 définie en (x,λ)𝔼×𝔽 par

(x,λ)=f(x)+λ,c(x).

Dans le cas où GK est un cône convexe, on reconnait dans la seconde condition d'optimalité Kλ*c(x*)K, des conditions de complémentarité généralisées, déjà présentent dans les conditions de KKT.

Lorsque le problème (PG) est convexe dans le sens précisé précédemment, les conditions nécessaires du premier ordre deviennent suffisantes, comme pour le problème (PEI).

Modèle:Théorème

Désignons par

Λ*:={λ*Nc(x*)G:f(x*)+c(x*)*λ*=0},

l'ensemble des multiplicateurs optimaux associés à un point stationnaire x*𝔼 de (PG) et par Λ* son cône asymptotique.

Modèle:Théorème

Conditions du deuxième ordre

Annexes

Notes

Modèle:Références

Articles connexes

Liens externes

Bibliographie

  • Modèle:En J. F. Bonnans, A. Shapiro (2000). Perturbation Analysis of Optimization Problems. Springer Verlag, New York.
  • J. Gauvin (1992). Théorie de la programmation mathématique non convexe. Les Publications CRM, Montréal.
  • J.-B. Hiriart-Urruty (1996). L’Optimisation. Que sais-je, 3184. Presses Universitaires de France.
  • Modèle:En J.-B. Hiriart-Urruty, C. Lemaréchal (1993). Convex Analysis and Minimization Algorithms. Grundlehren der mathematischen Wissenschaften, 305-306. Springer-Verlag.
  • Modèle:En R. T. Rockafellar (1993). Lagrange multipliers and optimality. SIAM Review, 35, 183–238.

Modèle:Portail

  1. Modèle:Ouvrage.
  2. Modèle:It G. Peano (1887). Applicazioni Geometriche del Calcolo Infinitesimale. Fratelli Bocca Editori, Torino.
  3. Modèle:It G. Peano (1908). Formulario Mathematico, Editio V. Fratelli Bocca Editori, Torino.
  4. Modèle:En L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum problems. Doklady Akad. Nauk SSSR, 28, 212–215.
  5. Modèle:En B.T. Polyak (2001). History of mathematical programming in the USSR: analyzing the phenomenon. Mathematical Programming, 91, 401–416.
  6. Modèle:En S. Dolecki, G.H. Greco (2007). Towards historical roots of necessary conditions of optimality – Regula of Peano. Control and Cybernetics, 36, 491–518.
  7. J. Mawhin, Analyse — Fondements, Techniques, Évolution, De Boeck, 1992.
  8. Modèle:Chapitre
  9. Modèle:En C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton, New Jersey.
  10. V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.
  11. Modèle:De J. Farkas, Theorie der einfachen Ungleichungen, Journal für die reine und angewandte Mathematik, 124 (1902) Modèle:P.
  12. Modèle:En H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J.Neyman, éditeur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability, pages 481–492. University of California Press, Berkeley, California.
  13. Modèle:En W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as Side Conditions. Master’s thesis, Department of Mathematics, University of Chicago, Chicago.
  14. Modèle:En H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle, C.E. Lemke, éditeurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1–26. American Mathematical Society, Providence, RI.
  15. Modèle:En F. John (1948). Extremum problems with inequalities as subsidiary conditions. In K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, éditeurs, Studies and Essays, Courant Anniversary Volume, pages 186–204. Wiley Interscience, New York.
  16. Modèle:En J. Kyparisis (1985). On uniqueness of Kuhn-Tucker multipliers in nonlinear programming. Mathematical Programming, 32, 242–246.
  17. Modèle:En J. Gauvin (1977). A necessary and sufficient regularity condition to have bounded multipliers in nonconvex programming. Mathematical Programming, 12, 136–138.
  18. Modèle:En K.G. Murty, S.N. Kabadi (1987). Some NP-complete problems in quadratic and nonlinear programming. Mathematical Programming, 39, 117–129.
  19. Modèle:En P.J.C. Dickinson, L. Gijben (2011). On the computational complexity of membership problems for the completely positive cone and its dual. Rapport de recherche.
  20. Modèle:En S.M. Robinson (1976). Stability theory for systems of inequalities, part II: differentiable nonlinear systems. SIAM Journal of Numerical Analysis, 13, 487-513.