Positionnement multidimensionnel

De testwiki
Aller à la navigation Aller à la recherche
Exemple de positionnement multidimensionnel de données.

Le positionnement multidimensionnel[1] est un ensemble de techniques statistiques utilisées dans le domaine de la visualisation d'information pour explorer les similarités dans les données. Le positionnement multidimentionnel est un cas particulier d'analyse multivariée. Typiquement, un algorithme de positionnement multidimensionnel part d'une matrice de similarité entre tous les points pour affecter à chaque point une position dans un espace à m dimensions. Pour m = 2 ou m = 3, les positions peuvent être visualisées sur un plan ou dans un volume par un nuage de points.

Cadre général

Étant donné N points x1,x2,,xN dans un espace de dimension p, le positionnement multidimensionnel consiste à représenter ces points dans un espace de dimension m<p par N nouveaux points y1,y2,,yN en conservant les proximités. On se donne pour cela une matrice de distance D qui peut être définie par la distance euclidienne dij=||xixj||2. Si on part de valeurs de similarité, il faut les convertir en valeurs de vraie distance mathématique, car il faut conserver à l'esprit que distance et similarité sont des notions opposées : plus faible est la distance, plus grande est la similarité, et réciproquement. Présenté sous cet angle, le positionnement multidimensionnel est une technique de réduction de dimension, au même titre que l'analyse en composantes principales.

En pratique, le positionnement multidimensionnel consiste à trouver N vecteurs y1,y2,,yN de taille m qui minimisent une fonction de coût S(y1,y2,,yN) appelée stress.

Positionnement multidimensionnel métrique

Un positionnement multidimensionnel métrique se réfère à une fonction de coût définie par la distance euclidienne ou le produit scalaire entre les points yi.

Une fonction de coût naturelle pour le positionnement multidimensionnel est

S(y1,y2,...,yN)=ij(dij||yiyj||)2

mais cette formulation n'a en général pas de solution explicite.

Positionnement multidimensionnel classique

Pour le positionnement multidimensionnel classique, la fonction de coût est remplacée par

S(y1,y2,...,yN)=ij(bijyi,yj)2

Le terme bij est défini par bij=<xix,xjx> avec x=1Ni=1Nxi. De façon générale, la matrice B, matrice de similarité, peut être obtenue à partir d'une matrice de distance D par double centrage :

B=(I1NJ)D2(I1NJ)

J est une matrice de taille N×N ne contenant que des uns.

Cette formulation a l'avantage d'avoir une solution explicite par décomposition de B en éléments propres. Soient λ1,λ2,...,λm les m plus grandes valeurs propres et e1,e2,...,em les vecteurs propres correspondants. Alors une solution pour le positionnement multidimensionnel est de prendre comme vecteurs y1,,yN les colonnes de la matrice Y=Λm1/2EmT, où EmT est la matrice des vecteurs propres transposée et Λm est la matrice diagonale des valeurs propres.

Positionnement multidimensionnel non métrique

Le positionnement multidimensionnel non métrique s'intéresse aux méthodes qui privilégient l'ordre des proximités sur la conservation des distances. La fonction de coût à minimiser est

S(y1,y2,...,yN)=ij(dijf(||yiyj||))2.

On permet à la fonction f de s'adapter lors de l'optimisation. Pour ce faire, on peut calculer une régression monotone des points (||yiyj||,dij).

Voir aussi

Notes et références

Modèle:Références

Modèle:Portail

  1. Alain Baccini et Philippe Besse, Exploration Statistique, chapitre 7