Glossaire de l'exploration de données
L'exploration de données étant à l'intersection des domaines de la statistique, de l'intelligence artificielle et de l'informatique, il semble intéressant de faire un glossaire où on peut retrouver les définitions des termes en français et leur équivalent en anglais classées selon ces trois domaines, en indiquant lorsque c'est utile s'il s'agit d'exploration de données « classiques », de fouille de texte, du web, de flots de données ou de fichier audio.
Informatique
Modèle:SommaireCompact
Dans ce paragraphe est listé le vocabulaire informatique utilisé dans le data mining.
A
Algorithme (Modèle:Citation étrangère) : c'est un ensemble d'étapes, d'opérations, de procédures destinées à produire un résultat.
C
Champ (Modèle:Citation étrangère) : c'est l'information élémentaire d'une table (colonne de la table) dans une base de données.
F
FP-tree (Modèle:Citation étrangère) : Dans le domaine des règles d'association, c'est la déclinaison d'un arbre trie composé d'une racine, de sous-arbres préfixés par les items, et d'une table des items fréquents. Chaque nœuds contient le nom de l'item, le nombre de transactions contenant l'item dans la portion de l'arbre menant à ce nœud, un lien vers le prochain nœud portant le même nom d'item - ou null s'il n'y en a pas. La table des têtes d'items fréquents contient le nom de l'item, et un pointeur vers le premier nœud du FP-tree portant le nom de l'item[1].
M
Métadonnée (Modèle:Citation étrangère) : Données sur les données. Ce sont les descriptions, définitions des données ou des informations.
S
Session (Modèle:Citation étrangère) : En fouille du web, une session est l'ensemble des séquences d'actions effectuées par un utilisateur sur internet en une seule visite. Par exemple se connecter à internet, lire un article, puis accéder à un site marchand, ajouter un objet à son panier, payer, sortir d'internet.
Système de gestion de base de données (DBMS) (Modèle:Citation étrangère) : Un système de gestion de base de données est l'ensemble des programmes qui contrôlent la création, l'évolution et l'utilisation d'une base de données.
Système de gestion de flux de données[2] (DSMS) (Modèle:Citation étrangère (Modèle:Citation étrangère)) : C'est l"ensemble des programmes qui permettent la gestion et l'interrogation des données dans un flot de données. C'est l'équivalent pour les flots de données du DBMS pour les données statiques. Les DSMS sont utilisés dans la gestion des données envoyés par les capteurs, par exemple. On utilise les DSMS dans l'exploration de flots de données où on utilise leur capacité à interroger continûment les données qui arrivent[3].
Data mining
Modèle:SommaireCompact Dans ce paragraphe est listé le vocabulaire spécifique au data mining ainsi que les algorithmes utilisés dans le data mining et issus d'autres domaines[4].
A
Analyse lexicale (Modèle:Citation étrangère) : En fouille de texte (entre autres domaines) , l'analyse lexicale est la décomposition de textes en mots appelés tokens, et l'étude des phénomènes (statistique, morphologiques) relatifs à ces mots[5].
Arbre de décision (Modèle:Citation étrangère) : Une classe de méthodes statistiques et d'exploration de données (Modèle:Citation étrangère) qui forment des modèles prédictifs en forme d'arbre.
Arbre de classification (Modèle:Citation étrangère) : c'est une technique de data mining utilisée pour prédire l'appartenance de données à des classes de telle manière que les données dans une classe se ressemblent le plus possible alors que les classes elles-mêmes soient le plus dissemblables possible. Les critères de séparation peuvent être le χ², l'indice de Gini, le Twoing, l'Entropie[6]Modèle:,[7]…
Modèle:AncreAutocorrélation spatiale (Modèle:Citation étrangère) : en fouille de données spatiales, c'est la mesure de la dépendance spatiale. Elle quantifie l'importance avec laquelle un évènement en un lieu, force ou rend plus probable le même évènement en un lieu voisin[8].
C
Cadrage multidimensionnel (Modèle:Citation étrangère) : c'est une technique de fouille de données spatiales permettant de représenter visuellement des objets ou des évènements en fonction de leur proximité ou de leur similarité[9]Modèle:,[Géo 1].
Catégorisation de documents (Modèle:Citation étrangère) : En fouille de texte, c'est l'assignation de documents à une ou plusieurs catégories selon son contenu (comme on le fait sur Wikipedia)[10].
CART (Modèle:Citation étrangère) : Un type d'algorithme d'arbre de décision qui automatise le processus d'élagage par validation croisée et autre techniques.
Modèle:AncreCartographie de surface de tendances (Modèle:Citation étrangère) : En fouille de données spatiales, le but de la cartographie de surface de tendances est de décomposer une série spatiale (un phénomène sur un ensemble de sites) en deux composantes : une tendance ou composante régionale et une erreur ou composante locale. Cette séparation est accomplie en spécifiant et ajustant un modèle de surface de tendance. Il capture la structure régionale sousjacente de la série et laisse une composante locale ne montrant aucune variation visible. Un modèle de surface de tendance est un modèle de régression linéaire dans lequel les variables explicatives sont les coordonnées géographiques de chaque site dans la série spatiale[11]Modèle:,[12].
Classification ou segmentation (Modèle:Citation étrangère) : C'est la technique qui consiste à regrouper les enregistrements en fonction de leur proximité et de la connectivité à l'intérieur d'un espace à n dimensions. Dans ce cas, c'est une technique d'apprentissage non-supervisée. La Classification est aussi le processus permettant de déterminer qu'un enregistrement appartient à un groupe prédéterminé. Il s'agit alors d'une technique d'apprentissage supervisée. En français on parle aussi de Segmentation (en marketing), de Typologie, de Taxinomie (en zoologie et en biologie), de Nosologie (en médecine)[13]. En Exploration de données, la Classification se déroule en trois phases : une première phase où le modèle est construit sur un échantillon de données pré-classée, une deuxième phase où le modèle doit prédire la classification de données pré-classée (données sur lesquelles le modèle n'a pas effectué son apprentissage), enfin une troisième phase où le modèle est déployé. En Fouille de flots de données, les données pré-classées et les données non pré-classées sont présentes dans le même flux, les trois phases sont donc confondues[14].
Classification double (Modèle:Citation étrangère) : En Exploration de données, c'est une technique non supervisée qui vise à segmenter les lignes et les colonnes d'une matrice de données. Très utilisée en bio-informatique, notamment pour l'analyse de l'expression des gènes, cette technique a tendance à s'étendre à beaucoup d'autres domaines, tels que la compression d'image, en fouille du web pour la classification des spammeurs, etc.
CHAID (Modèle:Citation étrangère) : Un processus qui utilise des tables d'éventualités et le test du chi2 pour créer un arbre.
Modèle:Ancre Colocalisation(Modèle:Citation étrangère) : la colocalisation est l'analyse en fouille de données spatiales, consistant à rapprocher deux évènements par leur localisation géographique. Par exemple la présence d'eaux polluées et l'apparition d'une épidémie dans le voisinage[Géo 1].
Contrainte anti-monotone (Modèle:Citation étrangère) : Dans le domaine des règles d'associations, une contrainte[15] est dite anti-monotone[16]Modèle:,[17] (pour l'inclusion) lorsque, étant valide pour un motif, elle est forcément valide pour un sous-ensemble englobant ce motif.
Contrainte monotone (Modèle:Citation étrangère) : Dans le domaine des règles d'associations, une contrainte est dite monotone[16]Modèle:,[17] (pour l'inclusion), lorsque étant valide pour un motif, elle est forcément valide pour un sur-ensemble englobant ce motif.
Modèle:Ancre Validation croisée[10] (Modèle:Citation étrangère) : C'est le processus d'évaluation de la prédictibilité d'un modèle en comparant le résultat du modèle appliqué sur un échantillon de test avec le résultat obtenu sur l'échantillon d'apprentissage qui a servi à bâtir le modèle. C'est la première étape de validation qui permet entre autres de vérifier qu'il n'y a pas sur-apprentissage.
D

Data binning (Modèle:Citation étrangère) : Processus par lequel une grandeur continue est discrétisée, découpée en morceaux.
Modèle:AncreDiagramme de Voronoi (Modèle:Citation étrangère) : Partition de l'espace définie à partir des triangles de Delaunay, en construisant les points à l'aide des médiatrices des côtés de chaque triangle.
Modèle:AncreDistance (Modèle:Citation étrangère) : Ce sont des fonctions utilisées en classification non supervisée (Modèle:Citation étrangère) pour déterminer les classes et placer les individus dans ces classes.
- pour les données continues on peut utiliser les distances issues de la distance de Minkowski définie comme ceci[18] :
- si sont deux vecteurs d'un espace de dimension on a :
- si , on obtient la distance de Manhattan ; si , on a la distance euclidienne.
- on utilise aussi la distance de Chebychev :
.
- si sont deux variables aléatoires de même distribution à valeurs dans , et si est la matrice de covariance de ces deux variables aléatoires, on définit la distance de Mahalanobis par :
.
- pour les variables binaires symétriques - celles qui ne prennent que deux valeurs 0 et 1 et toutes deux d'égale importance - on utilise la matrice de confusion
| point | ||||
|---|---|---|---|---|
| 1 | 0 | total | ||
| point |
1 | a | b | a+b |
| 0 | c | d | c+d | |
| total | a+c | b+d | a+b+c+d | |
- pour avoir
.
- Pour les variables binaires asymétriques - celles pour lesquelles une des deux valeurs est plus importante (par convention la valeur 1)
- on utilise la distance de Jaccard, soit :
- Dans le cadre de la recherche de similarité entre pages web ou entre documents, on utilise la mesure cosinus, qui permet en fouille du web de déterminer si deux pages - ou deux documents - sont «proches» ou non. Mais ce n'est pas une distance mathématique à proprement parler.
Dendrogramme (Modèle:Citation étrangère) : c'est une représentation graphique d'une classification hiérarchique ascendante[19]
Modèle:AncreDépendance spatiale (Modèle:Citation étrangère) : c'est une notion fondamentale en Analyse spatiale. Elle caractérise le fait qu'une grandeur en un point géographique ou en une région dépend de la même grandeur dans le voisinage de ce point ou de cette région. Par exemple le prix d'un appartement dans une ville dépend du prix des appartements aux alentours. L'amplitude de la dépendance spatiale est mesurée par l'autocorrélation spatiale[20].
E
Modèle:AncreEchantillonnage spatial (Modèle:Citation étrangère) : La dépendance spatiale et l'hétérogénéité, en fouille de données spatiales, autorisent l'utilisation de mesures, en nombre restreint, judicieusement placées dans l'espace étudié en vue d'obtenir des échantillons des grandeurs auxquelles l'analyste s’intéresse[Géo 2]Modèle:,[21].
Élagage (Modèle:Citation étrangère) : C'est la technique qui permet de modifier la structure d'un arbre de décision en remplaçant certaines branches par des feuilles de telle sorte que la justesse de la classification ou de la prédiction en soit améliorée. En général, on emploie cette technique après avoir construit l'arbre en entier.
Ensemble (méthodes) (Modèle:Citation étrangère) : C'est la technique qui permet
- de combiner différentes méthodes sur un même échantillon, réconcilier les résultats puis appliquer le modèle réconcilié sur des données hors-échantillon,
- ou bien de paramétrer différentes méthodes sur un échantillon, appliquer les méthodes paramétrées sur des données hors-échantillon et adopter le résultat par vote[22]- ie le résultat adopté par le plus de méthodes est retenu.
La première technique combine les résultats par l'apprentissage et est plutôt liée aux méthodes supervisées, la seconde par consensus et est plutôt liée aux méthodes non-supervisées.
Modèle:AncreEntropie (Modèle:Citation étrangère) : Souvent utilisée en Modèle:Citation étrangère, elle permet de mesurer le désordre dans un ensemble de données. Pour un ensemble discret de k valeurs on a
L'entropie est utilisée dans les arbres de décision pour choisir la variable maximisant le gain d'information[23] :
Si est un ensemble de données contenant les attributs , si est l'ensemble des classes , alors :
Si on utilise pour partitionner , celui-ci sera divisé en sous-ensembles disjoints deux à deux où est le nombre de valeurs de l'attribut .
L'entropie de
après la partition selon
est donnée par :
Le gain d'information de l'attribut
est égal à :
et le ratio de gain d'information est égal à
Dans un arbre de décision, chaque nœud est valorisé par l'attribut qui maximise le ratiogain.
Modèle:AncreExactitude (Modèle:Citation étrangère) : L'exactitude d'un système de mesures d'une grandeur est sa capacité à être proche de la vraie valeur de cette grandeur[DM 1].
Extraction de connaissance à partir des données (Modèle:Citation étrangère) : une autre expression signifiant Data Mining.
Extraction de connaissance omniprésente (Modèle:Citation étrangère) : Domaine dont les objets d'étude[24] :
- existent dans le temps et l'espace dans un environnement changeant
- peuvent se mouvoir, et apparaître et disparaître
- ont des capacités de traitement de l'information
- ne connaissent que leur environnement spatio-temporel local
- agissent sur contraintes en temps réel
- sont capables d'échanger de l'information avec d'autres objets.
F
Fenêtre glissante[25] (Modèle:Citation étrangère) : Fenêtre temporelle utilisée dans l'exploration des flots de données (« Data stream mining ») pour en extraire des motifs. Les fenêtres peuvent avoir une taille W fixe et la fouille de données s'effectue sur les W dernières transactions, ou sur les W dernières unités de temps, elles peuvent aussi avoir une taille variable, dans la détection de la dérive conceptuelle, par exemple.
Fenêtre à jalon[25] (Modèle:Citation étrangère) : autre type de fenêtre temporelle utilisée dans l'exploration des flots de données. Ce sont des fenêtres acceptant des transactions depuis un jalon temporel donné.
Fenêtre pondérée[25] (Modèle:Citation étrangère) : encore un autre type de fenêtre temporelle utilisée dans l'exploration des flots de données. Ce sont des fenêtres où les transactions sont pondérées en fonction de leur ancienneté. Ceci peut être réalisé en utilisant un taux de dégénérescence (Modèle:Citation étrangère).
Fenêtre dilatée (Modèle:Citation étrangère) : C'est une fenêtre temporelle, utilisée dans certains algorithmes de fouille de flot de données, où les arrivants les plus récents sont stockés à un niveau de granularité le plus fin, alors que les item(set)s les plus anciens sont stockés à un niveau de granularité plus grossier. On peut utiliser des fenêtres dilatées naturelles, des fenêtres dilatées à échelle logarithmique ou des fenêtres dilatées progressives logarithmiques[26].
Flux de clics (Modèle:Citation étrangère) : Dans le domaine de l'usage du web c'est l'enregistrement de ce sur quoi un utilisateur clique lorsqu'il navigue sur l'internet. Quand l'utilisateur clique sur une page web, l'action est logger sur le poste client ou sur un serveur web, avec d'autres données telles que le navigateur Web, les routeurs, les serveurs de proxy, etc. L'analyse des flux de clics est utile pour l'analyse de l'activité internet[27]Modèle:,[28] d'un site ou l'analyse des comportements des utilisateurs face au web.
Frontière (Modèle:Citation étrangère) : En fouille de la structure du web, une Frontière est l'ensemble des URL non encore visitées par un robot d'indexation (Modèle:Citation étrangère).
G
Gain d'information (Modèle:Citation étrangère) : voir Entropie
Gini (Modèle:Citation étrangère) : Un indicateur permettant de mesurer la réduction du désordre dans un ensemble de données induite par la séparation des données dans un arbre de décision. L'indice de diversité de Gini et l'entropie sont les deux manières les plus populaires pour choisir les prédicteurs dans l'arbre de décision CART. Pour un ensemble discret de k valeurs on a
H
Modèle:AncreHétérogénéité spatiale (Modèle:Citation étrangère) : c'est ainsi qu'est nommée la non stationnarité de la plupart des processus géographiques[20].Une autre manière de le dire : le contexte spatial est différent en chaque point et cette fluctuation spatiale influe sur les relations entre les variables[29]Modèle:,[Géo 3].
I
ID3 (Modèle:Citation étrangère) : ID3 est l'un des plus anciens algorithmes d'arbre de décision
Item (Modèle:Citation étrangère) : c'est un motif, en exploration de flots de données (« Data stream mining »), c'est un objet dans le domaine des règles d'association…
Itemset (Modèle:Citation étrangère) : c'est un motif, en exploration de flots de données (« Data stream mining »), c'est un ensemble d'objets dans le domaine des règles d'association…
Modèle:AncreInterpolation spatiale (Modèle:Citation étrangère) :
Modèle:Citation blocL'interpolation spatiale est rendue possible et utile par l'hétérogénéité et la dépendance spatiales. Modèle:Référence nécessaire[30].
Modèle:AncreInterpolation polynomiale globale (Modèle:Citation étrangère) : c'est une méthode d'interpolation spatiale déterministe utilisant les polynômes sur toute la surface à interpoler[31]. C'est une méthode qui n'utilise pas les voisins.
Modèle:AncreInterpolation polynomiale locale (Modèle:Citation étrangère) : c'est une méthode d'interpolation spatiale déterministe utilisant des polynômes sur des voisinages de points[32].
K
Modèle:AncreKrigeage (Modèle:Citation étrangère) : méthode d'interpolation spatiale utilisant une pondération minimisant la variance de l'estimation[33]Modèle:,[34]Modèle:,[35]. Le krigeage simple ou le krigeage universel[36] est utilisé selon que des hypothèses de stationnarité sont satisfaites ou non.
L
Large vocabulary continuous speech recognition : En fouille audio, technique permettant de reconnaître des mots dans un flux audio.
M

Distance de Mahalanobis (Modèle:Citation étrangère) : voir Distance. Cette distance peut être utilisée pour savoir si une observation est un outlier ou non[37].
Matrice de Confusion[38]Modèle:,[39] (Modèle:Citation étrangère) : c'est un tableau dans lequel on place les compteurs des valeurs que le test (ou modèle) a prédit correctement dans la case des "Vrai Corrects" ou des "Faux Corrects", celles des valeurs que le test (ou modèle) n'a pas prédit correctement dans la case des "Vrais Incorrects" ou "Faux Incorrects" (dans l'exemple ci-contre on voit les True Positive, True Negative, False Positive et False Negative). On calcule ensuite l'Exactitude, la Sensibilité ou Rappel, La Précision, la Spécificité pour mesurer la pertinence dut test ou du modèle.
Définitions :
Exactitude = ,
Rappel = ,
Précision = ,
Spécificité = .
Matrice d'interactions spatiales ou matrice de poids spatiale (Modèle:Citation étrangère) : Matrice carrée permettant de modéliser l'interaction entre deux points géographiques en fonction de l'importance de leur interaction. En fouille de données spatiales les matrices peuvent être de contiguïté - modélisant l'importance de l'interaction en fonction de la proximité [40] - ou de gravité, modélisant l'interaction en fonction de la «masse» du phénomène observé, comme les flux migratoires modélisés par E.Ravenstein en 1885[41].
Motif séquentiel[42] (Modèle:Citation étrangère) : c'est un motif, en fouille de données et en exploration de flots de données. Ce sont des motifs tels qu'on les trouve dans des règles d'associations mais assortis de contraintes temporelles. Par exemple[43], les clients qui achètent un ordinateur sont susceptibles d'acheter tel ou tel accessoire dans un laps de temps déterminé après l'achat du premier appareil. Les motifs séquentiels peuvent être recherchés dans plusieurs transactions effectuées dans des périodes de temps différentes, alors que les règles d'associations sont recherchées dans la même transaction.
Modèle:AncreMesure cosinus (Modèle:Citation étrangère) : en fouille du web, c'est une mesure de la similarité de deux pages. Si et où sont les fréquences des mots en commun aux pages et , alors la similarité des pages et est mesurée par : , soit . (voir exemple graphique [44])
N
N-Gramme (Modèle:Citation étrangère) : technique, employée en fouille de texte, de découpage des textes en sous-séquences de longueur N[45].
P
Modèle:AncrePondération inverse à la distance (Modèle:Citation étrangère) : c'est une des méthodes déterministes d'interpolation spatiale, qui consiste à estimer la valeur d'une grandeur en un point en fonction des valeurs connues de cette même grandeur en différents points voisins, en pondérant chaque valeur par l'inverse de la distance entre le point dont la valeur est à estimer et les différents points voisins[46].
Modèle:AncrePrécision (Modèle:Citation étrangère) : La précision d'un système de mesures d'une grandeur est sa capacité à donner des résultats proches lorsqu'ils sont répétés sous conditions inchangées.
Modèle:AncrePremière loi de Tobler (Modèle:Citation étrangère) : Assez éloignée de la fouille de données, cette entrée explique la nature particulière de la fouille de données spatiales et le concept d'autocorrélation spatiale. Modèle:Citation bloc.
Q
QUEST (Modèle:Citation étrangère) : un arbre de décision/classification développé par Wei-Yin Loh et Yu-Shan Shih en 1997[47]. QUEST est utilisé dans le package lohTools[48] du logiciel R.
R
Page Racine (Modèle:Citation étrangère) : En fouille de la structure du web, c'est une page initiale, permettant l'exploration de la structure de l'internet ou d'une partie de celle-ci par un robot d'indexation (nommé aussi Modèle:Citation étrangère ou Modèle:Citation étrangère).
Recouvrement (Modèle:Citation étrangère) : En fouille de données spatiales, il s'agit du processus consistant à joindre et visualiser simultanément des données, provenant de sources diverses, localisées dans le même espace géographique[49]Modèle:,[Géo 4].
Règle d'association (Modèle:Citation étrangère) : C'est une technique de data mining utilisée pour décrire des relations entre des objets (item), des ensembles d'objets (itemset) ou des évènements[10]. L'algorithme A-priori est un algorithme efficace et populaire pour trouver ce type de règles d'association. Exemple les associations entre les objets achetés dans un supermarché. Une règle d'association est de la forme Si ceci alors cela. Plus formellement, soit un ensemble d'items. Soit un ensemble de transactions, telles que soit un sous-ensemble de (ie ). Une règle d'association s'exprime sous la forme :
est un ensemble appelé itemset.
Modèle:AncreRègle d'association spatiale (Modèle:Citation étrangère) : c'est une règle d'association où X ou Y contient des prédicats spatiaux - de types distance, direction, topologique - tels que proche, éloigné, contient, contigu… Alors que dans une règle d'association chaque occurrence (lignes dans une Bdd géographique) de l'association est une transaction, en analyse spatiale une occurrence représente un objet spatial (Paris, Londres, ..) d'un type d'objet spatial (ville, pays, bâtiment, ..) analysé selon les prédicats (colonnes dans une Bdd géographique)[50].
S
Modèle:AncreSegmentation (Modèle:Citation étrangère) : Technique de classification non supervisée permettant de ranger des données dans des classes non prédéfinies[51].
Modèle:AncreSegmentation en analyse de texte (Modèle:Citation étrangère) : En fouille de texte, il s'agit d'une segmentation non supervisée pour l'organisation de documents, ou de textes dans des documents, parfois appelée aussi filtrage, impliquant des algorithmes comme les arbres de classification ou l'algorithme SVM[10].
Modèle:AncreStationnarité(Modèle:Citation étrangère) : En fouille de données spatiales, les hypothèses de stationnarité concernent l'espérance mathématique d'un processus (stationnarité d'ordre un), et la covariance (stationnarité d'ordre deux). Si est un champ aléatoire, on dit que est stationnaire au premier ordre si pour tout x. Ce champ est stationnaire de second ordre s'il est stationnaire de premier ordre et si [52].
T

Modèle:AncreTriangulation de Delaunay (Modèle:Citation étrangère) : Partition de l'espace de points créée en joignant les plus proches voisins de chaque point de telle manière qu'aucun point ne soit contenu dans le cercle circonscrit de chaque triangle[53].
V
Variable catégorielle (Modèle:Citation étrangère) : variable pouvant prendre un nombre restreint de valeurs, comme les couleurs par exemple. On parle aussi de variable qualitative ou discrète.
Variable continue (Modèle:Citation étrangère) : variable pouvant prendre un nombre infini de valeurs, comme un prix par exemple.
Variable dépendante (Modèle:Citation étrangère) : variable cible ou variable à expliquer dont on veut estimer les valeurs en fonctions d'autres variables dites explicatives. On parle aussi de variable cible ou variable réponse[54].
Variable indépendante (Modèle:Citation étrangère) : variable explicative permettant d'estimer une variable cible. On parle aussi de variable explicative, de contrôle, réponse[54].
Modèle:AncreVoisinage (Modèle:Citation étrangère) : c'est l'ensemble des zones (ou des points) proches de la zone (ou du point) de référence. En termes de contiguïté, dans le cadre de grilles (raster ou autres), le voisinage de 8 cellules est appelé voisinage de la Reine, celui des 4 cellules Nord-Sud et Ouest-Est est dénommé voisinage de la Tour et celui des angles est appelé voisinage du Fou. Le voisinage du Fou complété par le voisinage de la Tour revient au voisinage de la Reine[55].
Modèle:AncreVariogramme (Modèle:Citation étrangère) : notée , cette fonction est une mesure de la dissimilarité[56] ou de la continuité[57] en analyse spatiale. Si est une variable aléatoire au point x, alors le variogramme est défini par :
Intelligence artificielle
Modèle:SommaireCompact Dans ce paragraphe est listé le vocabulaire spécifique à l'intelligence artificielle et les concepts issus de l'IA et utilisés dans le data mining.
A
Algorithme génétique[58] (Modèle:Citation étrangère) : C'est un algorithme de recherche heuristique inspiré de l'évolution naturelle. Il est employé dans le domaine de la recherche de solutions approchées dans les problèmes d'optimisation. Il utilise des techniques comme l'héritage, la mutation, la sélection et l'enjambement.
Apprentissage incrémental (Modèle:Citation étrangère) : Un classifieur utilise l'apprentissage incrémental quand, lors de l'arrivée de nouveaux items, il est capable d'évoluer sans pour cela que l'apprentissage soit à refaire entièrement[59].
Apprentissage supervisé (Modèle:Citation étrangère) : c'est une stratégie d'apprentissage qui consiste à apprendre par l'exemple. Un enseignant (quelqu'un qui apprend quelque chose au système) aide le système à construire le modèle recherché en lui fournissant les classes et les exemples qui caractérisent chaque classe. Le système en déduit les descriptions de chaque classe pour que les descriptions et les classes forment les règles de classification qui serviront à classer les nouveaux arrivants[60].
Apprentissage non supervisé (Modèle:Citation étrangère) : c'est une stratégie d'apprentissage qui consiste à apprendre par l'observation et la découverte. Le système se débrouille seul avec les arrivants, aucune classe n'est prédéfinie : il doit donc analyser les exemples et découvrir les schémas et les caractéristiques de chaque arrivant et les classer selon ces caractéristiques[60].
B
Bagging (Modèle:Citation étrangère) : ou Modèle:Citation étrangère est la technique qui consiste à la création de plusieurs modèles sur des échantillons Modèle:Citation étrangère, puis à combiner les résultats. Cette technique est destinée à l'amélioration de l'exactitude[DM 2] de la classification et/ou de la prédiction d'un modèle en apprentissage automatique.
D
Dérive conceptuelle (Modèle:Citation étrangère) : En Fouille de flots de données, et en Apprentissage automatique la dérive conceptuelle fait référence aux changements - dans les propriétés statistiques des variables cibles, en général - qui interviennent au cours du temps de manière imprévue[61].
F
Feuille (Modèle:Citation étrangère) : Dans un arbre de classification, tout nœud qui n'est pas segmenté.
Forêt d'arbres décisionnels (Modèle:Citation étrangère) : Modèle:Citation bloc
I
Intelligence artificielle (Modèle:Citation étrangère) : Le domaine scientifique qui a pour but la création de comportements intelligents dans une machine.
N
Nœud racine (Modèle:Citation étrangère) : le début d'un arbre de décision; le nœud racine détient l'ensemble des données avant qu'elles ne soient découpées dans l'arbre.
R
Règle de Hebb (Modèle:Citation étrangère) : Cette règle d'apprentissage des réseaux de neurones précise que les poids entre deux neurones augmentent quand ils sont excités simultanément et décroissent dans le cas contraire.
Réseaux de Kohonen (Modèle:Citation étrangère) : Un type de réseau de neurones où la localisation d'un nœud est calculée par rapport à ses voisins ; la localité d'un nœud est très importante dans l'apprentissage ; les réseaux de Kohonen sont souvent utilisés en clustering.
Réseaux Neuronaux (Modèle:Citation étrangère) : Un modèle basé sur l'architecture du cerveau. Un réseau Neuronal consiste en multiples unités de calcul simples connectés par des poids adaptatifs.
Réseaux neuronaux à base radiale Modèle:Citation étrangère) : c'est un réseau neuronal (voir ci-dessus) utilisant une couche cachée constituée de fonctions à base radiale[62]Modèle:,[63], et une sortie combinaison linéaire des sorties des fonctions à base radiale. Ils sont caractérisés par un apprentissage rapide et un réseau compact[64]Modèle:,[65].
Résumés (Modèle:Citation étrangère) : En Fouille de flots de données c'est un ensemble de techniques permettant d'explorer le flot de données sur un nombre restreints d'éléments sans pour cela ralentir le flot, et dans un système limité en mémoire et en puissance. Les techniques se nomment échantillonnage aléatoire, résumé (sketching), synopsis (histogramme, analyses par ondelettes, quantiles et fréquences)[66]Modèle:,[67].
Rétro-Propagation (Modèle:Citation étrangère) : Un des algorithmes d'apprentissage les plus usités pour la préparation des réseaux de neurones
Statistique
Modèle:SommaireCompact Dans ce paragraphe est listé le vocabulaire spécifique aux statistiques et les concepts issus des statistiques et utilisés dans le data mining.
A
Analyse des données (Modèle:Citation étrangère) : L'analyse des données est le processus qui consiste à examiner, nettoyer, transformer, et modéliser les données dans le but d'en extraire de l'information utile, de suggérer des conclusions, de prendre des décisions. Le Data mining est une technique spécifique d'analyse des données qui se concentre sur la modélisation et l'extraction de connaissances dans un but prédictif plutôt que descriptif, bien qu'une partie du processus de data mining nécessite la description des données.
Analyse factorielle (Modèle:Citation étrangère) : voir Analyse factorielle.
B
Boostrapping[68] (Modèle:Citation étrangère) : C'est une méthode de ré-échantillonnage permettant d'obtenir une distribution d'échantillons pour un paramètre, au lieu d'une seule valeur de l'estimation de ce paramètre.
C
Colinéarité (Modèle:Citation étrangère) : Deux variables sont colinéaires si elles sont corrélées sans qu'une relation de cause ne soit établie entre elles.
Modèle:AncreMéthode du coude : Quand une grandeur est exprimée en fonction d'une autre, sans qu'il y ait de maximum absolu ou local, et qu'il faut choisir une valeur pertinente optimale du couple des deux grandeurs, la méthode du coude, empirique, consiste à choisir les valeurs où la courbe s'infléchit. On utilise cette méthode dans le cas de l'analyse factorielle pour prendre en compte le nombre d'axes idéal en fonction des valeurs propres, ou bien dans le choix d'un nombre de classes en fonction de l'indice en classification automatique.
Courbe de lift (Modèle:Citation étrangère) : c'est un résumé visuel de l'utilité des modèles statistiques et de data mining pour la prédiction d'une variable catégorielle. Elle sert à mesurer la performance d'un modèle. (voir courbe ROC et indice de Gini)
Courbe ROC[38] (Modèle:Citation étrangère) : La courbe ROC (Modèle:Citation étrangère) nous vient des ingénieurs US du traitement du signal qui l'ont inventée pendant la seconde guerre mondiale et depuis elle a été utilisée en médecine, radialogie, psychologie et maintenant en data mining. Sur l'axe des Y on représente les vrais évènements détectés et sur l'axe des X les faux évènements détectés (les erreurs de détection). Elle sert à mesurer la performance d'un estimateur ou d'un modèle[69].
E
Ensemble flou (Modèle:Citation étrangère) : Ils servent à modéliser la représentation humaines des connaissances[70].
F
Fonction base (Modèle:Citation étrangère) : Fonction impliquée dans l'estimation de la Régression multivariée par spline adaptative (MARS). Ces fonctions forment une approximation des relations entre les estimateurs et les variables estimées[71].
G
Modèle:AncreIndice de Geary (Modèle:Citation étrangère ou Modèle:Citation étrangère) : indice de mesure de l'autocorrélation spatiale en fouille de données spatiales[Géo 5]. Il s'exprime comme le rapport de la variance locale (celle des mesures entre voisins de l'échantillon) à la variance totale des mesures de l'échantillon[72]. Si est un échantillon de mesures spatiales, l'indice c de Geary s'exprime ainsi :
où
.
H
Inégalité de Hoeffding (Modèle:Citation étrangère) : L'inégalité de Hoeffding sert à la mesure de l'erreur d'un estimateur.
Définition : Soient variables aléatoires indépendantes, de distribution identique, telles que tendant vers une variable aléatoire , Alors
Théorème : Supposons que Alors, avec une probabilité supérieure ou égale à , la différence entre la moyenne empirique et la moyenne est au plus égale à .
- la précision nous dit de combien nous sommes éloigné de la moyenne réelle de la variable aléatoire
- la confiance nous dit avec quelle probabilité nous nous trompons[73].
I
Indépendance statistique (Modèle:Citation étrangère) : Deux évènements sont indépendants s'ils n'ont aucune influence l'un sur l'autre.
J
Jackknife[68] (Modèle:Citation étrangère) : C'est une méthode de ré-échantillonnage, analogue à celle du bootstrapping, qui diffère de celle-ci seulement par la méthode de sélection des différents échantillons.
L
Logique floue (Modèle:Citation étrangère) : La logique floue est une technique, formalisée par Lotfi Zadeh, utilisée en intelligence artificielle. Elle s'appuie sur les ensembles flous.
M
Modèle (Modèle:Citation étrangère) : Une description qui explique et prédit convenablement des données pertinentes mais qui est généralement moins volumineuse que les données elles-mêmes.
Modèle de Markov caché (Modèle:Citation étrangère ou Modèle:Citation étrangère) : C'est un processus qui permet de déterminer les paramètres cachés d'un système à modéliser supposé être un processus de Markov. Les Modèles de Markov cachés ont été utilisés pour la première fois dans la reconnaissance de la parole dans les années '70, il est aussi utilisé en fouille de texte[74].
Modèle:AncreIndice de Moran (Modèle:Citation étrangère ou Modèle:Citation étrangère) : indice de mesure de l'autocorrélation spatiale en fouille de données spatiales[Géo 6]. Il s'exprime comme le rapport de la covariance locale (celle des mesures entre voisins de l'échantillon) à la variance totale des mesures de l'échantillon[72]. Si est un échantillon de mesures spatiales, l'indice I de Moran s'exprime ainsi :
où
.
R
Robustesse (Modèle:Citation étrangère) : Un modèle statistique, un algorithme, un processus est dit robuste s'il produit des résultats justes en moyenne et s'il n'est pas sensible aux données ayant des problèmes. Dans le cas contraire on parle de modèle instable.
Modèle:AncreIndice de Ripley (Modèle:Citation étrangère) : créé par Brian Ripley, il permet d'analyser les motifs de points, effectuer des tests d'hypothèses, estimer des paramètres et ajuster des modèles[75]Modèle:,[Géo 7].
où est le nombre de points / évènements dans un cercle de rayon centré sur le point [76].
S
Statistique bayésienne (Modèle:Citation étrangère) : Une approche des statistiques fondée sur la loi de Bayes. Le théorème de Bayes exprime la probabilité de l'évènement A connaissant l'évènement B de la manière suivant :
T
Taux d'erreur (Modèle:Citation étrangère) : Un nombre indiquant l'erreur faite par un modèle prédictif.
Test d'hypothèse (Modèle:Citation étrangère) : voir Test d'hypothèse
Notes et références
Notes
Fouilles de données (en général)
- ↑ voir Précision
- ↑ voir Exactitude ci-dessus
Fouilles de données Géographiques
- ↑ 1,0 et 1,1 voir Voisinage
- ↑ voir aussi Interpolation spatiale dans ce glossaire
- ↑ Voir la dépendance spatiale aussi pour une autre caractéristique de l'espace géographique.
- ↑ Voir aussi Colocalisation
- ↑ voir Indice de Moran et Indice de Ripley
- ↑ voir Indice de Geary et Indice de Ripley
- ↑ voir Indice de Geary et Indice de Moran
Autres
Références
Voir aussi
Bibliographie
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Glossaire anglais-Français
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Modèle:Lien web
- ↑ 10,0 10,1 10,2 et 10,3 Robert Nisbet, John Elder, Gary Miner, Handbook of Statistical Analysis & Data Mining Applications édition 2009, Academic Press, Page 789 et suivantes
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Modèle:Lien web
- ↑ Stéphane Tufféry, Data mining et Statistique décisionnelle
- ↑ Hanady Abdulsalam, Streaming Random Forests
- ↑ Arnaud Soulet, Découverte de motifs sous contraintes
- ↑ 16,0 et 16,1 Mohammad El-Ha jj, Osmar R. Za¨ıane, Bi-Directional Constraint Pushing in Frequent Pattern Mining
- ↑ 17,0 et 17,1 Jérémy Besson, Céline Robardet, Jean-François Boulicaut, Un algorithme générique d'extraction de bi-ensembles sous contraintes dans des données booléennes
- ↑ Bing Liu, Web Data Mining, Springer, Édition 2010, pages 135-138
- ↑ Maxime Chambreuil, (exemples de Dendrogrammes) Classification Hiérarchique Ascendante
- ↑ 20,0 et 20,1 Modèle:Harvsp
- ↑ Modèle:Pdf Modèle:Lien web.
- ↑ [ Jing Gao1, Wei Fan2, Jiawei Han1, On the Power of Ensemble: Supervised and Unsupervised Methods Reconciled
- ↑ Bing Liu, Web Data Mining, Springer, Édition 2010, pages 62-67
- ↑ Michael May, Research Challenges in Ubiquitous Knowledge Discovery
- ↑ 25,0 25,1 et 25,2 Ruoming Jin, Cagan Agrawal, Frequent Pattern Mining in Data Stream
- ↑ Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques
- ↑ WW Moe, PS Fader (2004), “Capturing Evolving Visit Behavior in Clickstream Data” Journal of Interactive Marketing (2004)
- ↑ Clickstream Study Reveals Dynamic Web
- ↑ Modèle:Lien web
- ↑ Modèle:Lien web
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Modèle:Lien web
- ↑ Modèle:Lien web
- ↑ statsoft , Mahalanobis distance
- ↑ 38,0 et 38,1 César de Souza, Discriminatory Power Analysis by Receiver-Operating Characteristic Curves
- ↑ R. Eisner, Basic Evaluation Measures for Classifier Performance
- ↑ Modèle:PdfModèle:Lien web
- ↑ Modèle:Lien web
- ↑ Rakesh Agrawal, Ramakrishnan Srikant, Mining Sequential Patterns
- ↑ F. Masseglia, M. Teisseire, P. Poncelet, Extraction de motifs séquentiels
- ↑ Sophie Rosset, Mesure Cosinus
- ↑ C. Justicia de la Torre, M.J. Martin-Bautista, D. Sanchez, M.A. Vila, Text Mining: Intermediate Forms for Knowledge Representation
- ↑ Modèle:En Modèle:Lien web
- ↑ Wei-Yin Loh, Yu-Shan Shih Split Selection Methods for Classification Trees
- ↑ Vincent Zoonekynd Vincent Zoonekynd's Blog, Fri, 16 Oct 2009: Use R 2009 Conference, page 5
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Philippe Leray, Le Clustering en 3 leçons
- ↑ Modèle:PdfModèle:Lien web
- ↑ Modèle:En Modèle:Lien web
- ↑ 54,0 et 54,1 Stéphane Tufféry, Data Mining et statistique décisionnelle Troisième édition page 297, aux éditions Technip
- ↑ Modèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web
- ↑ Modèle:PdfModèle:Lien web
- ↑ Genetic algorithm on Wiki
- ↑ Gregory Hulley, Tshilidzi Marwala, Evolving Classifiers: Methods for Incremental Learning
- ↑ 60,0 et 60,1 Kapil Wankhade, Snehlata Dongre, Modèle:Citation étrangère, édition 2010 Lambert, page 9
- ↑ Alexey Tsymbal, The problem of concept drift: definitions and related work
- ↑ Bradley John Charles Baxter, The interpolation theory of radial basis functions
- ↑ Cartier-Michaud Thomas, Teffah Zakaria Introduction aux fonctions de base radiale
- ↑ S. Haykin, Neural Networks: A comprehensive Foundation, New York : Macmillan Publishing, 1994
- ↑ M.Boukadoum, Réseaux de neurones à base radiale
- ↑ Mohamed Medhat Gaber, Arkady Zaslavsky, Shonali Krishnaswamy, Mining Data Streams: A Review
- ↑ Dariusz Brzeziński, Mining data streams with concept drift
- ↑ 68,0 et 68,1 Peter Young, Jackknife and Bootstrap Resampling Methods in Statistical Analysis to Correct for Bias
- ↑ César de Souza, Discriminatory Power Analysis by Receiver-Operating Characteristic Curves (Part 2 of 2: C# Source Code)
- ↑ Ensembles flous
- ↑ Christine Thomas-Agnan, Estimateurs splines
- ↑ 72,0 et 72,1 Modèle:PdfModèle:Lien web
- ↑ Justin Domke, Learning Theory
- ↑ Krishnalal G, S Babu Rengarajan, K G Srinivasagan, A New Text Mining Approach Based on HMM-SVM for Web News Classification
- ↑ Modèle:Lien web
- ↑ Modèle:PdfModèle:En Modèle:Lien web