Algorithme C4.5

De testwiki
Version datée du 21 février 2023 à 19:51 par imported>Loxyger (growthexperiments-addimage-summary-summary: 1)
(diff) ← Version précédente | Version actuelle (diff) | Version suivante → (diff)
Aller à la navigation Aller à la recherche

Modèle:Voir homonymes Modèle:Ébauche

Extrait allemand de l'arbre de décision C4.5 pour l'exemple : Sarah fait de la voile

En apprentissage automatique, l’algorithme C4.5 est un algorithme de classification supervisé, publié par Ross Quinlan[1]. Il est basé sur l'algorithme ID3 auquel il apporte plusieurs améliorations. L'algorithme produit un arbre de décision.

L'algorithme est classé au premier rang du papier Top 10 Algorithms in Data Mining publié dans Modèle:Lien (LNCS) en 2008[2].

Principe

À partir d'un échantillon d'apprentissage composé d'une variable objectif ou variable prédite Y et d'au moins une variable d'apprentissage ou variable prédictive {x1,x2,,xn}=X, C4.5 produit un modèle de type arbre de décision. Ce modèle permet de prédire pour un individu i la valeur estimée yi^ de la variable objectif en fonction des valeurs prise par les variables prédictives xi. L'algorithme C4.5 se base sur une mesure de l'entropie dans l'échantillon d'apprentissage pour produire le modèle (graphe d'induction). L'avantage du recours à l'entropie est que l'algorithme opère sur des données symboliques que ce soient des variables catégorielles (comme des couleurs) ou numériques discrètes (par exemple xi). Le désavantage de la méthode est que pour préserver l'efficacité de l'apprentissage et la pertinence du modèle produit, les variables continues doivent être discrétisées avant la mise en œuvre de l'algorithme.

Pseudo-code

Modèle:Section vide ou incomplète

C5.0 et See5

Quinlan continue son travaille avec les versions C5.0 et See5 (C5.0 pour les systèmes UNIX et See5 pour Windows) qu'il commercialise. C5.0 améliore C4.5 sur plusieurs points dont :

  • la rapidité
  • l'utilisation de la mémoire
  • des arbres de décision plus petits

C5.0 est un produit commercial dont le code source est disponible gratuitement pour l'interprétation et l'utilisation des arbres de décision et l'ensemble des règles qu'il produit.

Notes et références

Modèle:Références Modèle:Traduction/Référence

Modèle:Portail

  1. Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
  2. Umd.edu - Top 10 Algorithms in Data Mining