Optimisation bayésienne
L'Optimisation bayésienne est une stratégie de conception séquentielle pour l'optimisation globale de fonctions boîte noire[1]Modèle:,[2]Modèle:,[3], qui ne présume aucune forme fonctionnelle. Elle est généralement employée pour optimiser des fonctions coûteuses à évaluer. Avec l'essor de l'intelligence artificielle au Modèle:S-, les optimisations bayésiennes trouvent une utilisation marquante dans des problèmes d'apprentissage automatique pour optimiser les valeurs d'hyperparamètre[4]Modèle:,[5].
Historique
Le terme est généralement attribué à Jonas Mockus et se trouve dans son travail issu d'une série de publications sur l'optimisation globale dans les années 1970 et 1980[6]Modèle:,[7]Modèle:,[1]
Stratégie

L'optimisation bayésienne est typiquement utilisée pour des problèmes de la forme , où est un ensemble de points, , qui reposent sur au plus 20 dimensions () et dont l'appartenance s'évalue facilement. L'optimisation bayésienne présente un avantage particulier pour des problèmes où est difficile à évaluer en raison de son coût computationnel. La fonction objectif, , est continue et prend la forme d'une structure inconnue, qualifiée de "boîte noire". Lors de son évaluation, seule s'observe et ses dérivées ne s'évaluent pas[9].
Puisque la fonction objectif est inconnue, la stratégie bayésienne consiste à la traiter comme une fonction aléatoire et à lui appliquer un prior. Le prior capte les croyances concernant le comportement de la fonction. Après la collecte des évaluations de la fonction, traitées comme des données, le prior se met à jour pour former la distribution a posteriori sur la fonction objectif. La distribution a posteriori s'utilise ensuite pour construire une fonction d'acquisition (souvent également appelée critère d'échantillonnage complémentaire) qui détermine le prochain point d'interrogation.
Il existe plusieurs méthodes pour définir la distribution a priori/a posteriori sur la fonction objectif. Les deux méthodes les plus courantes utilisent des processus gaussiens dans une méthode appelée krigeage. Une autre méthode moins coûteuse s'emploie avec l'estimation par arbre de Parzen pour construire deux distributions pour les points « élevés » et « bas », puis trouve l'emplacement qui maximise l'amélioration attendue[10].
L'optimisation bayésienne standard repose sur la facilité d'évaluation de chaque et les problèmes qui dévient de cette hypothèse sont connus sous le nom de problèmes d'« optimisation bayésienne exotique ». Les problèmes d'optimisation deviennent exotiques s'il s'avère qu'il existe du bruit, que les évaluations s'effectuent en parallèle, que la qualité des évaluations repose sur un compromis entre difficulté et précision, sur la présence de conditions environnementales aléatoires ou si l'évaluation implique des dérivées[9].
Fonctions d'acquisition
Des exemples de fonctions d'acquisition comprennent
- la probabilité d'amélioration,
- l'amélioration attendue,
- les pertes bayésiennes attendues,
- les bornes de confiance supérieures (UCB) ou inférieures,
- échantillonnage de Thompson,
et leurs hybrides[11]. Elles équilibrent le dilemme exploration–exploitation afin de minimiser le nombre d'interrogations de la fonction. Ainsi, l'optimisation bayésienne convient particulièrement aux fonctions coûteuses à évaluer.
Méthodes de résolution
Le maximum de la fonction d'acquisition se trouve typiquement en recourant à la discrétisation ou par l'intermédiaire d'un optimiseur auxiliaire. Les fonctions d'acquisition se maximisent en utilisant une technique d'optimisation numérique, telle que la méthode de Newton en optimisation ou des méthodes quasi-Newton comme l'algorithme Broyden–Fletcher–Goldfarb–Shanno.
Applications
L'approche s'applique à une large gamme de problèmes[12], y compris l'apprentissage par classement[13], l'infographie et design visuel[14]Modèle:,[15]Modèle:,[16], la robotique[17]Modèle:,[18]Modèle:,[19]Modèle:,[20], les réseaux de capteurs[21]Modèle:,[22] ; la configuration automatique d'algorithmes[23]Modèle:,[24], l'AutoML[25]Modèle:,[26]Modèle:,[27], l'apprentissage par renforcement[28] ; planification, attention visuelle, configuration d'architecture dans l'apprentissage profond, analyse statique de programme, physique expérimentale des particules[29]Modèle:,[30] ; optimisation de la diversité-qualité[31]Modèle:,[32]Modèle:,[33] ; chimie, conception de matériaux et développement de médicaments[34]Modèle:,[35].
L'optimisation bayésienne s'applique dans le domaine de la reconnaissance faciale[36]. La performance de l'algorithme Histogram of Oriented Gradients (HOG), méthode populaire d'extraction de caractéristiques, repose fortement sur ses paramètres[36]. Optimiser ces paramètres s'avère difficile mais crucial pour atteindre une haute précision[36]. Une approche novatrice pour optimiser les paramètres de l'algorithme HOG et la taille d'image pour la reconnaissance faciale, utilisant une technique d'optimisation bayésienne basée sur l'estimation par arbre de Parzen (TPE), est proposée[36]. Cette approche optimisée a le potentiel d'être adaptée à d'autres applications en vision par ordinateur et contribue au développement continu des algorithmes d'extraction de caractéristiques élaborés manuellement en vision par ordinateur[36].
Voir aussi
- Bandit manchot
- Krigeage
- Échantillonnage de Thompson
- Optimum de Pareto
- Apprentissage actif
- Optimisation multiobjectif
Références
Modèle:Traduction/Référence Modèle:Références Modèle:Portail
- ↑ 1,0 et 1,1 Modèle:Ouvrage
- ↑ Modèle:Ouvrage
- ↑ Modèle:Ouvrage
- ↑ Modèle:Article
- ↑ Modèle:Article
- ↑ Modèle:Ouvrage
- ↑ Modèle:Article
- ↑ Modèle:Ouvrage
- ↑ 9,0 et 9,1 Modèle:Lien arXiv
- ↑ J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems: 2546–2554 (2011)
- ↑ Matthew W. Hoffman, Eric Brochu, Nando de Freitas: Portfolio Allocation for Bayesian Optimization. Uncertainty in Artificial Intelligence: 327–336 (2011)
- ↑ Eric Brochu, Vlad M. Cora, Nando de Freitas: A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. CoRR abs/1012.2599 (2010)
- ↑ Eric Brochu, Nando de Freitas, Abhijeet Ghosh: Active Preference Learning with Discrete Choice Data. Advances in Neural Information Processing Systems: 409-416 (2007)
- ↑ Eric Brochu, Tyson Brochu, Nando de Freitas: A Bayesian Interactive Optimization Approach to Procedural Animation Design. Symposium on Computer Animation 2010: 103–112
- ↑ Yuki Koyama, Issei Sato, Daisuke Sakamoto, Takeo Igarashi: Sequential Line Search for Efficient Visual Design Optimization by Crowds. ACM Transactions on Graphics, Volume 36, Issue 4, pp.48:1–48:11 (2017). DOI: https://doi.org/10.1145/3072959.3073598
- ↑ Yuki Koyama, Issei Sato, Masataka Goto: Sequential Gallery for Interactive Visual Design Optimization. ACM Transactions on Graphics, Volume 39, Issue 4, pp.88:1–88:12 (2020). DOI: https://doi.org/10.1145/3386569.3392444
- ↑ Daniel J. Lizotte, Tao Wang, Michael H. Bowling, Dale Schuurmans: Automatic Gait Optimization with Gaussian Process RegressionModèle:Lien brisé
- ↑ Ruben Martinez-Cantin, Nando de Freitas, Eric Brochu, Jose Castellanos and Arnaud Doucet. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot. Autonomous Robots. Volume 27, Issue 2, pp.93–103 (2009)
- ↑ Scott Kuindersma, Roderic Grupen, and Andrew Barto. Variable Risk Control via Stochastic Optimization. International Journal of Robotics Research, volume 32, number 7, pp.806–825 (2013)
- ↑ Roberto Calandra, André Seyfarth, Jan Peters, and Marc P. Deisenroth Bayesian optimization for learning gaits under uncertainty. Ann. Math. Artif. Intell. Volume 76, Issue 1, pp.5-23 (2016) DOI:10.1007/s10472-015-9463-9
- ↑ Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias W. Seeger: Information-Theoretic Regret Bounds for Gaussian Process Optimization in the Bandit Setting. IEEE Transactions on Information Theory 58(5):3250–3265 (2012)
- ↑ Modèle:Lien conférence
- ↑ Frank Hutter, Holger Hoos, and Kevin Leyton-Brown (2011). Sequential model-based optimization for general algorithm configuration, Learning and Intelligent Optimization
- ↑ J. Snoek, H. Larochelle, R. P. Adams Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems: 2951-2959 (2012)
- ↑ J. Bergstra, D. Yamins, D. D. Cox (2013). Hyperopt: A Python Library for Optimizing the Hyperparameters of Machine Learning Algorithms. Proc. SciPy 2013.
- ↑ Chris Thornton, Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown: Auto-WEKA: combined selection and hyperparameter optimization of classification algorithms. KDD 2013:847–855
- ↑ Jasper Snoek, Hugo Larochelle and Ryan Prescott Adams. Practical Bayesian Optimization of Machine Learning Algorithms. Advances in Neural Information Processing Systems, 2012
- ↑ Modèle:Cite thesis
- ↑ Philip Ilten, Mike Williams, Yunjie Yang. Event generator tuning using Bayesian optimization. 2017 JINST 12 P04028. DOI: 10.1088/1748-0221/12/04/P04028
- ↑ Evaristo Cisbani et al. AI-optimized detector design for the future Electron-Ion Collider: the dual-radiator RICH case 2020 JINST 15 P05009. DOI: 10.1088/1748-0221/15/05/P05009
- ↑ Modèle:Lien arXiv Preprint: Arxiv.
- ↑ Modèle:Ouvrage
- ↑ Modèle:Article
- ↑ Gomez-Bombarelli et al. Automatic Chemical Design using a Data-Driven Continuous Representation of Molecules. ACS Central Science, Volume 4, Issue 2, 268-276 (2018)
- ↑ Griffiths et al. Constrained Bayesian Optimization for Automatic Chemical Design using Variational Autoencoders Chemical Science: 11, 577-586 (2020)
- ↑ 36,0 36,1 36,2 36,3 et 36,4 Mohammed Mehdi Bouchene: Bayesian Optimization of Histogram of Oriented Gradients (Hog) Parameters for Facial Recognition. SSRN (2023)