Hyperparameters tuning

En bref

Résumé de l’article

L’optimisation des hyperparamètres est le processus d’optimisation des réglages qui contrôlent le comportement d’un modèle d’apprentissage automatique. Contrairement aux paramètres du modèle, les hyperparamètres sont définis avant l’entraînement et influencent significativement la performance et l’efficacité d’un modèle.

Points clés

Les hyperparamètres gouvernent le processus d’entraînement et la structure des modèles d’apprentissage automatique.
L’optimisation consiste à trouver la meilleure combinaison de valeurs d’hyperparamètres pour optimiser la performance.
Les techniques courantes incluent la recherche en grille, la recherche aléatoire, et des méthodes avancées comme l’optimisation bayésienne et les algorithmes génétiques.

Contenu de l’article

1 — Hyperparameters and tuning them

1.1 — What are hyperparameters?

Les hyperparamètres sont les réglages qui définissent comment un modèle d’apprentissage automatique est structuré et entraîné. Contrairement aux paramètres du modèle, qui sont appris directement à partir des données pendant l’entraînement (e.g., les poids dans un réseau de neurones), les hyperparamètres doivent être spécifiés avant le début de l’entraînement et restent constants tout au long du processus. Ils gouvernent des aspects clés du comportement du modèle, tels que sa complexité, la dynamique d’entraînement, ou la structure de l’algorithme.

Des exemples d’hyperparamètres incluent le taux d’apprentissage pour la descente de gradient, la profondeur des arbres de décision dans une forêt aléatoire, le nombre de clusters dans kMeans, ou le nombre d’époques pour l’entraînement d’un réseau de neurones. Choisir les bonnes valeurs d’hyperparamètres est crucial car elles influencent directement la capacité du modèle à apprendre efficacement les motifs, à éviter le surapprentissage, et à bien généraliser sur des données non vues. L’optimisation des hyperparamètres est le processus de recherche systématique de la meilleure combinaison de ces valeurs pour optimiser la performance du modèle.

1.2 — Why is hyperparameter tuning important?

L’optimisation des hyperparamètres est une étape critique en apprentissage automatique qui peut améliorer considérablement la performance d’un modèle. Les hyperparamètres diffèrent des paramètres du modèle : tandis que les paramètres sont appris à partir des données pendant l’entraînement (par exemple, les poids dans un réseau de neurones), les hyperparamètres doivent être spécifiés avant le début de l’entraînement. Des exemples incluent le taux d’apprentissage, la force de régularisation, le nombre d’arbres dans une forêt aléatoire, ou le nombre de clusters dans kMeans.

L’objectif de l’optimisation des hyperparamètres est d’identifier la combinaison de valeurs qui minimise une métrique d’erreur choisie (par exemple, la perte, l’erreur quadratique moyenne, ou la précision) sur un jeu de données de validation. Des hyperparamètres mal réglés peuvent conduire à un sous-apprentissage ou un surapprentissage, impactant négativement la capacité du modèle à généraliser sur de nouvelles données.

2 — Key hyperparameter tuning techniques

2.1 — Grid search

La recherche en grille est une méthode simple et systématique pour l’optimisation des hyperparamètres qui consiste à évaluer exhaustivement toutes les combinaisons possibles de valeurs d’hyperparamètres dans un espace de recherche prédéfini. Pour chaque combinaison, le modèle est entraîné et validé, et la configuration qui donne la meilleure performance sur une métrique de validation (e.g., précision, F1-score, ou erreur quadratique moyenne) est sélectionnée.

Par exemple, dans une machine à vecteurs de support (SVM), la recherche en grille peut explorer diverses combinaisons de types de noyaux, de paramètres de régularisation, et de valeurs de gamma. Bien que la recherche en grille soit simple à implémenter et garantisse de trouver la meilleure configuration dans l’espace de recherche, elle devient coûteuse en calcul à mesure que le nombre d’hyperparamètres et leurs valeurs possibles augmentent. Cette méthode est mieux adaptée aux espaces d’hyperparamètres plus petits et bien définis où une évaluation exhaustive est réalisable. Pour atténuer le coût computationnel, les praticiens combinent souvent la recherche en grille avec le traitement parallèle ou utilisent une approche grossière à fine en réduisant l’espace de recherche de manière itérative.

2.2 — Random search

La recherche aléatoire est une méthode d’optimisation des hyperparamètres qui explore l’espace des hyperparamètres en échantillonnant des combinaisons aléatoires de valeurs à partir de distributions prédéfinies. Contrairement à la recherche en grille, qui évalue systématiquement toutes les combinaisons possibles, la recherche aléatoire sélectionne des configurations au hasard, ce qui lui permet de couvrir une plus grande partie de l’espace de recherche en moins d’évaluations. Cette approche est particulièrement efficace lorsque seuls quelques hyperparamètres ont un impact significatif sur la performance du modèle, car elle peut souvent trouver des configurations proches de l’optimal plus rapidement que la recherche en grille.

Par exemple, lors de l’optimisation d’un réseau de neurones, la recherche aléatoire peut échantillonner des taux d’apprentissage à partir d’une distribution log-uniforme et le nombre d’unités cachées à partir d’une distribution uniforme. Bien qu’elle ne garantisse pas la solution absolue optimale dans l’espace de recherche, la recherche aléatoire est plus efficace en termes de calcul et s’adapte bien aux espaces plus grands. De plus, sa simplicité et sa flexibilité en font un choix pratique pour des explorations initiales de l’optimisation des hyperparamètres.

2.3 — Bayesian optimization

L’optimisation bayésienne est une technique avancée d’optimisation des hyperparamètres qui utilise des modèles probabilistes pour explorer intelligemment l’espace des hyperparamètres. Contrairement à la recherche en grille ou aléatoire, qui évaluent aveuglément des configurations, l’optimisation bayésienne construit un modèle de substitution (souvent utilisant des Processus Gaussiens ou des Estimateurs Parzen Arborescents) pour approximer la relation entre les hyperparamètres et la métrique de performance. Elle utilise ensuite ce modèle de substitution pour identifier des combinaisons d’hyperparamètres prometteuses, équilibrant l’exploration des zones inconnues et l’exploitation des régions à haute performance.

Par exemple, lors de l’optimisation d’un réseau de neurones, l’optimisation bayésienne peut prédire la performance d’une combinaison de taux d’apprentissage et de nombre de couches avant d’entraîner le modèle. Cette approche réduit significativement le nombre d’évaluations nécessaires pour trouver des hyperparamètres optimaux ou proches de l’optimal, ce qui la rend idéale pour des modèles coûteux à entraîner comme les réseaux de neurones profonds. Cependant, l’optimisation bayésienne peut être coûteuse en calcul pour des espaces de très haute dimension ou des jeux de données bruyants, mais son efficacité et sa capacité à se concentrer sur les régions les plus prometteuses en font un outil puissant pour l’optimisation des hyperparamètres.

2.4 — Genetic algorithms

Les algorithmes génétiques (GAs) sont une méthode d’optimisation des hyperparamètres inspirée des principes de l’évolution naturelle, tels que la sélection, la mutation, et le croisement. Ils traitent l’optimisation des hyperparamètres comme un processus évolutif, où chaque “individu” dans une population représente un ensemble d’hyperparamètres. L’algorithme commence par initialiser aléatoirement une population de configurations, qui sont évaluées en fonction de leur performance (fitness) sur une métrique de validation. Les configurations les mieux performantes sont ensuite “sélectionnées” pour former la base de la génération suivante, avec de nouvelles configurations générées par des processus comme le croisement (combinaison d’aspects de deux configurations) et la mutation (introduction de petits changements aléatoires).

Ce processus itératif continue jusqu’à ce qu’un critère d’arrêt prédéfini soit atteint, comme un nombre maximal de générations ou la convergence vers une solution optimale. Les algorithmes génétiques sont particulièrement efficaces pour explorer des espaces d’hyperparamètres larges et complexes, car ils peuvent découvrir des combinaisons non conventionnelles mais efficaces. Cependant, ils peuvent être coûteux en calcul, car ils nécessitent plusieurs évaluations par génération, et un réglage soigneux des paramètres spécifiques aux GAs, comme le taux de mutation et la taille de la population, est nécessaire pour une performance optimale.

3 — Practical tips for hyperparameter tuning

Voici quelques conseils pratiques pour vous aider à naviguer efficacement dans le processus d’optimisation des hyperparamètres :

Start with sensible defaults – Commencez par utiliser les valeurs d’hyperparamètres par défaut fournies par la bibliothèque de l’algorithme. De nombreuses bibliothèques comme scikit-learn et XGBoost offrent des valeurs par défaut bien testées qui fonctionnent raisonnablement bien pour la plupart des jeux de données.
Understand the impact of key hyperparameters – Concentrez-vous d’abord sur l’optimisation des hyperparamètres les plus influents. Par exemple :
- Pour les arbres de décision, priorisez max_depth et min_samples_split.
- Pour les réseaux de neurones, concentrez-vous sur le learning rate, le nombre de couches, et les unités par couche.
- Pour les SVM, concentrez-vous sur le type de noyau, C, et gamma.
Use a coarse-to-fine strategy – Commencez par une recherche large sur une grande plage de valeurs d’hyperparamètres pour identifier des régions prometteuses. Puis réduisez la recherche pour affiner les valeurs optimales dans ces régions.
Evaluate with cross-validation – Utilisez la validation croisée pour vous assurer que les hyperparamètres sélectionnés généralisent bien sur des données non vues. Cela réduit le risque de surapprentissage sur le jeu de validation.
Automate with libraries – Profitez d’outils comme :
- Scikit-learn (GridSearchCV ou RandomizedSearchCV pour la recherche en grille/aléatoire).
- Optuna ou Hyperopt pour des méthodes avancées comme l’optimisation bayésienne.
- Ray Tune pour l’optimisation distribuée et évolutive des hyperparamètres.
Log and track experiments – Utilisez des outils de suivi d’expériences comme MLflow ou Weights & Biases pour enregistrer les configurations d’hyperparamètres, les métriques d’entraînement, et les résultats. Cela aide à comparer les expériences de manière systématique.
Balance exploration and exploitation – Utilisez des méthodes comme l’optimisation bayésienne pour rechercher intelligemment l’espace des hyperparamètres. Ces méthodes aident à se concentrer sur les régions prometteuses tout en explorant occasionnellement de nouvelles zones.
Parallelize when possible – Profitez du traitement parallèle ou des services cloud pour évaluer plusieurs configurations simultanément, économisant du temps lors de recherches coûteuses en calcul.
Use learning curves for early stopping – Lors de l’optimisation de modèles itératifs comme les réseaux de neurones, surveillez les métriques de performance (e.g., validation loss) pendant l’entraînement. Utilisez l’arrêt précoce pour éviter de perdre du temps sur des configurations peu performantes.
Normalize and scale features – De nombreux algorithmes, tels que les SVM et les réseaux de neurones, sont sensibles à l’échelle des caractéristiques d’entrée. Assurez-vous que les données sont normalisées ou standardisées avant d’optimiser les hyperparamètres.
Leverage domain knowledge – Intégrez la connaissance du domaine et de la tâche pour définir des bornes raisonnables pour les hyperparamètres. Par exemple, le nombre de clusters dans kMeans peut être informé par une compréhension préalable du jeu de données.
Avoid overfitting – Régularisez les modèles en optimisant des hyperparamètres comme alpha dans Lasso ou Ridge regression, ou lambda dans XGBoost. Utilisez le dropout ou la régularisation L2 dans les réseaux de neurones.
Iterate and refine – L’optimisation des hyperparamètres est un processus itératif. Utilisez les enseignements des tours précédents pour affiner votre stratégie de recherche et vous concentrer sur les configurations qui améliorent la performance.

To go further

On dirait que cette section est vide !

Y a-t-il quelque chose que vous auriez aimé voir ici ? Faites-le nous savoir sur le serveur Discord ! Peut-être pouvons-nous l’ajouter rapidement. Sinon, cela nous aidera à améliorer le cours pour l’année prochaine !

To go beyond

Neural architecture search.

Article Wikipedia sur la recherche d’architecture neuronale, une technique avancée pour automatiser la conception des architectures de réseaux de neurones.