Il s’agit du deuxième épisode de notre exploration de l’apprentissage automatique « sans code ». Dans notre premier articlenous avons exposé notre ensemble de problèmes et discuté des données que nous utiliserons pour tester si un outil de ML hautement automatisé conçu pour les analystes commerciaux peut fournir des résultats rentables proches de la qualité de Méthodes plus gourmandes en code Cela implique un peu de science des données axée sur l’homme.
Si vous n’avez pas lu cet article, revenez au moins écumez-le. Si vous êtes prêt, examinons ce que nous allons faire avec nos données sur les crises cardiaques dans des conditions d’apprentissage automatique « normales » (c’est-à-dire les plus intensives en code), puis jetez tout et appuyez sur le bouton « facile ».
Comme indiqué précédemment, nous travaillons avec un ensemble de données sur la santé cardiaque tirées d’une étude de la Cleveland Clinic et de l’Institut hongrois de cardiologie de Budapest (ainsi que d’autres endroits dont nous avons rejeté les données pour des raisons de qualité). Toutes ces données sont disponibles dans entrepôt Nous l’avons créé sur GitHub, mais sa forme originale fait partie de entrepôt de données Il a été maintenu pour des projets d’apprentissage automatique par l’Université de Californie – Irvine. Nous utilisons deux versions de l’ensemble de données : une version plus petite et plus complète composée de 303 dossiers de patients de la clinique de Cleveland et une base de données plus grande (597 patients) qui comprend des données HGI mais il manque deux types de données dans l’ensemble plus petit.
Il semble que les deux champs manquants des données hongroises soient importants, mais les données de la Cleveland Clinic elles-mêmes pourraient être trop petites pour certaines applications ML, nous allons donc essayer de couvrir nos bases.
le plan
Avec plusieurs ensembles de données disponibles pour la formation et les tests, il est temps de commencer à moudre. Si nous procédions comme le font habituellement les scientifiques des données (et comme nous avons essayé l’année dernière), nous :
- Diviser les données en un ensemble d’apprentissage et un ensemble de test
- Utiliser des données d’entraînement avec un type d’algorithme existant pour créer le modèle
- Vérifiez le modèle avec l’ensemble de test pour vérifier sa précision
Nous pouvons faire tout cela en le codant dans le cahier Jupyter et en modifiant le modèle jusqu’à ce que nous obtenions une précision acceptable (comme nous l’avons fait l’année dernière, dans un cycle perpétuel). Mais à la place, nous allons d’abord essayer deux méthodes différentes :
- Une approche « sans code » avec Sagemaker Canvas d’AWS : Canvas prend les données dans leur ensemble, les divise automatiquement en formation et en test, et génère un algorithme prédictif
- Une autre approche « sans/faible code » utilisant Sagemaker Studio Jumpstart et AutoML : AutoML est une grande partie de ce qui se cache derrière Canvas ; Il évalue les données et essaie différents types d’algorithmes pour déterminer le meilleur.
Cela fait, nous utiliserons l’une des nombreuses méthodes d’apprentissage automatique testées au combat que les scientifiques des données ont déjà expérimentées avec cet ensemble de données, dont certaines ont revendiqué une précision de plus de 90 %.
Le produit final de ces méthodes devrait être un algorithme que nous pouvons utiliser pour exécuter une requête prédictive basée sur des points de données. Mais le résultat réel sera un examen des compromis pour chaque approche en termes de temps d’achèvement, de précision et de coût du temps de calcul. (Lors de notre dernier test, AutoML lui-même a pratiquement fait exploser tout le solde créditeur du compte AWS.)
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.