Si vous voulez essayer la reconnaissance vocale de haute qualité sans rien acheter, bonne chance. Bien sûr, vous pouvez emprunter la reconnaissance vocale sur votre téléphone ou forcer certains assistants virtuels sur votre Raspberry Pi à gérer le traitement pour vous, mais ceux-ci ne sont pas si bons pour les gros travaux que vous ne voulez pas être limité à une source fermée. la solution. Je suis entré OpenAI sifflement, qui, selon eux, est un réseau de neurones open source « proche de la puissance et de la précision au niveau humain dans la reconnaissance vocale en anglais ». Il semble également fonctionner sur au moins certaines autres langues.
Si vous essayez des démos, vous verrez que parler rapidement ou avec un bel accent ne semble pas affecter les résultats. Le post précise qu’il a été formé sur 680 000 heures de données supervisées. Si vous parlez beaucoup à l’IA, cela vous prendrait 77 ans sans dormir !
En interne, la parole est divisée en segments de 30 secondes qui alimentent un spectrogramme. Les encodeurs traitent le spectrogramme et les décodeurs digèrent les résultats en utilisant une prédiction et une autre inférence. Environ un tiers des données provenaient de sources non anglophones et ont ensuite été traduites. Vous pouvez lire un fichier papier Sur la façon d’effectuer une formation généralisée sans exécuter certains modèles spécialement formés sur des critères standard, mais ils pensent que Whisper fonctionne mieux lors d’un discours aléatoire au-delà de certaines normes.
La taille du modèle à la « petite » variance est toujours de 39 Mo et la « grande » variante est toujours supérieure à la moitié. Donc, cela ne fonctionnera probablement pas sur un Arduino de si tôt. Si vous voulez coder, tout est allumé github.
il y a plus La solution, mais pas si fort. Si vous voulez suivre la voie basée sur l’assistant, c’est ici un peu d’inspiration.
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.