Dernier message sur Blog sur la sécurité de Google Détaille une nouvelle mise à niveau des filtres anti-spam de Gmail que Google appelle « l’une des plus grandes mises à niveau de défense de ces dernières années ». La mise à niveau se présente sous la forme d’un nouveau système de classification de texte appelé RETVec (Efficient and Flexible Text Vector). Google affirme que cela peut aider à comprendre la « manipulation de texte hostile » : des e-mails remplis de caractères spéciaux, d’émojis, de fautes de frappe et d’autres caractères indésirables qui étaient auparavant lisibles par les humains mais qui ne peuvent pas être facilement compris par les machines. Auparavant, les spams remplis de caractères spéciaux pénétraient facilement les défenses de Gmail.
Si vous voulez un exemple de ce à quoi ressemble une « manipulation de texte hostile », le message ci-dessous provient de votre dossier spam. Mon expérience personnelle avec Gmail avec ces e-mails est que c’était un gros problème au cours du premier semestre, car des e-mails comme celui-ci arrivaient régulièrement dans ma boîte de réception. Cette mise à niveau technique vers RETVec semble fonctionner, car les e-mails comme celui-ci ne m’ont pas du tout posé de problème au cours des derniers mois.
Il a été très difficile de trier des e-mails comme celui-ci, et même si n’importe quel filtre anti-spam pourrait probablement analyser un e-mail disant : « Félicitations ! Crédit de 1 000 $ disponible pour votre compte jackpot », ce n’est pas ce que dit l’e-mail en réalité. Une grande partie des lettres ici sont « Homophones« En plongeant dans les profondeurs infinies du standard Unicode, vous pouvez trouver des caractères obscurs qui semblent faire partie de l’alphabet latin classique, mais qui ne le sont pas en réalité.
Par exemple, le sujet « 𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭 » semble étrangement audacieux, non pas parce qu’il a un design audacieux mais parce qu’il utilise des glyphes Unicode comme «Mathématiques majuscules en gras c« . C’est un symbole mathématique qui ressemble à la lettre « C » pour les gens, mais le robot de filtrage du spam le voit strictement comme un symbole mathématique et ne comprend pas la signification en anglais. Plus vous regardez de près un e-mail comme celui-ci, pire c’est : il contient » « FÉLICITATIONS » sur zéro remplace l’un des caractères « O », les caractères soulignés dans « Jᴀ̲ᴄ̲ᴋ̲pot » sont si étranges qu’ils n’apparaissent même pas dans les recherches Unicode, et beaucoup d’espaces sont inversés pour les points ou les traits de soulignement. Le résultat est que le filtre anti-spam regarde vers ceci Chaos Depuis l’e-mail et abandonne essentiellement. (Je ne comprends pas pourquoi les e-mails non lus sont définis sur « Boîte de réception » au lieu de « Spam », mais je n’en suis pas responsable.)
Google affirme que RETVec est là pour sauver la situation : « RETVec est formé pour être résilient face aux manipulations au niveau des caractères, notamment les insertions, les suppressions, les fautes de frappe, les caractères homonymes, la substitution LEET, et bien plus encore. » Le modèle RETVec est formé sur un nouveau personnage. encodeur qui « peut crypter tous les caractères et tous les mots. » UTF-8 efficacement. Ainsi, RETVec fonctionne immédiatement dans plus de 100 langues sans nécessiter de table de recherche ni de taille de vocabulaire fixe.
Google affirme que l’efficacité est ici un gros problème. Les approches alternatives qui utilisent une « taille de vocabulaire fixe » ou une « table de recherche » pour les homomorphes ont rendu leur fonctionnement gourmand en ressources. Imaginez une liste de toutes les fautes d’orthographe possibles et les fautes d’orthographe de « Félicitations » qui remplacent une ou plusieurs lettres par des chiffres, des symboles mathématiques, du cyrillique, de l’hébreu ou des émojis, et vous auriez une liste presque infinie. Google affirme que RETVec ne compte que 200 000 « au lieu de millions de paramètres », donc même si le cloud de filtrage anti-spam de Google est probablement assez grand pour exécuter n’importe quoi, il est suffisamment petit pour pouvoir même fonctionner sur une machine locale. Ritvik Open sourceGoogle espère débarrasser le monde des attaques par usurpation d’identité, de sorte que même votre section de commentaires locaux pourrait un jour les déclencher.
RETVec semble fonctionner un peu comme la façon dont les humains lisent : il s’agit d’un modèle d’apprentissage automatique TensorFlow qui utilise la « similarité » visuelle pour déterminer la signification des mots plutôt que le contenu réel des caractères. Google Montrer la similarité Il utilise la même technologie pour reconnaître les images de chats, donc en faire le système de reconnaissance optique de caractères le plus cool au monde semble réalisable. Apparemment, cette approche a conduit à des améliorations significatives, comme l’a déclaré Google : « Le remplacement du vecteur de texte précédent pour le classificateur de spam de Gmail par RETVec nous a permis d’améliorer notre taux de détection de spam par rapport à la référence de 38 % et de réduire le taux de faux positifs de 19,4 %. » De plus, l’utilisation de RETVec a réduit l’utilisation du TPU du modèle de 83 %, faisant du déploiement de RETVec l’une des plus grandes mises à niveau de défense de ces dernières années.
Google affirme avoir testé RETVec en interne « au cours de la dernière année » et il est déjà en cours de déploiement sur votre compte Gmail.
« Évangéliste des médias sociaux. Baconaholic. Lecteur dévoué. Chercheur de Twitter. Pionnier avide du café. »
More Stories
Apple annonce l’expansion de Vision Pro dans deux pays supplémentaires
Nintendo lance une application musicale avec des thèmes de Mario et Zelda et, plus important encore, une chaîne Wii Shop
C’est le journal que personne n’a lu avant d’annoncer la disparition de la cryptographie moderne.