Ultimo post su Blog sulla sicurezza di Google Descrive in dettaglio un nuovo aggiornamento dei filtri antispam di Gmail che Google definisce “uno dei più grandi aggiornamenti di difesa degli ultimi anni”. L’aggiornamento si presenta sotto forma di un nuovo sistema di classificazione del testo chiamato RETVec (Efficient and Flessibile Text Vector). Google afferma che questo può aiutare a comprendere la “manipolazione del testo ostile”: e-mail piene di caratteri speciali, emoji, errori di battitura e altri caratteri indesiderati che in precedenza erano leggibili dagli esseri umani ma che non potevano essere facilmente compresi dalle macchine. In precedenza, le email di spam piene di caratteri speciali penetravano facilmente le difese di Gmail.
Se desideri un esempio di come appare la “manipolazione di testo ostile”, il messaggio seguente proviene dalla tua cartella spam. La mia esperienza personale con Gmail con queste e-mail è che si è trattato di un grosso problema durante la prima metà dell’anno, poiché e-mail come questa arrivavano regolarmente nella mia casella di posta. Questo aggiornamento tecnico a RETVec sembra funzionare, poiché email come questa non sono state affatto un problema per me negli ultimi mesi.
È stato molto difficile risolvere e-mail come questa e, anche se qualsiasi filtro antispam potrebbe probabilmente scansionare un’e-mail che dice: “Congratulazioni! Credito di $ 1.000 disponibile per il tuo account jackpot”, in realtà non è quello che dice l’e-mail. Gran parte delle lettere qui sono “Omofoni“Immergendosi nelle infinite profondità dello standard Unicode, puoi trovare caratteri oscuri che sembrano far parte del normale alfabeto latino ma in realtà non lo sono.
Ad esempio, l’oggetto “𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭” sembra stranamente audace non perché abbia un design audace ma perché utilizza glifi Unicode come “Matematica in grassetto maiuscolo c“. È un simbolo matematico che alle persone assomiglia alla lettera “C”, ma il bot di filtraggio dello spam lo vede strettamente come un simbolo matematico e non ne comprende il significato in inglese. Più guardi da vicino un’e-mail come questa, peggio è: contiene ” “C0NGRATULAZIONI” su zero sostituisce uno dei caratteri “O”, i caratteri sottolineati in “Jᴀ̲ᴄ̲ᴋ̲pot” sono così strani che non compaiono nemmeno nelle ricerche Unicode e molti spazi sono sostituito con punti o caratteri di sottolineatura. Il risultato è che il filtro antispam cerca questo Caos Dall’e-mail e praticamente si arrende. (Non capisco perché le email non lette siano impostate su “Posta in arrivo” anziché su “Spam”, ma non sono responsabile.)
Google afferma che RETVec è qui per salvare la situazione: “RETVec è addestrato per resistere alla manipolazione a livello di carattere, inclusi inserimenti, eliminazioni, errori di battitura, caratteri omonimi, sostituzione LEET e altro ancora.” Il modello RETVec è addestrato su un nuovo carattere codificatore che “può crittografare tutti i caratteri e le parole”. UTF-8 in modo efficiente. Pertanto, RETVec funziona immediatamente in più di 100 lingue senza richiedere una tabella di ricerca o una dimensione fissa del vocabolario.
Google afferma che l’efficienza qui è un grosso problema. Approcci alternativi che utilizzano una “dimensione del vocabolario fissa” o una “tabella di ricerca” per gli omomorfi hanno reso la loro operazione ad alta intensità di risorse. Immagina un elenco di tutti i possibili errori di ortografia e di ortografia di “Congratulazioni” che sostituiscono una o più lettere con numeri, simboli matematici, cirillico, ebraico o emoji e avresti un elenco quasi infinito. Google afferma che RETVec ha solo 200.000 “invece di milioni di parametri”, quindi mentre il cloud di filtraggio antispam di Google è probabilmente abbastanza grande da eseguire qualsiasi cosa, è abbastanza piccolo da poter funzionare anche su un computer locale. Ritvik Fonte apertaGoogle spera di liberare il mondo dagli attacchi di spoofing, quindi anche la sezione dei commenti locali potrebbe un giorno innescarli.
RETVec sembra funzionare in modo molto simile al modo in cui leggono gli esseri umani: è un modello di apprendimento automatico TensorFlow che utilizza la “somiglianza” visiva per determinare il significato delle parole piuttosto che il contenuto effettivo dei caratteri. Google Mostra somiglianza Utilizza la stessa tecnologia per riconoscere le immagini dei gatti, quindi trasformarlo nel sistema di riconoscimento ottico dei caratteri più interessante al mondo sembra fattibile. Apparentemente, questo approccio ha portato a miglioramenti significativi, come ha affermato Google: “La sostituzione del precedente vettore di testo per il classificatore di spam di Gmail con RETVec ci ha permesso di migliorare il nostro tasso di rilevamento dello spam rispetto alla linea di base del 38% e di ridurre il tasso di falsi positivi del 19,4%.” Inoltre, l’uso di RETVec ha ridotto l’utilizzo del TPU del modello dell’83%, rendendo l’implementazione di RETVec uno dei più grandi aggiornamenti della difesa degli ultimi anni”.
Google afferma di aver testato RETVec internamente “nell’ultimo anno” e lo sta già implementando sul tuo account Gmail.