Se senti che un set di dati di 20 milioni di campioni di malware sono ora disponibili online, come ti farebbe sentire? Forse preoccupato? La verità è che un tale set di dati è ora accessibile al pubblico, ma come parte di una missione da portare a termine “conoscenza aperta e comprensione delle minacce informatiche.”
SoReL-20M, Un set di dati di milioni di esempi di malware
Le società di sicurezza informatica Sophos e ReversingLabs hanno appena rilasciato SoReL-20M, un set di dati di 20 milioni di file eseguibili portatili di Windows (.SOPRA), Compreso 10 milioni di campioni di malware disarmati. Lo scopo del notevole sforzo è migliorare machine learning per migliori capacità di rilevamento del malware.
Grazie a questo progetto, “i difensori saranno in grado di anticipare ciò che stanno facendo gli attaccanti ed essere meglio preparati per la loro prossima mossa,” Ha detto Sophos.
“Questo set di dati è il primo set di dati di ricerca sul malware su scala di produzione disponibile al pubblico in generale, con un set di campioni selezionato ed etichettato e metadati rilevanti per la sicurezza, che prevediamo accelererà ulteriormente la ricerca per il rilevamento del malware tramite l'apprendimento automatico,” la società ha aggiunto.
Come è organizzato il contenuto del set di dati? I campioni sono suddivisi in diverse sezioni, compresa la formazione, validazione, e testare le suddivisioni sulla base del primo tempo visto. Ogni campione contiene i seguenti dettagli:
1. Caratteristiche estratte come da EMBER 2.0 dataset
2. Etichette ottenute aggregando fonti sia esterne che interne Sophos in un unico, etichetta di alta qualità
3. Metadati di rilevamento campione per campione, compreso il numero totale di risultati positivi sui motori ReversingLabs, e tag che descrivono attributi importanti dei campioni ottenuti secondo il nostro documento “Descrizione automatica del malware tramite codifica degli attributi e incorporamento di similarità” https://arxiv.org/abs/1905.06262
4. Dump completi dei metadati dei file ottenuti dalla libreria pefile utilizzando dump_dict() metodo
5. Per campioni di malware, forniamo binari completi, con il flag OptionalHeader.Subsystem e il valore dell'intestazione FileHeader.Machine entrambi impostati su 0 per impedire l'esecuzione accidentale.
I ricercatori hanno anche rilasciato una serie di modelli PyTorch pre-addestrati e modelli LightGBM insieme a SoReL-20M. Sono inoltre disponibili script per caricare e iterare sui dati e testare i modelli.
In verità, questo non è il primo set di dati di campioni di malware raccolti a scopo di ricerca. UMANO, abbreviazione di Endgame Malware BEnchmark for Research è stato rilasciato in 2018 come classificatore di malware open source.
Tuttavia, le dimensioni del progetto non erano sufficienti, e con esso era possibile solo una sperimentazione limitata. È qui che entra in gioco SoReL-20M, con i suoi 20 milioni di campioni di PE e 10 milioni di campioni di malware disarmati. Funzionalità e metadati estratti per un file aggiuntivo 10 sono disponibili anche milioni di campioni benigni.
Preoccupazioni di tentativi dannosi
Poiché il malware nel set di dati è disattivato, non può essere eseguito. O almeno sarebbe difficile ricostituire i campioni e farli funzionare. Questo processo richiederebbe specifiche, abilità e conoscenze sofisticate. Tuttavia, non è del tutto impossibile che un attore esperto di minacce possa escogitare tecniche per utilizzare i campioni.
Nella realtà, anche se, gli aggressori possono sfruttare molte altre risorse per ottenere informazioni sul malware in modi meno complicati. In” altre parole, questo set di campioni disarmato avrà molto più valore per i ricercatori che cercano di migliorare e sviluppare le loro difese indipendenti di quanto ne avranno per gli aggressori,” Sophos ha aggiunto.