Wenn Sie hören, dass ein Datensatz von 20 Millionen Malware-Beispiele sind jetzt online verfügbar, Wie würdest du dich dabei fühlen?? Vielleicht besorgt? Die Wahrheit ist, dass ein solcher Datensatz jetzt für die Öffentlichkeit zugänglich ist, aber als Teil einer Mission zur Erfüllung “offenes Wissen und Verständnis für Cyber-Bedrohungen.”
SoReL-20M, Ein Datensatz mit Millionen Malware-Beispielen
Die Cybersicherheitsunternehmen Sophos und ReversingLabs haben gerade SoReL-20M veröffentlicht, ein Datensatz von 20 Millionen tragbare ausführbare Windows-Dateien (.AUF), Inklusive 10 Millionen entwaffnete Malware-Beispiele. Der Zweck der bemerkenswerten Anstrengung ist es, sich zu verbessern Maschinelles lernen für bessere Funktionen zur Erkennung von Malware.
Dank diesem Projekt, “Verteidiger können vorhersehen, was Angreifer tun, und besser auf ihren nächsten Zug vorbereitet sein,” Sagte Sophos.
“Dieser Datensatz ist der erste Malware-Forschungsdatensatz im Produktionsmaßstab, der der Öffentlichkeit zur Verfügung steht, mit einem kuratierten und beschrifteten Satz von Beispielen und sicherheitsrelevanten Metadaten, Wir gehen davon aus, dass dies die Forschung zur Erkennung von Malware durch maschinelles Lernen weiter beschleunigen wird,” das Unternehmen fügte hinzu.
Wie ist der Datensatzinhalt angeordnet?? Die Proben sind in mehrere Abschnitte unterteilt, einschließlich Ausbildung, Validierung, und Testen von Splits auf der Grundlage der zuerst gesehenen Zeit. Jedes Beispiel enthält die folgenden Details:
1. Merkmale gemäß EMBER extrahiert 2.0 Dataset
2. Beschriftungen, die durch Zusammenfassen von externen und internen Sophos-Quellen zu einer einzigen erhalten werden, hochwertiges Etikett
3. Metadaten zur Erkennung von Proben pro Probe, einschließlich der Gesamtzahl der positiven Ergebnisse bei ReversingLabs-Motoren, und Tags, die wichtige Eigenschaften der gemäß unserem Papier erhaltenen Proben beschreiben “Automatische Malware-Beschreibung über Attribut-Tagging und Ähnlichkeits-Einbettung” https://arxiv.org/abs/1905.06262
4. Vollständige Speicherauszüge von Dateimetadaten, die mit dump_dict aus der Pefile-Bibliothek abgerufen wurden() Methode
5. Für Malware-Beispiele, Wir bieten komplette Binärdateien, mit dem Flag OptionalHeader.Subsystem und dem Headerwert FileHeader.Machine auf 0 um eine versehentliche Ausführung zu verhindern.
Die Forscher veröffentlichten neben SoReL-20M auch eine Reihe vorgefertigter PyTorch-Modelle und LightGBM-Modelle. Skripte zum Laden und Durchlaufen der Daten sowie zum Testen der Modelle sind ebenfalls verfügbar.
In Wahrheit, Dies ist nicht der erste Datensatz von Malware-Beispielen, die zu Forschungszwecken gesammelt wurden. MENSCH, Abkürzung für Endgame Malware BEnchmark for Research wurde in veröffentlicht 2018 als Open-Source-Malware-Klassifikator.
Jedoch, Die Größe des Projekts war nicht ausreichend, und nur begrenzte Experimente waren damit möglich. Hier kommt SoReL-20M ins Spiel, mit 20 Millionen PE-Proben und 10 Millionen entwaffnete Malware-Beispiele. Extrahierte Funktionen und Metadaten für eine zusätzliche 10 Millionen gutartige Proben sind ebenfalls verfügbar.
Bedenken wegen böswilliger Versuche
Da die Malware im Dataset deaktiviert ist, es kann nicht ausgeführt werden. Zumindest wäre es schwierig, die Proben zu rekonstituieren und zum Laufen zu bringen. Dieser Prozess würde spezifische erfordern, anspruchsvolle Fähigkeiten und Kenntnisse. Jedoch, Es ist nicht ganz unmöglich, dass ein erfahrener Bedrohungsakteur Techniken zur Verwendung der Proben entwickelt.
In Wirklichkeit, obwohl, Angreifer können viele andere Ressourcen nutzen, um Malware-Informationen auf weniger komplizierte Weise abzurufen. In” andere Worte, Dieses entwaffnete Probenset wird für Forscher, die ihre unabhängige Verteidigung verbessern und entwickeln möchten, viel mehr Wert haben als für Angreifer,” Sophos fügte hinzu.