Als je dat hoort is een dataset van 20 miljoen malwarestalen zijn nu online beschikbaar, hoe zou je je voelen?? Misschien bezorgd? De waarheid is dat zo'n dataset nu toegankelijk is voor het publiek, maar als onderdeel van een missie om te bereiken “open kennis en begrip van cyberdreigingen.”
SoReL-20M, Een dataset met miljoenen malware-voorbeelden
Cybersecurity-bedrijven Sophos en ReversingLabs hebben zojuist SoReL-20M uitgebracht, een dataset van 20 miljoen draagbare uitvoerbare bestanden van Windows (.AAN), Inclusief 10 miljoen ontwapende malwarestalen. Het doel van de opmerkelijke inspanning is om te verbeteren machine learning voor betere malwaredetectiemogelijkheden.
Dankzij dit project, “Verdedigers kunnen anticiperen op wat aanvallers doen en zijn beter voorbereid op hun volgende zet,” Sophos zei.
“Deze dataset is de eerste dataset voor malwareonderzoek op productieschaal die beschikbaar is voor het grote publiek, met een samengestelde en gelabelde reeks voorbeelden en beveiligingsrelevante metadata, waarvan we verwachten dat dit het onderzoek naar malwaredetectie via machine learning verder zal versnellen,” het bedrijf toegevoegd.
Hoe is de inhoud van de dataset gerangschikt?? De samples zijn onderverdeeld in verschillende secties, inclusief training, validatie, en het testen van splitsingen op basis van de eerste keer gezien. Elke sample bevat de volgende details:
1. Functies geëxtraheerd volgens de EMBER 2.0 dataset
2. Labels die zijn verkregen door zowel externe als interne Sophos-bronnen samen te voegen tot één, hoogwaardig label
3. Metagegevens voor detectie per monster, inclusief totaal aantal positieve resultaten op ReversingLabs-motoren, en tags die belangrijke kenmerken beschrijven van de monsters die zijn verkregen volgens ons artikel “Automatische malwarebeschrijving via kenmerklabels en gelijkenisinbedding” https://arxiv.org/abs/1905.06262
4. Voltooi dumps van bestandsmetagegevens die zijn verkregen uit de pefile-bibliotheek met behulp van het bestand dump_dict() methode
5. Voor malwarevoorbeelden, wij bieden complete binaries, met de optie OptionalHeader.Subsystem en de FileHeader.Machine header waarde beide ingesteld op 0 om onbedoelde uitvoering te voorkomen.
De onderzoekers hebben naast SoReL-20M ook een set vooraf getrainde PyTorch-modellen en LightGBM-modellen uitgebracht.. Scripts om de gegevens te laden en te herhalen en de modellen te testen zijn ook beschikbaar.
in werkelijkheid, dit is niet de eerste dataset met malwarevoorbeelden die voor onderzoeksdoeleinden zijn verzameld. MENS, afkorting voor Endgame Malware BEnchmark for Research werd uitgebracht in 2018 als een open-source malwareclassificatie.
Echter, de omvang van het project was niet voldoende, en er was slechts in beperkte mate mee geëxperimenteerd. Dit is waar SoReL-20M binnenkomt, met zijn 20 miljoen PE-monsters en 10 miljoen ontwapende malwarestalen. Geëxtraheerde functies en metadata voor een extra 10 miljoen goedaardige monsters zijn ook beschikbaar.
Betreft kwaadaardige pogingen
Omdat de malware in de dataset is uitgeschakeld, het kan niet worden uitgevoerd. Of het zou in ieder geval een uitdaging zijn om de monsters te reconstrueren en ze te laten werken. Dit proces vereist specifieke, geavanceerde vaardigheden en kennis. Echter, Het is niet geheel uitgesloten dat een ervaren dreigingsacteur technieken zou kunnen bedenken om de monsters te gebruiken.
In het echt, hoewel, aanvallers kunnen tal van andere bronnen gebruiken om op minder gecompliceerde manieren malwaregegevens te verkrijgen. In” andere woorden, deze ontwapende sample set zal veel meer waarde hebben voor onderzoekers die hun onafhankelijke verdediging willen verbeteren en ontwikkelen dan voor aanvallers,” Sophos toegevoegd.