Huis > Cyber ​​Nieuws > SoReL-20M-gegevensset van 20 Miljoen malware-voorbeelden zijn nu online
CYBER NEWS

SoReL-20M Dataset van 20 Miljoen malware-voorbeelden zijn nu online

bella remote beheer trojan mac verwijderingsgidsAls je dat hoort is een dataset van 20 miljoen malwarestalen zijn nu online beschikbaar, hoe zou je je voelen?? Misschien bezorgd? De waarheid is dat zo'n dataset nu toegankelijk is voor het publiek, maar als onderdeel van een missie om te bereiken “open kennis en begrip van cyberdreigingen.”

SoReL-20M, Een dataset met miljoenen malware-voorbeelden

Cybersecurity-bedrijven Sophos en ReversingLabs hebben zojuist SoReL-20M uitgebracht, een dataset van 20 miljoen draagbare uitvoerbare bestanden van Windows (.AAN), Inclusief 10 miljoen ontwapende malwarestalen. Het doel van de opmerkelijke inspanning is om te verbeteren machine learning voor betere malwaredetectiemogelijkheden.




Dankzij dit project, “Verdedigers kunnen anticiperen op wat aanvallers doen en zijn beter voorbereid op hun volgende zet,” Sophos zei.

“Deze dataset is de eerste dataset voor malwareonderzoek op productieschaal die beschikbaar is voor het grote publiek, met een samengestelde en gelabelde reeks voorbeelden en beveiligingsrelevante metadata, waarvan we verwachten dat dit het onderzoek naar malwaredetectie via machine learning verder zal versnellen,” het bedrijf toegevoegd.

Hoe is de inhoud van de dataset gerangschikt?? De samples zijn onderverdeeld in verschillende secties, inclusief training, validatie, en het testen van splitsingen op basis van de eerste keer gezien. Elke sample bevat de volgende details:

1. Functies geëxtraheerd volgens de EMBER 2.0 dataset
2. Labels die zijn verkregen door zowel externe als interne Sophos-bronnen samen te voegen tot één, hoogwaardig label
3. Metagegevens voor detectie per monster, inclusief totaal aantal positieve resultaten op ReversingLabs-motoren, en tags die belangrijke kenmerken beschrijven van de monsters die zijn verkregen volgens ons artikel “Automatische malwarebeschrijving via kenmerklabels en gelijkenisinbedding” https://arxiv.org/abs/1905.06262
4. Voltooi dumps van bestandsmetagegevens die zijn verkregen uit de pefile-bibliotheek met behulp van het bestand dump_dict() methode
5. Voor malwarevoorbeelden, wij bieden complete binaries, met de optie OptionalHeader.Subsystem en de FileHeader.Machine header waarde beide ingesteld op 0 om onbedoelde uitvoering te voorkomen.

De onderzoekers hebben naast SoReL-20M ook een set vooraf getrainde PyTorch-modellen en LightGBM-modellen uitgebracht.. Scripts om de gegevens te laden en te herhalen en de modellen te testen zijn ook beschikbaar.
in werkelijkheid, dit is niet de eerste dataset met malwarevoorbeelden die voor onderzoeksdoeleinden zijn verzameld. MENS, afkorting voor Endgame Malware BEnchmark for Research werd uitgebracht in 2018 als een open-source malwareclassificatie.

Echter, de omvang van het project was niet voldoende, en er was slechts in beperkte mate mee geëxperimenteerd. Dit is waar SoReL-20M binnenkomt, met zijn 20 miljoen PE-monsters en 10 miljoen ontwapende malwarestalen. Geëxtraheerde functies en metadata voor een extra 10 miljoen goedaardige monsters zijn ook beschikbaar.

Betreft kwaadaardige pogingen

Omdat de malware in de dataset is uitgeschakeld, het kan niet worden uitgevoerd. Of het zou in ieder geval een uitdaging zijn om de monsters te reconstrueren en ze te laten werken. Dit proces vereist specifieke, geavanceerde vaardigheden en kennis. Echter, Het is niet geheel uitgesloten dat een ervaren dreigingsacteur technieken zou kunnen bedenken om de monsters te gebruiken.

In het echt, hoewel, aanvallers kunnen tal van andere bronnen gebruiken om op minder gecompliceerde manieren malwaregegevens te verkrijgen. In” andere woorden, deze ontwapende sample set zal veel meer waarde hebben voor onderzoekers die hun onafhankelijke verdediging willen verbeteren en ontwikkelen dan voor aanvallers,” Sophos toegevoegd.

Milena Dimitrova

Een bevlogen schrijver en contentmanager die sinds de start van het project bij SensorsTechForum werkt. Een professional met 10+ jarenlange ervaring in het creëren van boeiende inhoud. Gericht op de privacy van gebruikers en malware ontwikkeling, ze gelooft sterk in een wereld waar cybersecurity speelt een centrale rol. Als het gezond verstand heeft geen zin, ze zullen er zijn om aantekeningen te maken. Deze toelichtingen kunnen later om te zetten in artikelen! Volg Milena @Milenyim

Meer berichten

Volg mij:
Tjilpen

Laat een bericht achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *

This website uses cookies to improve user experience. By using our website you consent to all cookies in accordance with our Privacybeleid.
Daar ben ik het mee eens