Hvis du hører, at et datasæt af 20 millioner malware-prøver er nu tilgængelige online, hvordan ville det få dig til at føle dig?? Måske bekymret? Sandheden er, at et sådant datasæt nu er tilgængeligt for offentligheden, men som en del af en mission om at udføre “åben viden og forståelse af cybertrusler.”
SoReL-20M, Et datasæt med millioner af malware-prøver
Cybersikkerhedsfirmaerne Sophos og ReversingLabs har lige udgivet SoReL-20M, et datasæt af 20 millioner Windows bærbare eksekverbare filer (.PÅ), Herunder 10 millioner afvæbnede malware-prøver. Formålet med den bemærkelsesværdige indsats er at forbedre maskinelæring for bedre muligheder for detektering af malware.
Tak til dette projekt, “forsvarere vil være i stand til at foregribe, hvad angribere laver, og være bedre forberedt på deres næste træk,” Sagde Sophos.
“Dette datasæt er det første forskningsdatasæt til malware, der er tilgængeligt for offentligheden, med et kureret og mærket sæt prøver og sikkerhedsrelevante metadata, som vi forventer yderligere vil fremskynde forskningen til malware-detektion via maskinindlæring,” tilføjede virksomheden.
Hvordan er datasættets indhold arrangeret? Prøverne er opdelt i flere sektioner, inklusive træning, validering, og test opdelinger på baggrund af først set tid. Hver prøve indeholder følgende detaljer:
1. Funktioner ekstraheret i henhold til EMBER 2.0 datasæt
2. Mærkater opnået ved at samle både eksterne og Sophos interne kilder i en enkelt, mærke af høj kvalitet
3. Prøve-pr. Prøve-opdagelsesmetadata, inklusive det samlede antal positive resultater på ReversingLabs-motorer, og tags, der beskriver vigtige egenskaber for de opnåede prøver i henhold til vores papir “Automatisk beskrivelse af malware via attributtagging og indlejring af lighed” https://arxiv.org/abs/1905.06262
4. Komplette dumps af filmetadata opnået fra pefilbiblioteket ved hjælp af dump_dict() metode
5. Til malware-prøver, vi leverer komplette binære filer, med OptionalHeader.Subsystem-flagget og FileHeader.Machine-headerværdien begge indstillet til 0 for at forhindre utilsigtet udførelse.
Forskerne frigav også et sæt foruddannede PyTorch-modeller og LightGBM-modeller sammen med SoReL-20M. Scripts til at indlæse og gentage dataene og teste modellerne er også tilgængelige.
I sandhed, dette er ikke det første datasæt af malware-prøver, der er samlet til forskningsformål. HUMAN, forkortelse for Endgame Malware BEnchmark for Research blev frigivet i 2018 som en open source-malware klassifikator.
Men, projektets størrelse var ikke tilstrækkelig, og kun begrænset eksperimentering var muligt med det. Det er her, SoReL-20M kommer ind, med sin 20 millioner PE - prøver og 10 millioner afvæbnede malware-prøver. Ekstraherede funktioner og metadata for en ekstra 10 millioner godartede prøver er også tilgængelige.
Bekymringer for ondsindede forsøg
Da malware i datasættet er afvæbnet, det kan ikke udføres. Eller i det mindste ville det være udfordrende at rekonstituere prøverne og få dem til at køre. Denne proces ville kræve specifik, sofistikerede færdigheder og viden. Men, det er ikke helt umuligt, at en dygtig trusselsaktør kan udtænke teknikker til brug af prøverne.
I virkeligheden, selv, angribere kan udnytte mange andre ressourcer til at få malwareoplysninger på mindre komplicerede måder. I” andre ord, dette afvæbnede prøvesæt vil have meget mere værdi for forskere, der ønsker at forbedre og udvikle deres uafhængige forsvar, end det bliver for angribere,” Tilføjede Sophos.