Si vous entendez qu'un ensemble de données de 20 millions d'échantillons de logiciels malveillants sont désormais disponibles en ligne, Comment cela vous ferait-il vous sentir? Peut-être inquiet? La vérité est qu'un tel ensemble de données est désormais accessible au public, mais dans le cadre d'une mission d'accomplissement “connaissance ouverte et compréhension des cybermenaces.”
SoReL-20M, Un ensemble de données de millions d'échantillons de logiciels malveillants
Les sociétés de cybersécurité Sophos et ReversingLabs viennent de publier SoReL-20M, un ensemble de données de 20 millions de fichiers exécutables portables Windows (.SUR), Y compris 10 millions d'échantillons de logiciels malveillants désarmés. Le but de cet effort remarquable est d'améliorer apprentissage machine pour de meilleures capacités de détection des logiciels malveillants.
Grâce à ce projet, “les défenseurs pourront anticiper ce que font les attaquants et être mieux préparés pour leur prochain coup,” Sophos a dit.
“Cet ensemble de données est le premier ensemble de données de recherche sur les logiciels malveillants à l'échelle de la production accessible au grand public, avec un ensemble d'échantillons organisés et étiquetés et des métadonnées pertinentes pour la sécurité, qui, selon nous, accélérera encore la recherche pour la détection de logiciels malveillants via l'apprentissage automatique,” la société a ajouté.
Comment le contenu de l'ensemble de données est-il organisé? Les échantillons sont divisés en plusieurs sections, y compris la formation, validation, et tester les divisions sur la base de la première fois. Chaque échantillon contient les détails suivants:
1. Caractéristiques extraites selon EMBER 2.0 base de données
2. Libellés obtenus en regroupant les sources externes et internes de Sophos en un seul, label de qualité
3. Métadonnées de détection échantillon par échantillon, y compris le nombre total de résultats positifs sur les moteurs ReversingLabs, et des balises décrivant les attributs importants des échantillons obtenus selon notre article “Description automatique des logiciels malveillants via le marquage d'attributs et l'intégration de similitudes” https://arxiv.org/abs/1905.06262
4. Sauvegardes complètes des métadonnées de fichier obtenues à partir de la bibliothèque pefile à l'aide de dump_dict() méthode
5. Pour les échantillons de logiciels malveillants, nous fournissons des binaires complets, avec l'indicateur OptionalHeader.Subsystem et la valeur d'en-tête FileHeader.Machine tous deux définis sur 0 pour éviter une exécution accidentelle.
Les chercheurs ont également publié un ensemble de modèles PyTorch et LightGBM pré-entraînés aux côtés de SoReL-20M.. Des scripts pour charger et parcourir les données et tester les modèles sont également disponibles.
En vérité, ce n’est pas le premier ensemble de données d’échantillons de logiciels malveillants recueillis à des fins de recherche. HUMAIN, Abréviation de Endgame Malware BEnchmark for Research a été publié en 2018 en tant que classificateur de malware open source.
Cependant, la taille du projet n’était pas suffisante, et seule une expérimentation limitée était possible avec. C'est là qu'intervient SoReL-20M, avec son 20 millions d'échantillons PE et 10 millions d'échantillons de logiciels malveillants désarmés. Fonctions et métadonnées extraites pour un complément 10 millions d'échantillons bénins sont également disponibles.
Préoccupations des tentatives malveillantes
Étant donné que le logiciel malveillant de l'ensemble de données est désarmé, il ne peut pas être exécuté. Ou du moins, il serait difficile de reconstituer les échantillons et de les faire fonctionner. Ce processus nécessiterait des, compétences et connaissances sophistiquées. Cependant, il n'est pas entièrement impossible qu'un acteur de la menace expérimenté puisse concevoir des techniques pour utiliser les échantillons.
Dans la réalité, bien que, les attaquants peuvent exploiter de nombreuses autres ressources pour obtenir des informations sur les logiciels malveillants de manière moins compliquée. Dans” autres mots, cet ensemble d'échantillons désarmé aura beaucoup plus de valeur pour les chercheurs qui cherchent à améliorer et développer leurs défenses indépendantes qu'il n'en aura pour les attaquants,” Sophos ajouté.