Si escuchas que un conjunto de datos de 20 millones de muestras de malware ahora están disponibles en línea, ¿Cómo te haría sentir eso?? Tal vez preocupado? La verdad es que este conjunto de datos ahora es accesible para el público., sino como parte de una misión para lograr “conocimiento abierto y comprensión de las amenazas cibernéticas.”
SoReL-20M, Un conjunto de datos de millones de muestras de malware
Las empresas de ciberseguridad Sophos y ReversingLabs acaban de lanzar SoReL-20M, un conjunto de datos de 20 millones de archivos ejecutables portátiles de Windows (.EN), Incluido 10 millones de muestras de malware desarmadas. El propósito del notable esfuerzo es mejorar aprendizaje automático para mejores capacidades de detección de malware.
Gracias a este proyecto, “Los defensores podrán anticipar lo que están haciendo los atacantes y estar mejor preparados para su próximo movimiento.,” Sophos dijo.
“Este conjunto de datos es el primer conjunto de datos de investigación de malware a escala de producción disponible para el público en general., con un conjunto seleccionado y etiquetado de muestras y metadatos relevantes para la seguridad, que anticipamos acelerará aún más la investigación para la detección de malware a través del aprendizaje automático,” la empresa agregó.
¿Cómo se organiza el contenido del conjunto de datos?? Las muestras se dividen en varias secciones., incluida la formación, validación, y prueba de divisiones en función de la primera vez que se ve. Cada muestra contiene los siguientes detalles:
1. Características extraídas según el EMBER 2.0 conjunto de datos
2. Etiquetas obtenidas agregando fuentes externas e internas de Sophos en una sola, etiqueta de alta calidad
3. Metadatos de detección de muestra por muestra, incluido el número total de resultados positivos en los motores de ReversingLabs, y etiquetas que describen atributos importantes de las muestras obtenidas según nuestro artículo “Descripción automática de malware mediante etiquetado de atributos e incrustación de similitudes” https://arxiv.org/abs/1905.06262
4. Volcados completos de metadatos de archivos obtenidos de la biblioteca pefile utilizando dump_dict() método
5. Para muestras de malware, proporcionamos binarios completos, con el indicador OptionalHeader.Subsystem y el valor del encabezado FileHeader.Machine ambos establecidos en 0 para evitar la ejecución accidental.
Los investigadores también lanzaron un conjunto de modelos PyTorch pre-entrenados y modelos LightGBM junto con SoReL-20M.. Los scripts para cargar e iterar sobre los datos y probar los modelos también están disponibles..
En verdad, este no es el primer conjunto de datos de muestras de malware recopiladas con fines de investigación. HUMANO, abreviatura de Endgame Malware BEnchmark for Research se lanzó en 2018 como clasificador de malware de código abierto.
Sin embargo, el tamaño del proyecto no era suficiente, y solo fue posible una experimentación limitada con él. Aquí es donde entra en juego SoReL-20M, con su 20 millones de muestras de PE y 10 millones de muestras de malware desarmadas. Funciones y metadatos extraídos para un adicional 10 millones de muestras benignas también están disponibles.
Preocupaciones por intentos maliciosos
Dado que el malware en el conjunto de datos está desarmado, no se puede ejecutar. O al menos sería un desafío reconstituir las muestras y hacerlas correr. Este proceso requeriría, habilidades y conocimientos sofisticados. Sin embargo, No es del todo imposible que un actor de amenazas experto pueda idear técnicas para utilizar las muestras.
En realidad, aunque, Los atacantes pueden aprovechar muchos otros recursos para obtener información sobre malware de formas menos complicadas.. En” otras palabras, Este conjunto de muestra desarmado tendrá mucho más valor para los investigadores que buscan mejorar y desarrollar sus defensas independientes que para los atacantes.,” Sophos agregó.