Casa > Ciber Noticias > Conjunto de datos SoReL-20M de 20 Millones de muestras de malware ahora están en línea
CYBER NOTICIAS

Conjunto de datos SoReL-20M de 20 Millones de muestras de malware ahora están en línea

bella guía de eliminación de troyano mac de administración remotaSi escuchas que un conjunto de datos de 20 millones de muestras de malware ahora están disponibles en línea, ¿Cómo te haría sentir eso?? Tal vez preocupado? La verdad es que este conjunto de datos ahora es accesible para el público., sino como parte de una misión para lograr “conocimiento abierto y comprensión de las amenazas cibernéticas.”

SoReL-20M, Un conjunto de datos de millones de muestras de malware

Las empresas de ciberseguridad Sophos y ReversingLabs acaban de lanzar SoReL-20M, un conjunto de datos de 20 millones de archivos ejecutables portátiles de Windows (.EN), Incluido 10 millones de muestras de malware desarmadas. El propósito del notable esfuerzo es mejorar aprendizaje automático para mejores capacidades de detección de malware.




Gracias a este proyecto, “Los defensores podrán anticipar lo que están haciendo los atacantes y estar mejor preparados para su próximo movimiento.,” Sophos dijo.

“Este conjunto de datos es el primer conjunto de datos de investigación de malware a escala de producción disponible para el público en general., con un conjunto seleccionado y etiquetado de muestras y metadatos relevantes para la seguridad, que anticipamos acelerará aún más la investigación para la detección de malware a través del aprendizaje automático,” la empresa agregó.

¿Cómo se organiza el contenido del conjunto de datos?? Las muestras se dividen en varias secciones., incluida la formación, validación, y prueba de divisiones en función de la primera vez que se ve. Cada muestra contiene los siguientes detalles:

1. Características extraídas según el EMBER 2.0 conjunto de datos
2. Etiquetas obtenidas agregando fuentes externas e internas de Sophos en una sola, etiqueta de alta calidad
3. Metadatos de detección de muestra por muestra, incluido el número total de resultados positivos en los motores de ReversingLabs, y etiquetas que describen atributos importantes de las muestras obtenidas según nuestro artículo “Descripción automática de malware mediante etiquetado de atributos e incrustación de similitudes” https://arxiv.org/abs/1905.06262
4. Volcados completos de metadatos de archivos obtenidos de la biblioteca pefile utilizando dump_dict() método
5. Para muestras de malware, proporcionamos binarios completos, con el indicador OptionalHeader.Subsystem y el valor del encabezado FileHeader.Machine ambos establecidos en 0 para evitar la ejecución accidental.

Los investigadores también lanzaron un conjunto de modelos PyTorch pre-entrenados y modelos LightGBM junto con SoReL-20M.. Los scripts para cargar e iterar sobre los datos y probar los modelos también están disponibles..
En verdad, este no es el primer conjunto de datos de muestras de malware recopiladas con fines de investigación. HUMANO, abreviatura de Endgame Malware BEnchmark for Research se lanzó en 2018 como clasificador de malware de código abierto.

Sin embargo, el tamaño del proyecto no era suficiente, y solo fue posible una experimentación limitada con él. Aquí es donde entra en juego SoReL-20M, con su 20 millones de muestras de PE y 10 millones de muestras de malware desarmadas. Funciones y metadatos extraídos para un adicional 10 millones de muestras benignas también están disponibles.

Preocupaciones por intentos maliciosos

Dado que el malware en el conjunto de datos está desarmado, no se puede ejecutar. O al menos sería un desafío reconstituir las muestras y hacerlas correr. Este proceso requeriría, habilidades y conocimientos sofisticados. Sin embargo, No es del todo imposible que un actor de amenazas experto pueda idear técnicas para utilizar las muestras.

En realidad, aunque, Los atacantes pueden aprovechar muchos otros recursos para obtener información sobre malware de formas menos complicadas.. En” otras palabras, Este conjunto de muestra desarmado tendrá mucho más valor para los investigadores que buscan mejorar y desarrollar sus defensas independientes que para los atacantes.,” Sophos agregó.

Milena Dimitrova

Un escritor inspirado y administrador de contenido que ha estado con SensorsTechForum desde que comenzó el proyecto.. Un profesional con 10+ años de experiencia en la creación de contenido atractivo. Centrado en la privacidad de los usuarios y el desarrollo de malware, ella cree firmemente en un mundo donde la seguridad cibernética juega un papel central. Si el sentido común no tiene sentido, ella estará allí para tomar notas. Esas notas pueden convertirse más tarde en artículos! Siga Milena @Milenyim

Más Mensajes

Sígueme:
Gorjeo

Dejar un comentario

Su dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

This website uses cookies to improve user experience. By using our website you consent to all cookies in accordance with our política de privacidad.
Estoy de acuerdo