Se você ouvir que um conjunto de dados de 20 milhões de amostras de malware estão agora disponíveis online, Como poderia isso te fazer sentir? Talvez preocupado? A verdade é que esse conjunto de dados agora está acessível ao público, mas como parte de uma missão de cumprir “conhecimento aberto e compreensão das ameaças cibernéticas.”
SoReL-20M, Um conjunto de dados de milhões de amostras de malware
As empresas de segurança cibernética Sophos e ReversingLabs acabam de lançar SoReL-20M, um conjunto de dados de 20 milhões de arquivos executáveis portáteis do Windows (.EM), Incluindo 10 milhões de amostras de malware desarmado. O objetivo do esforço notável é melhorar aprendizado de máquina para melhores recursos de detecção de malware.
Graças a este projeto, “os defensores serão capazes de antecipar o que os atacantes estão fazendo e estar mais bem preparados para o próximo movimento,” Sophos disse.
“Este conjunto de dados é o primeiro conjunto de dados de pesquisa de malware em escala de produção disponível para o público em geral, com um conjunto selecionado e rotulado de amostras e metadados relevantes para a segurança, que prevemos que irá acelerar ainda mais a pesquisa para detecção de malware por meio de aprendizado de máquina,” a empresa adicionou.
Como o conteúdo do conjunto de dados é organizado? As amostras são divididas em várias seções, incluindo treinamento, validação, e testar divisões com base no tempo visto pela primeira vez. Cada amostra contém os seguintes detalhes:
1. Recursos extraídos de acordo com o EMBER 2.0 dataset
2. Rótulos obtidos pela agregação de fontes externas e internas da Sophos em um único, etiqueta de alta qualidade
3. Metadados de detecção de amostra por amostra, incluindo o número total de resultados positivos nos motores ReversingLabs, e tags que descrevem atributos importantes das amostras obtidas de acordo com nosso artigo “Descrição automática de malware por meio de marcação de atributos e incorporação de similaridade” https://arxiv.org/abs/1905.06262
4. Despejos completos de metadados de arquivo obtidos da biblioteca pefile usando o dump_dict() método
5. Para amostras de malware, nós fornecemos binários completos, com o sinalizador OptionalHeader.Subsystem e o valor do cabeçalho FileHeader.Machine definidos como 0 para prevenir a execução acidental.
Os pesquisadores também lançaram um conjunto de modelos PyTorch pré-treinados e modelos LightGBM juntamente com SoReL-20M. Scripts para carregar e iterar os dados e testar os modelos também estão disponíveis.
Em verdade, este não é o primeiro conjunto de dados de amostras de malware coletadas para fins de pesquisa. HUMANO, abreviação de Endgame Malware BEnchmark for Research foi lançado em 2018 como um classificador de malware de código aberto.
Contudo, o tamanho do projeto não era suficiente, e apenas experimentação limitada foi possível com ele. É aqui que entra o SoReL-20M, com a sua 20 milhões de amostras de PE e 10 milhões de amostras de malware desarmado. Recursos extraídos e metadados para um 10 milhões de amostras benignas também estão disponíveis.
Preocupações com tentativas maliciosas
Uma vez que o malware no conjunto de dados está desarmado, não pode ser executado. Ou pelo menos seria um desafio reconstituir as amostras e fazê-las funcionar. Este processo exigiria, habilidades e conhecimentos sofisticados. Contudo, não é totalmente impossível que um ator de ameaça habilidoso possa desenvolver técnicas para usar as amostras.
Na realidade, Apesar, os invasores podem aproveitar muitos outros recursos para obter informações sobre malware de maneiras menos complicadas. No” outras palavras, este conjunto de amostra desarmado terá muito mais valor para os pesquisadores que procuram melhorar e desenvolver suas defesas independentes do que para os atacantes,” Sophos adicionado.