のデータセットを聞いた場合 20 百万のマルウェアサンプルがオンラインで利用可能になりました, それはあなたをどのように感じさせますか? 多分心配? 真実は、そのようなデータセットが現在一般にアクセス可能であるということです, しかし、達成するための使命の一部として “オープンな知識とサイバー脅威の理解。”
SoReL-20M, 数百万のマルウェアサンプルのデータセット
サイバーセキュリティ企業のSophosとReversingLabsがSoReL-20Mをリリースしました, のデータセット 20 百万のWindowsポータブル実行可能ファイル (.PE), 含む 10 百万の武装解除されたマルウェアサンプル. 目覚ましい努力の目的は改善することです 機械学習 より良いマルウェア検出機能のために.
このプロジェクトのおかげで, “防御側は、攻撃者が何をしているのかを予測し、次の動きに備えることができます。,” ソフォソは言った.
“このデータセットは、一般の人々が利用できる最初の本番規模のマルウェア研究データセットです。, 厳選されラベル付けされたサンプルのセットとセキュリティ関連のメタデータ, 機械学習によるマルウェア検出の研究がさらに加速すると予想されます,” 会社は付け加えた.
データセットコンテンツはどのように配置されていますか? サンプルはいくつかのセクションに分かれています, トレーニングを含む, 検証, 最初に見た時間に基づいて分割をテストします. 各サンプルには、次の詳細が含まれています:
1. EMBERに従って抽出された機能 2.0 データセット
2. 外部ソースとSophos内部ソースの両方を1つに集約して取得したラベル, 高品質のラベル
3. サンプルごとの検出メタデータ, ReversingLabsエンジンでの肯定的な結果の総数を含む, および私たちの論文に従って得られたサンプルの重要な属性を説明するタグ “属性のタグ付けと類似性の埋め込みによるマルウェアの自動記述” https://arxiv.org/abs/1905.06262
4. dump_dictを使用してpefileライブラリから取得したファイルメタデータの完全なダンプ() 方法
5. マルウェアサンプルの場合, 完全なバイナリを提供します, OptionalHeader.SubsystemフラグとFileHeader.Machineヘッダー値の両方がに設定されている 0 偶発的な実行を防ぐため.
研究者たちはまた、SoReL-20Mと一緒に事前に訓練されたPyTorchモデルとLightGBMモデルのセットをリリースしました. データをロードして反復し、モデルをテストするためのスクリプトも利用できます.
実は, これは、調査目的で収集されたマルウェアサンプルの最初のデータセットではありません. 残り火, Endgame Malware BEnchmarkforResearchの略でリリースされました 2018 オープンソースのマルウェア分類子として.
でも, プロジェクトのサイズが十分ではありませんでした, 限られた実験しかできませんでした. これがSoReL-20Mの出番です, そのと 20 百万のPEサンプルと 10 百万の武装解除されたマルウェアサンプル. 追加のために抽出された特徴とメタデータ 10 数百万の良性サンプルも利用可能です.
悪意のある試みの懸念
データセット内のマルウェアが武装解除されているため, 実行できません. または、少なくともサンプルを再構成して実行するのは難しいでしょう。. このプロセスには特定のものが必要です, 洗練されたスキルと知識. でも, 熟練した脅威アクターがサンプルを使用するための技術を考案することは完全に不可能ではありません.
実際には, けれど, 攻撃者は他の多くのリソースを活用して、それほど複雑でない方法でマルウェア情報を取得できます. の” 言い換えれば, この武装解除されたサンプルセットは、攻撃者よりも独立した防御を改善および開発しようとしている研究者にとってはるかに価値があります。,” ソフォソが追加.