革新的な機械学習アルゴリズムがソーシャルメディア上の偽 ID を検出

特に米国の選挙に影響を与えるためにロシアがソーシャルサイトを標的として使用し、ユーザーのプライバシーを保護できなかったことを受けて、偽ユーザーを特定することはソーシャルネットワーキング企業にとって最優先事項となっています。

今回、ワシントン大学とネゲブ大学の研究者らは、Twitter や Facebook などのソーシャルネットワーキングプラットフォーム上で偽のユーザーを見つけるための、新しい汎用教師なし学習アルゴリズムを構築しました。

新しいアルゴリズムは、偽のユーザーがネットワーク内の他のユーザーへの不適切なリンクを作成する傾向があるという予測に基づいています。研究者らは、事前のグラフ知識を必要としないリンク予測手法を異常検出モデルに組み込みました。

グラフトポロジは、大規模で複雑なネットワーク内の異常な頂点を検出するための新しい汎用方法を構築するために利用されています。このアルゴリズムには、機械学習技術に基づいた 2 つの重要な反復があります。

<オル>

2 人のユーザー間のリンク確率を推定するためのリンク予測分類器を作成する

リンク予測分類子によって生成された特徴に基づいて、新しいメタ特徴セットを作成します。

研究者らは、異常を検出するための効果的な予測因子となると考えられる 7 つの新しい機能を提案しました。どの新機能が最も影響力があるかを判断するために、Weka の情報獲得属性選択アルゴリズムを使用してその重要性を調べました。

参照:SpringerLink |土井:10.1007/s13278-018-0503-4 | BGU

次に、ラベル付きの異常な頂点を持つ現実世界のネットワーク、シミュレートされた異常な頂点を持つ現実世界のネットワーク、完全にシミュレートされたネットワークの 3 種類の複雑なネットワークに対して広範な実験評価を実施しました。

データセットについて言えば、Flixster10、Dblp8、Yelp、Academia.edu、ArXiv5、Twitter を含む 10 の異なるネットワークを使用しました。

赤い頂点は異常な頂点を示し、赤いエッジは偽物である可能性が最も低くなります。

結果は、このアルゴリズムが Twitter を含む実際のネットワーク上で本物のユーザーと悪意のあるユーザーの両方を検出できることを示しています。この技術は他の異常検出技術よりも優れており、開発者によれば、特にサイバーセキュリティ分野で多くの用途に応用できる可能性があるとのことです。

開発者は、重み付きグラフや二部グラフなど、他の種類のネットワーク用のアルゴリズムを検討する予定です。また、ランダムなエッジと頂点が結合されたときにネットワークのプロパティに何が起こるかについても研究します。

彼らはさらに、同じアルゴリズムをソーシャルプラットフォームでハイジャックされたアカウントを検出するために使用する方法を示す予定です。さらに、本物の頂点と偽の頂点を区別できなくなるためには、どの程度の規模のシビル攻撃を実装する必要があるのかを確認するのも興味深いかもしれません。

読む:22 の無料ソーシャルネットワーク分析ツール

今のところ、研究者らは、ラベル付きの偽IDを含む現実世界のデータセットを含む、すべてのコードとデータをオンラインで公開している。誰でもこれをオープンフレームワークとして使用し、将来の頂点異常検出方法を強化し、その結果を比較することができます。

産業技術

革新的な機械学習アルゴリズムがソーシャル メディア上の偽 ID を検出