AIの成功は、すべてデータ管理にかかっています

デイブスミス

人工知能（AI）は、現実であろうと、単純なルールベースの決定のための誇大宣伝されたラベルとしてであろうと、最近どこにでもあり、これはいくつかの興味深い問題につながっています、とGDPRテクノロジーの責任者であるDavidSmithは言います。 SAS UK＆Ireland 。

英国学術協会の次期会長が指摘したように、これらの最初のものは不信感です。ジムアル＝カリーリ教授：「AIに対する世論の反発の本当の危険性があります。これは、ミレニアムの初期にGM [遺伝子組み換え]で起こったものと潜在的に似ています」。 Al-Khaliliは、AIがその潜在能力を最大限に発揮するには、透明性と公的関与が必要であることを強調しています。

2番目の潜在的な問題は制御の問題です。モデルを監視および制御せずに実行したままにしておくと、意思決定が不十分になる可能性があります。この一例は、米国株式市場が36分間で約9％下落した2010年の「フラッシュクラッシュ」である可能性があります。規制当局は、市場を偽装した1人のトレーダーを非難しましたが、アルゴリズム取引システムは、少なくとも部分的にはクラッシュの深さを非難していました。

AIを有効に活用する

とはいえ、AIは、腫瘍画像のより効率的なスクリーニングを通じてより良い癌診断を提供するか、野生の動物の足跡の画像を解釈することによって絶滅危惧種を保護するかにかかわらず、大きな可能性を秘めています。課題は、これらのメリットを確実に実現することです。ここで、AIが適切に使用されるように設計されたFATE（公平性、説明責任、透明性、説明可能性）フレームワークが登場します。データ管理が最大の影響を与える透明性の側面に焦点を当てます。

AIは、それを供給するデータと同じくらい優れている可能性があります。AIアプリケーションを構築して使用するには、データ固有のフェーズがいくつか必要です。

無関係または不正確なアイテムを含むデータに対してモデリングが実行されないようにするためのデータ品質クレンジング
モデリングプロセスを開始する前に、データを変換、結合、強化する
展開。モデルを取得して組織のデータに適用し、意思決定を促進します

これらはそれぞれ価値を付加しますが、AIプロセスの結果を変える可能性もあります。たとえば、データ品質プロセスで外れ値が削除された場合、影響が大きく異なる可能性があります。外れ値の除去が適切である場合、結果はデータの大部分を非常によく反映するモデルになります。一方で、まれではあるが重大な状況を無視し、真の利益をもたらす機会を逃す可能性があります。

これは、ジョスリンベルバーネルが回転する中性子星の一種であるパルサーを発見したことで示されました。彼女は電波望遠鏡からの何マイルものプリントアウトデータを調べていて、100,000データポイントごとに1つの小さな信号に気づきました。彼女の上司がそれは人為的な干渉であると彼女に言ったにもかかわらず、彼女は他の場所で同様の信号を首尾よく探すことによって彼らの存在を固執し証明しました。外れ値が削除されていたら、彼女は発見しなかったでしょう。

データジャーニー

困惑する決定を防ぐために、データ品質も適用する必要があります。 バンクオブアメリカの場合名前データの有効性を確認した場合、「Lisa Is A Slut McXxxxxx」にクレジットカードのオファーを送信していない可能性があります（彼女の名前は編集されています。編集済み） 2014年。ゴールデンキー国際名誉協会からデータを取得しました。、学業成績を認めます。未知の個人がメンバーの登録簿で彼女の名前を編集しました。

次に、プロセスは変換を続行して、モデリング用のデータを準備します。ソースシステムは通常、高度に正規化されており、情報は複数のテーブルに保存されていますが、データサイエンティストは、分析する単一の正方形のテーブルを好みます。多くの場合、分析を支援するために派生変数を追加する必要があります。これらは通常、データサイエンティストによってアドホックなデータ準備環境で最初に定義されますが、本番環境ではより制御された環境に移動する必要があります。

このデータ変換段階の影響は甚大です。まず、分析に使用されているデータソースを理解することが重要です。これは、個人データが使用されているかどうか、または単に正しいデータソースにアクセスしていることを確認するためなどの規制上の懸念に関連している可能性があります。次に、変換が適切で正しく実装されているかどうかを理解することが重要です。実装のエラーは、質の悪いデータと同じくらい損害を与える可能性があります。

AIに直接影響する最後のデータプロセスは展開です。これにより、正しいデータがモデルに確実に入力され、その結果を使用して、組織のパフォーマンスに直接影響する意思決定が行われます。モデルには明確な貯蔵寿命があり、その間、モデルは現実の世界を正確に予測します。そのため、モデルを本番環境にデプロイするのに時間がかかりすぎると、モデルの価値を十分に発揮できません。

組織化された展開プロセスは、GDPR第22条の要件を満たすために必要なコンポーネントでもあります。この記事では、厳格な条件（完全な同意など）が遵守されない限り、個人データの分析プロファイリングの使用を防止します。制御された展開により、AIプロセスで使用されたデータと、一度にデータに適用された分析モデルの概要を把握できます。これは、規制が侵害されているかどうかを判断するために重要です。

全体として、データ管理はAIが真の可能性に到達できるようにするための基本です。データ処理がどのように達成されるかを理解できることは、透明性を維持するための重要な部分であり、公正で信頼できる効果的なAIの主要な柱の1つです。

このブログの作成者は、SAS UK＆IrelandのGDPRテクノロジー責任者であるDavidSmithです。

ビッグデータと建物分析がどこにも行かない理由：パート1 IIoT、インダストリー4.0、フォークトラック無料：パート2

モノのインターネットテクノロジー