進化的データマイニング

進化的データマイニング、あるいは遺伝的データマイニングは、進化的アルゴリズムを用いたあらゆるデータマイニングの総称です。DNA配列からのデータマイニングに使用できますが[1]生物学的な文脈に限定されず、あらゆる分類ベースの予測シナリオに使用できます。これは、「ユーザーが指定した目標属性の値を、他の属性の値に基づいて予測する」のに役立ちます。[2]例えば、銀行は顧客の年齢、収入、現在の貯蓄に基づいて、顧客の信用度が「良好」か「不良」かを予測したい場合があります。 [2]データマイニングのための進化的アルゴリズムは、一連のランダムルールを作成し、それらをトレーニングデータセットと比較することで機能します[3]データに最も適合するルールが選択され、変異されます。[3]このプロセスは何度も繰り返され、最終的にトレーニングデータとの類似度が100%に近づくルールが生成されます。[2]このルールは、遺伝的アルゴリズムでは以前は見えなかったテストデータセットと比較されます。[2]

プロセス

データ準備

進化的アルゴリズムを用いてデータベースからデータをマイニングする前に、まずデータをクリーニングする必要があります。 [2]つまり、不完全なデータ、ノイズの多いデータ、あるいは矛盾したデータを修復する必要があります。マイニングを行う前にこの作業を行うことは不可欠です。そうすることで、アルゴリズムはより正確な結果を生成することができるからです。[3]

データが複数のデータベースから取得される場合、この時点でそれらを統合または結合することができます。[3]大規模なデータセットを扱う場合、処理するデータの量を減らすことも有益です。[3]データ削減の一般的な方法の1つは、データベースから正規化されたデータサンプルを取得することです。これにより、はるかに高速でありながら統計的に同等の結果が得られます。[3]

この時点で、データはテストデータセットとトレーニングデータセットという、同等だが互いに排他的な2つの要素に分割されます。[2]トレーニングデータセットは、それに近いルールを進化させるために使用されます。[2]テストデータセットは、これらのルールを承認または否定します。[2]

データマイニング

進化アルゴリズムは、自然進化を模倣することで機能します[3]まず、トレーニングデータセットにランダムな一連の「ルール」が設定され、データを数式に一般化しようとします。[3]これらのルールはチェックされ、データに最も適合するものが保持され、適合しないものは破棄されます。[3]保持されたルールはその後、変異され、増殖して新しいルールが作成されます。[3]

このプロセスは、データセットに可能な限り一致するルールを生成するために、必要に応じて繰り返されます。[3]このルールが得られたら、テストデータセットと照合されます。[2]ルールがデータと一致する場合、そのルールは有効であり、保持されます。[2]データと一致しない場合は、そのルールは破棄され、再びランダムなルールを選択するプロセスが開始されます。[2]

参照

参考文献

  1. ^ Wai-Ho Au、Keith CC Chan、Xin Yao、「A Novel Evolutionary Data Mining Algorithm With Applications to Churn Prediction」、IEEE、2008年12月4日閲覧。
  2. ^ abcdefghijk Freitas、Alex A.「データ マイニングと知識発見のための進化的アルゴリズムの調査」、パラナ教皇大学、2008 年 12 月 4 日閲覧。
  3. ^ abcdefghijk Jiawei Han、Micheline Kamberデータ マイニング: 概念と技術(2006)、モーガン カウフマンISBN 1-55860-901-6
「https://en.wikipedia.org/w/index.php?title=進化的データマイニング&oldid=1237651186」より取得