進化的データマイニング

進化的データマイニング、あるいは遺伝的データマイニングは、進化的アルゴリズムを用いたあらゆるデータマイニングの総称です。DNA配列からのデータマイニングに使用できますが^[1]、生物学的な文脈に限定されず、あらゆる分類ベースの予測シナリオに使用できます。これは、「ユーザーが指定した目標属性の値を、他の属性の値に基づいて予測する」のに役立ちます。^[2]例えば、銀行は顧客の年齢、収入、現在の貯蓄に基づいて、顧客の信用度が「良好」か「不良」かを予測したい場合があります。 ^[2]データマイニングのための進化的アルゴリズムは、一連のランダムルールを作成し、それらをトレーニングデータセットと比較することで機能します。^[3]データに最も適合するルールが選択され、変異されます。^[3]このプロセスは何度も繰り返され、最終的にトレーニングデータとの類似度が100%に近づくルールが生成されます。^[2]このルールは、遺伝的アルゴリズムでは以前は見えなかったテストデータセットと比較されます。^[2]

プロセス

データ準備

進化的アルゴリズムを用いてデータベースからデータをマイニングする前に、まずデータをクリーニングする必要があります。 ^[2]つまり、不完全なデータ、ノイズの多いデータ、あるいは矛盾したデータを修復する必要があります。マイニングを行う前にこの作業を行うことは不可欠です。そうすることで、アルゴリズムはより正確な結果を生成することができるからです。^[3]

データが複数のデータベースから取得される場合、この時点でそれらを統合または結合することができます。^[3]大規模なデータセットを扱う場合、処理するデータの量を減らすことも有益です。^[3]データ削減の一般的な方法の1つは、データベースから正規化されたデータサンプルを取得することです。これにより、はるかに高速でありながら統計的に同等の結果が得られます。^[3]

この時点で、データはテストデータセットとトレーニングデータセットという、同等だが互いに排他的な2つの要素に分割されます。^[2]トレーニングデータセットは、それに近いルールを進化させるために使用されます。^[2]テストデータセットは、これらのルールを承認または否定します。^[2]

データマイニング

進化アルゴリズムは、自然進化を模倣することで機能します。^[3]まず、トレーニングデータセットにランダムな一連の「ルール」が設定され、データを数式に一般化しようとします。^[3]これらのルールはチェックされ、データに最も適合するものが保持され、適合しないものは破棄されます。^[3]保持されたルールはその後、変異され、増殖して新しいルールが作成されます。^[3]

このプロセスは、データセットに可能な限り一致するルールを生成するために、必要に応じて繰り返されます。^[3]このルールが得られたら、テストデータセットと照合されます。^[2]ルールがデータと一致する場合、そのルールは有効であり、保持されます。^[2]データと一致しない場合は、そのルールは破棄され、再びランダムなルールを選択するプロセスが開始されます。^[2]

参照

参考文献

^ Wai-Ho Au、Keith CC Chan、Xin Yao、「A Novel Evolutionary Data Mining Algorithm With Applications to Churn Prediction」、IEEE、2008年12月4日閲覧。
^ abcdefghijk Freitas、Alex A.「データマイニングと知識発見のための進化的アルゴリズムの調査」、パラナ教皇大学、2008 年 12 月 4 日閲覧。
^ abcdefghijk Jiawei Han、Micheline Kamberデータマイニング: 概念と技術(2006)、モーガンカウフマン、ISBN 1-55860-901-6

[wai-ho-1] Wai-Ho Au、Keith CC Chan、Xin Yao、「A Novel Evolutionary Data Mining Algorithm With Applications to Churn Prediction」、IEEE、2008年12月4日閲覧。

[freitas-2] Freitas、Alex A.「データマイニングと知識発見のための進化的アルゴリズムの調査」、パラナ教皇大学、2008 年 12 月 4 日閲覧。

[jiawei-3] Jiawei Han、Micheline Kamberデータマイニング: 概念と技術(2006)、モーガンカウフマン、ISBN 1-55860-901-6

v t e 進化計算
主なトピック	進化アルゴリズム進化的データマイニング進化的マルチモーダル最適化人間ベースの進化計算インタラクティブな進化計算
アルゴリズム	細胞進化アルゴリズム共分散行列適応進化戦略（CMA-ES）文化アルゴリズム差別的進化進化プログラミング遺伝的アルゴリズム遺伝的プログラミング遺伝子発現プログラミング進化戦略自然進化戦略神経進化学習分類システム
関連技術	群知能アリコロニー最適化ミツバチアルゴリズムカッコウ探し粒子群最適化細菌コロニー最適化
メタヒューリスティック手法	ホタルアルゴリズムハーモニーサーチガウス適応ミームアルゴリズム
関連トピック	人工開発人工知能人工生命デジタル生物進化型ロボティクス適応度関数適応度地形適応度近似遺伝的オペレーターインタラクティブな進化計算検索と最適化にはタダ飯はない機械学習交配プール時期尚早の収束プログラム合成
組織	ACM IEEE ACM シゲボ IEEE CIS
会議	中央委員会ゲッコ PPSN エボスター EA フォガ
ジャーナル	進化計算（ジャーナル） IEEEトランスエボルコンピューティング ACM Trans Evol 学習最適化