目に見えない種の問題
生態学における未観測種問題とは、生態系に存在する種のうち、サンプルで観察されていない種の数を推定する問題です。より具体的には、生態系でより多くのサンプルを採取した場合に、どれだけの新種が発見されるかという問題です。未観測種問題の研究は、1940年代初頭にアレクサンダー・スティーブン・コーベットによって開始されました。彼はイギリス領マラヤで2年間蝶の捕獲を行い、さらに2年間捕獲を続けた場合、どれだけの新種が発見されるのか興味を持ちました。より多くのサンプルを採取した場合にどれだけの新種が発見されるかを判断するために、様々な推定方法が開発されてきました。
未知の種問題はより広い範囲にも適用され、推定量は、サンプル中にこれまで見つからなかった集合の新しい要素を推定するために使用できます。例えば、ウィリアム・シェイクスピアが彼の著作全体に基づいて、彼が知っていた単語の数を判定することが挙げられます。[1]
未知の種の問題は、数学的には次のように分解できます。独立したサンプルが 個採取された場合、さらに独立したサンプルが採取された場合、追加のサンプルによって発見される未知の種の数は で与えられ、 は2番目のサンプル セットです。
歴史
1940年代初頭、アレクサンダー・スティーブン・コーベットはイギリス領マラヤで2年間、蝶の捕獲活動を行いました。[2]彼は観察した種の数と、それぞれの種を何匹捕獲したかを記録していました。例えば、74種の蝶のうち、彼が捕獲したのはたった2匹の蝶でした。
コーベットは英国に戻ると、生物統計学者のロナルド・フィッシャーに近づき、あと2年間罠猟を続ければ、何種類の新しい蝶を捕まえられるか尋ねた。[3]つまり、コーベットは、観察したことがない種がいくつあるかを尋ねていたのである。
フィッシャーは単純な推定で応えた。コーベットはさらに2年間捕獲を続ければ、75種の新種を捕獲できると予測したのだ。彼はこれを、オルリツキー[3]が以下の例の表で提供した単純な合計を用いて行った。ここで、これは観察された個体の数に相当する。フィッシャーの合計は後にグッド・トゥールミン[2]によって確認された。
推定値
未観測の種の数を推定するには、将来のサンプル数()を過去のサンプル数()で割った値、つまり とします。を観測された個々の種の数とします(たとえば、サンプル全体で 2 種の蝶が観測された場合、 となります)。
グッド・トゥールミン推定量
グッド・トゥールミン(GT)推定量は、1953年にグッドとトゥールミンによって開発されました。[4]グッド・トゥールミン推定量に基づく見えない種の推定値は次のように与えられます。グッド・トゥールミン推定量は、以下の値に対する良好な推定値であることが示されています。グッド・トゥールミン推定量は、以下の値も近似的に満たします。これは、以下の値まで推定できることを意味します。
しかし、 の場合、グッド・トゥールミン推定量は正確な結果を捉えることができません。これは、 がに対してで増加し、 の場合、 は では超線形に増加するものの、 ではせいぜい線形にしか増加しないことを意味します。したがって、が よりも速く増加する場合、 は真の値を近似しません。[3]
これを補うために、エフロンとシステッドは1976年[1]に、切り捨てられたオイラー変換も使用可能な推定値(「ET」推定値)になり得ることを示しました。ここで、ここでオイラー変換を切り捨てるために選択された場所です。
平滑化グッド・トゥールミン推定量
Efron と Thisted によるアプローチと同様に、Alon Orlitsky、Ananda Theertha Suresh、および Yihong Wu は滑らかな Good–Toulmin 推定量を開発した。彼らは、Good–Toulmin 推定量が失敗する原因は、バイアスではなく指数関数的増加であることを認識した。[3]そのため、彼らは、級数 を打ち切ることによって未知の種の数を推定した。Orlitsky 、Suresh、および Wu はまた、 の分布については、のどの値を選択するかに関係なく、総和推定値の駆動項は項 になることにも注目した。 [2]この問題を解決するために、彼らはランダムな非負整数 を選択し、 で級数を打ち切ってから、 についての分布で平均を取った。[3]結果として得られる推定量は である。この方法が選択されたのは、のバイアスが係数により符号をシフトするためである。これは、推定値が有病率の線形結合として表されることを意味します。[2]選択された 分布に応じて、結果は異なります。この方法を用いると、 の推定値を得ることができ、これが最良の方法です。[3]
種の発見曲線
種発見曲線も利用できます。この曲線は、ある地域において発見された種の数を時間の関数として表します。これらの曲線は、推定量(グッド・トゥールミン推定量など)を用いて、各値における未発見種の数をプロットすることでも作成できます。[5]
種の発見曲線は常に増加傾向にあります。これは、発見された種の数を減らすようなサンプルは存在しないためです。さらに、種の発見曲線は減速傾向にあります。つまり、サンプルを多く採取すればするほど、発見される未知の種の数は減少すると予想されます。また、種の発見曲線は漸近線を描くこともありません。これは、発見率が無限に遅くなる可能性はあっても、実際には止まることはないと想定されているためです。[5]種の発見曲線の一般的なモデルとしては、対数関数と指数関数の2つがあります。
例: コルベット蝶
例として、1940年代にコーベットがフィッシャーに提供したデータを考えてみましょう。[3]グッド・トゥールミンモデルを使用すると、見えない種の数は次のように求められます。これを使用して、との関係を作成できます。
フィッシャーにコーベットから提供されたデータ[3] 観察されたメンバーの数、 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 種の数、 118 74 44 24 29 22 20 19 20 15 12 14 6 12 6
この関係は以下のグラフに示されています。
グラフから、コーベットがフィッシャーに持ち込んだの値であるにおいて、 の推定値は75となり、フィッシャーの測定値と一致することがわかります。このグラフは、この生態系における種の発見曲線としても機能し、 が増加するにつれて(そしてより多くのサンプルが採取されるにつれて)、どれだけの数の新種が発見されるかを定義します。
その他の用途
予測アルゴリズムには様々な用途があります。推定値が正確であることから、科学者は世論調査の結果を2倍の精度で外挿することができます。また、同様の回答をした人の数に基づいて、異なる回答の数を予測することも可能です。この手法は、ある人の知識の程度を判断するためにも使用できます。
例: シェイクスピアはいくつの単語を知っていましたか?
システッドとエフロンによるシェイクスピアの既知の作品の研究に基づくと、単語の総数は884,647語である。[1]この研究では、100回以上出現する異なる単語が合計で 語あることも判明した。したがって、固有語の総数は31,534語であることが判明した。[1]グッド・トゥールミンモデルを適用すると、同数のシェイクスピアの作品が発見された場合、固有語が見つかると推定される。目標は を導き出すことである。システッドとエフロンは と推定しており、これはシェイクスピアが実際に彼の全著作で使用した語数の2倍以上の語を知っていた可能性が高いことを意味する。[1]
参照
参考文献
- ^ abcde エフロン, ブラッドリー; システッド, ロナルド (1976). 「未知種の数の推定:シェイクスピアは何語を知っていたのか?」バイオメトリカ. 63 (3): 435– 447. doi :10.2307/2335721. JSTOR 2335721.
- ^ abcd Orlitsky, Alon; Suresh, Ananda Theertha; Wu, Yihong (2016-11-22). 「未観測種の数の最適予測」. Proceedings of the National Academy of Sciences . 113 (47): 13283– 13288. Bibcode :2016PNAS..11313283O. doi : 10.1073/pnas.1607774113 . PMC 5127330. PMID 27830649 .
- ^ abcdefgh Orlitsky, Alon; Suresh, Ananda Theertha; Wu, Yihong (2015-11-23). 「目に見えない種の数の推定:手の中の鳥は藪の中のlog nの価値がある」 arXiv : 1511.07428 [math.ST].
- ^ Good, IJ; Toulmin, GH (1956). 「サンプル数の増加に伴う新種の数と個体群被覆率の増加」 . Biometrika . 43 ( 1–2 ): 45–63 . doi :10.1093/biomet/43.1-2.45. ISSN 0006-3444.
- ^ ab Bebber, D. P; Marriott, FHC; Gaston, K. J; Harris, S. A; Scotland, R. W (2007年7月7日). 「発見曲線を用いた未知種数の予測」Proceedings of the Royal Society B: Biological Sciences . 274 (1618): 1651– 1658. doi :10.1098/rspb.2007.0464. PMC 2169286. PMID 17456460 .
