1. 序章

このチュートリアルでは、統計的サンプリングにおける選択バイアスの主題とそれを制限するための手法について説明します。

2. 生死に関わる事

2.1. 統計で戦争に勝つ

選択バイアスは、統計分析機械学習で一般的なバイアスの一種です。 予測モデルのトレーニングに使用するデータの歪みが原因で、予測モデルでエラーが発生する可能性があります。

選択バイアスの問題を紹介するときによく言われる話は、有名な数学者である博士の仕事に関連しています。 ウォルド。 戦争中、ウォルドはアメリカ海軍から空中戦での死傷者を最小限に抑える問題を研究するように命じられました

博士 Waldは最初に各戦闘後にダメージのためにより頻繁に修理されたエリアのリストを取りました。 次に彼は、直感に反して、損傷を受けやすいと報告された領域が航空機のシャーシ内で最も強い領域であると判断しました。 したがって、彼は、戦闘後にメンテナンスを受けなかった航空機の部分を強化することを提案しました。

彼の同僚は彼に同意しませんでした、そして当然のことながらそうです。 結局のところ、航空機の最も頻繁に損傷した部品が最も耐久性があると誰かがどのように主張できるでしょうか? それらが非常に頻繁に損傷している場合、確かにそれらはまったく耐久性がありませんか、それともそれらですか?

2.2. 最悪の教訓は生存者によって教えられています

ウォルドは、航空機が最初に整備士によって修理されるためには、航空機は戦闘を生き残り、安全に格納庫に到達しなければならないと主張しました。 すべての航空機が破壊されたわけではなく、ひどく損傷した航空機は、最終的に破壊されてしまいます。 実際、コックピットやウィングエンジンなど、メンテナンス対象外のエリアで損傷を受けた航空機はすべて、敵が撃墜した航空機でした。

この短編小説は、選択バイアスの問題を紹介します。 統計サンプルを選択する手順により、そのサンプルに対して計算する統計に歪みが生じる可能性があります。 この場合、分析によって導き出される結論も同じバイアスの影響を受けます。

3. すべての宝くじプレーヤーが勝者です

あまり有名ではない話は、数年前にいくつかの宝くじの抜歯を続けて獲得したことで有名になったフロリダ出身のアメリカ人男性に関するものです。 ABC News が発表した一連のインタビュー、および彼が書いたで、宝くじプレーヤーは人々に成功の秘訣を勧めました。 「宝くじを買う」と彼は言った。 そして、あなたが勝った場合、「宝くじのお金を常に使って、より多くのチケットを購入する」。

彼が提唱した意思決定プロセスをフローチャートで概念化できます。

確かに、この戦略と彼の秘密のレシピは、少なくとも彼にとっては機能していました。 彼らは彼を約10年の間に総利益で100万ドル以上を獲得するように導きました。

しかし、もっと興味深いことに、この戦略を適用して勝ったのは彼だけではありません。 実は目立った人数で具体的に適用し、実に大きな収益を上げている方もいらっしゃいます。

したがって、私たちは議論することができます、それは私たちの貯蓄を宝くじに投資するのは良い考えです。 結局のところ、多くの観察事例は、人々が実際に大きな勝利を収めていることを示唆しています。

4. 偏見のある選択

4.1. 暗黙の除外

この考え方には誤りがなければなりません。 しかし、正確にはどこですか?

以前の戦略がお勧めできない理由は、それが確実な損失につながるということではありません。実際、一部の人々はそれを適用することで百万長者になります。 むしろ、問題は、観察が私たちの先入観を満たしている場合に焦点を当てることと、私たちの期待と矛盾する場合を除外することに関係しています。

この特定の戦略をうまく適用した人々の言葉だけを考慮することによって、私たちはそのオッズが好ましいと誤解されています。 したがって、ベイズの用語では、成功の先験的な確率は非常に高いと信じることができます。 そしてもちろん、私たちは間違っているでしょう。

4.2. 問題は統計ではなく統計家にある

これらの考慮事項は、分析を行う観測を選択するために使用する方法によれば、非常に誤った現実の理解を得る可能性があることを示しています

賭け方法の成功した結果に対応する例の選択は、一種の選択バイアスです。 より具体的には、前の例の本の著者がその方法をうまく適用した人からのみ手紙を受け取り、代わりに彼の戦略に対する苦情を自発的に破棄することを選択しなかった場合、代わりに生存者バイアスについて話します[X271X ]。

後者の理由は、利益を得た人の数よりも多くの人が戦略を適用したと予想される一方で、勝者だけが手紙を書く理由を見つけたと想像できるからです。感謝の気持ちから著者。 残りの人々は、すでに10ドルを失ったことを考慮して、代わりに単に損失を減らし、手紙を送るために必要な切手を支払わないことを決定するかもしれません。

これらの考慮事項は、選択バイアスが私たちが研究している現象に関係する問題ではないことを示しています。 むしろ、それは統計家の選択または彼らが実施する調査に依存します。 私たちが個人的に統計分析を行う場合、私たちは警戒を怠らず、それを防ぐ責任があります。

5. 選択バイアスを防ぐ方法

5.1. 文献を確認する

選択バイアスとは何か、そしてそれが統計分析にどのように影響するかを理解したので、それを防ぐためにどのような方法が利用できるかを検討する時が来ました。 完全な予防が不可能な場合があります:その場合、可能な限りそれを減らすことが適切です。

私たちが使用できる最初の方法は、科学研究におけるグッドプラクティスの原則の適用です。これは、私たちが研究する主題に関する最新の知識を持っていることを意味します。 具体的には、私たちが分析している現象について、文献のレビューから調査を開始するのが通例です。

たとえば、アンケートを実施することにより、人口のレベルの学校教育と教育を調査していると仮定します。 関係国の政府機関が過去に同じトピックに関する報告書をまとめていることを期待すべきである。 これらのレポートは、より適切な科学的情報源とともに、私たちが研究に持ち込む事前知識を構成します。

5.2. 方法論と理論の間の一貫性

2番目の方法は、私たちが研究する現象に適した観察またはサンプリング方法論の適用で構成されています。 私たちがまだ教育の成果について学ぶことに興味があり、自己申告の教育レベルについて住民に書面で質問票を提出する場合、私たちの研究に選択バイアスを導入することは確実です。 実際、すべての文盲の人は、定義上、読むことができないという理由で、書かれた質問票に答えることができません。

5.3. ランダムサンプリングと層別化

また、特定の母集団について、その個体を互いに非常に類似したクラスターにグループ化できることもあります。 そのような場合、ランダムおよび層化サンプリングの手法を使用するのが適切です。

層化抽出の背後にある考え方は、一部の母集団を内部的に均質なグループに分割できる場合、分析する統計サンプルには、グループの重みに比例して、それらのグループに属する個人が含まれる必要があるということです。総人口。

5.4. あなたの事前確率を知る

そして最後に、原則として、統計分析を行うときは、常にベイズのモットーである「汝自身を知れ、汝自身を知れ」に従う必要があります。 研究に組み込んだ研究仮説について明確な考えがあり、観察することが期待される事前分布についても良い考えがある場合、私たちは仕事で選択バイアスを見つける可能性がはるかに高くなります。 。

これは、実際には、統計的な変動では説明できない、理論的な事前分布からの全体的かつ体系的な偏差として現れます。

6. 結論

この記事では、統計分析を行う際の選択バイアスを防ぐ方法を研究しました。