1. 概要

このチュートリアルでは、相関分析における相関係数の意味を学習します。

まず、変数間の一般的な相関の概念について説明します。 これは、相関分析が最初に開発された理由を理解するのに役立ちます。

次に、相関分析の2つの主要な手法、スピアマンとピアソンの相関について学習します。 それらに関連して、数学的定式化とその応用の両方を見ていきます。

最後に、相関係数の値に基づいて、2変量分布について推測できることを要約します。

このチュートリアルの最後に、相関係数が何を表すかを直感的に理解します。 また、直面している具体的なタスクを解決するために、スピアマンとピアソンの相関関係から選択することもできます。

2. 一般的な相関関係

2.1. 相関のアイデア

相関分析は、統計分析の方法論であり、確率変数間の関係の研究に特化しています。 ある変数の値が別の変数に依存する可能性があるという考えに関連しているため、依存関係と呼ばれることもあります。 すぐに、相関の数学的定義を研究する予定です。 ただし、最初に、相関関係が何を意味するのかを直感的に理解することをお勧めします。

小さな例でそうすることができます。 一般的に、個人の体重と身長は一緒になる傾向があることを私たちは知っています。 これは、人が背が高いほど、体重が高くなる傾向があることを意味します。

これは、体重と身長の関係が依存性によって特徴付けられるかもしれないという仮説につながります。 ただし、この仮説をテストするには、2つの変数間の依存度を測定するための何らかの指標または指標が必要です。 その尺度は、相関と呼ばれるものです。

実際、依存関係は強いか弱いか、または単に完全に存在しない可能性があると想像するかもしれません。

必要なインデックスは、それが持つ価値に基づいて、それらのケースを一目で区別できるようにする必要があります。

2.2. 相関関係と因果関係ではない

相関は、探索的データ分析の重要なツールです。これにより、線形独立ではないと思われる特徴を事前に特定できるためです。 因果関係のテストには既知の方法があり、コアメトリックに関して相関関係を使用するため、因果関係の特定にも重要です。

統計家の間には、相関関係は因果関係を意味しないという一般的な文があります。 この背後にある考え方は、相関している2つの変数について、因果関係を当然のこととして与えることはできないということです

ここで参照する含意は、命題論理におけるいわゆる重要な含意です。 したがって、その表現を形式化するために、含意を処理するためのルールを使用できます。 相関関係を特定し、因果関係を特定する場合、この含意は正式に次のように述べています。

ブール論理に関する記事で、フォームの式を。として書き直すことができることを学びました。 これは、式をに変換できることを意味します。 括弧の間の項にド・モルガンの法則を使用すると、が得られます。これは、相関関係はあるが因果関係がない場合に当てはまります。

2.3. 相関関係が因果関係を意味しないのはいつですか?

観察された相関の結果として、2つの変数の間に因果関係があると私たちに思わせる可能性のあるいくつかの一般的な論理的誤りがあります。 これらの間違いは誤謬の名前を取り、相関が実際に何を表しているのかを誤って理解することにつながることがよくあります。

最初の引数は、他のの原因となる変数の誤った識別に対応します。

とが因果関係をテストする変数であり、真の因果関係が形を持ち、同時に高い相関を意味する場合、も必然的に高くなります。 これは、因果関係の原因と結果として誤って特定する可能性があり、その逆ではない可能性があることを意味します。

この例は次のようになります。 奇妙な振る舞いに気づきました。 食べ物をボウルに入れるとすぐに、猫がやって来て、ニャーと鳴き、それを食べます。

これらのイベント間の相関は非常に高いため、ボウルをいっぱいにすると猫が現れると推測したくなるかもしれません。 ただし、この場合、猫を飼っていないのに、ボウルをいっぱいにした後、猫が現れない場合は驚きます。

この例では、因果関係の先行関係をボウルの充填に誤って割り当てています。 代わりに、猫の存在に割り当てる必要があります。これにより、猫の存在に反応してボウルがいっぱいになります。

2.4. 第三の要因

2番目の引数は、2つのイベント間の因果関係の誤った推論に関連しています。これらは両方とも、3番目の目に見えないイベントの結果です。 これは、正式な表記では、式に対応します。 この議論の典型的な例は、乗客の到着と駅のホームへの列車の到着との関係に対応しています。

時刻表とその操作について何も知らなければ、乗客の到着によって列車が現れると思うかもしれません。 しかし実際には、3番目の要因である旅客列車のスケジュールにより、乗客と列車の両方が指定された時間に表示されます。

2.5. 因果関係と相関関係ではない

あまり頻繁に議論されない質問は、独立変数と従属変数の間に因果関係が存在することも相関を意味するかどうかです。 正式な表記法では、この質問を命題で表現できます。

確かに、相互に相関している因果関係のある変数があります。 たとえば、薬理学の分野では、副作用に関する研究は、相関変数間の因果関係を評価するための広範な方法論を開発しました。 教育学と教育の分野では、家族の収入と学生の成績などの相関変数間の因果関係を評価するための同様の方法も存在します。

ただし、原則として、因果関係は相関関係を意味するものではありません。 これは、相関関係、特にピアソンの相関関係が、線形関係という1つのタイプの機能的関係のみを測定するためです。 スピアマンの相関はわずかに良くなりますが、すぐにわかりますが、それでも変数間の非単調な関係を特定できません。

これは、原則として、線形または単調な関係についてのみ、因果関係から相関を推測できることを意味します。

3. ピアソンの相関係数

3.1. ピアソン相関の概要

これで、変数間の相関を計算するための2つの主要な手法であるピアソンとスピアマンの相関の研究に取り掛かることができます。

ピアソンの相関は、確率変数間の依存関係を計算するための最も古い方法であり、19世紀の終わりにまでさかのぼります。 これは、線形回帰モデルがさまざまな精度で2変量分布に適合する可能性があるという考えに基づいています。 したがって、ピアソンの相関は、線形回帰モデルの適合性を評価する方法を提供します。

スケーリングと変換でも不変です。 これは、ピアソンの相関が、定義上スケールフリーである階層システムまたはフラクタルシステムのプロパティを研究するのに特に役立つことを意味します。

3.2. ピアソンの相関の数学的定義

2つの確率変数間で、成分を含むピアソンの相関係数を、との共分散として、それぞれの標準偏差の積で割ったものとして定義できます。

ここでは、2つの変数の平均を示します。 相関係数は、閉区間の値を想定しています。ここで、は最大の正の相関を示し、相関の欠如に対応し、最大の負の相関を示します。

線形回帰に関する記事では、この式と回帰係数の関係についても調べました。これにより、同じ相関係数を計算する別の方法が提供されます。

3.3. 可能な値

次に、相関係数が想定できる可能性のある値を調べ、各値に関連付けられている分布の形状を観察します。

の場合、2つの変数は無相関です。 これは、一方の変数が想定する値は、通常、もう一方の変数が想定する値に影響を与えないことを意味します。

相関のない二変量分布は、必ずしもそうとは限りませんが、一般的に典型的な「雲」の形をとります。 データセットをプロットするときにこの形状を見つけた場合、分布が相関していないことをすぐに疑う必要があります。

の場合、変数は強く正の相関があります。 正の勾配を持つ線形回帰モデルによって完全に適合できる2変量分布は、常に1の相関係数を持ちます。

直感的には、分布が線の形をしていることがわかると、相関の絶対値が高くなっているはずです。 次に、勾配の符号が相関の符号を決定します。 このため、の相関値は、負の勾配を持つ線形分布を意味します。

ただし、ほとんどの分布には、0または1の完全な相関値がありません。 ただし、相関がそれらを近似するため、それらはそれぞれ雲または線状の関数のいずれかになりがちです。 それぞれの相関係数を持つ分布の他の例を次に示します。

3.4. ピアソンの相関係数の解釈

ピアソン相関係数の解釈には、多くの人が犯す典型的な間違いがあります。 この間違いは、分布に最適な線形回帰モデルの傾きとして読み取ることで構成されます。 上の写真は、線に完全にまたがる変数の場合、その線の傾きに関係なく、相関係数が常に1であることを示しています。 これは、相関係数が直線の傾きではないことを意味します

ただし、線形回帰モデルが分布にどの程度適合するかを予測するのに適しています。 の極端なケースでは、線形回帰モデルはエラー0でデータに完全に適合します。 の極端なケースでは、線形回帰モデルは分布にうまく適合しません。

4. スピアマンの順位相関

4.1. スピアマン入門

相関を決定するためのより洗練された尺度は、いわゆるスピアマンの順位相関です。 この相関関係は通常、記号で示され、ピアソンのように、間隔内の任意の値をとることができます。

この相関係数は、ピアソンの相関が持つ問題を未然に防ぐために開発されました。 強く単調な分布を検討する場合、ピアソンの係数は必ずしも次のように対応するわけではありません。

スピアマンの係数はこの問題を解決し、2変量分布の線形性の特定の場合だけでなく、一般的に単調性を識別できるようにします

4.2. ピアソンの相関の数学的定義

ピアソンの係数とは異なり、ノンパラメトリックであり、変数自体ではなくランクで計算されます。 変数のランクは、その値を、ソートされた変数内でその特定の値が占める位置に置き換えることで構成されます。 たとえば、のランクを計算する場合は、最初にとして行う必要があります。 次に、変数の元の各値を、並べ替えられた変数内の位置に置き換えることにより、ランクが計算されます。

次に、のスピアマン相関係数は次のように計算されます。

ここで、はの共分散であり、は2つのそれぞれの標準偏差の積です。

4.3. 可能な値

以前に予想されたように、スピアマン係数は-1と1の間で変化します。 の場合、2変量分布は単調に増加しています。

同様に、スピアマン係数の分布は単調に減少しています。

そして最後に、の値は、関数が単調ではないことを示します。

フォームの偶数関数からサンプリングされたすべての分布には、スピアマン相関係数があることに注意してください。

4.4. スピアマンの相関係数の解釈

最後に、スピアマンの相関係数が想定する値の解釈について、より正式な方法で説明できます。 単調性に関連していることは先に見ました。 したがって、形式の関数からサンプリングされた分布がある場合、一般に、その関数の張度での点の符号。

ただし、Spearmanは、すべての確率変数に使用できるため、機能的に依存する変数にのみ適用されるわけではありません。 結果として、連続関数の分析から得られた概念に依存しない定義が必要です。

むしろ、2つの変数が同じ方向に変化する傾向がある程度として解釈できます。 つまり、相関の高い変数はすべて同時に増加および減少しますが、絶対相関の低い変数が一緒に減少することはめったにありません。 言い換えると、相関係数は、の2つの成分間の差について、対応する差の符号を示します。

この意味で、相関関係は次のことを示しています。 同様に、係数はを意味します。 そして最後に、相関係数は、前の式のどちらも真ではないことを意味します。

5. 2つの係数の解釈

5.1. 相関係数の値

これで、上記の考慮事項を要約し、相関係数の値に従って2変量分布について作成できる理論的予測を含むテーブルを作成できます。

5.2. 相関値の推測

このテーブルを使用して、逆のプロセスを実行します。 つまり、形状に基づいて分布の相関値を推測します。 これは、それらの値に関する仮説を立てるのに役立ち、それを計算でテストできます。 これを行うには、分布の形を観察し、それを上で作成した表と比較してから、相関係数の推定値を推測します。

最初の配布はこれです:

一次関数として漠然と形作られているように見え、一般的に減少していることがわかります。 このため、その値と値は区間に含まれると予想されます。 この分布の実際の値はとです。これは、推測が正しかったことを意味します。

2番目の変数は、ロジスティック関数に似た形状をしています。

単調に増加するため、その値は+1である必要があります。 また、線に完全には収まらないようですが、一般的に線形モデルで近似できます。 これから、その値は区間内になければならないことがわかります。 この分布の係数の真の値は次のとおりです。 d、これは正しく推測したことを意味します。

3番目の分布は、正弦波の形をしています。

関数を単調にすることはできず、増加または減少しているようには見えません。 これは、スピアマン係数が約0であることを意味します。 また、線形モデルでは近似できないようです。つまり、ピアソン係数も0に近いはずです。 この分布の実際の値はとであり、予想どおり、実際には0に十分に近い値です。

6. 結論

この記事では、2変量分布の相関の概念を研究しました。

最初に、相関と因果関係の関係の問題に取り組みました。

次に、ピアソンの相関とその解釈、および同様にスピアマンの相関を調べました。

そうすることで、ピアソンの相関が線形回帰の分布の適合性に関連していることを学びました。 代わりに、スピアマンの係数は、分布を近似する連続関数の単調性に関連しています。