1. 序章

このチュートリアルでは、人工知能、機械学習、統計、データマイニングの違いについて説明します。

これらのフィールドの間には大きな重複があり、それらを分離する明確な方法はありません。 何年にもわたって、研究者とエンジニアはこの質問について異なる、そしてしばしば矛盾する意見を明確に述べてきたので、コンセンサスはありません

2. 人工知能

人工知能(AI)から始めましょう。 一般に、 AIの目標は、人間のような先天的な知性を持っているかのように、私たちが自分たちの前に置いた問題を自分で解決できるエージェントを構築することです。。 この分野を非常に豊かにしているのは、エージェントを定義および構築するための豊富な方法です。

たとえば、手書き認識ソフトウェアは、人間の助けを借りずに手書きのテキストを読み取ってデジタル形式に変換できるため、AIエージェントです。 手書きの数字や文字の機械可読画像からその能力を学びます。

もう1つの例は、チェスをするプログラムです。 対戦相手が何をプレイするかを考慮して、可能な限り最良の一連の動きを検索することでチェスをプレイします。 そのようなAIエージェントのインテリジェンスはデータから得られません。 代わりに、それはエージェントが最良の動きを検索する方法に由来します。

数独ソルバーや空港のフライトスケジュールなど、他の例もあります。 インテリジェントエージェントの概念は、それらすべての中心にあります。 より正確には、AIは合理的エージェントを構築すると言います。 ここで、合理性とは、すべての選択肢について私たちが知っていることを踏まえて、利用可能な最良のオプションを一貫して選択することを意味します:手書きに最適な単語を決定する、チェスゲームに最速で勝つための動き、フライトスケジュール最小限の待ち時間などで。

3. 機械学習

機械学習(ML)はAIのサブフィールドです。 一般的なAIの用語から少し離れると、 MLは学習アルゴリズムをデータセットに適用して、新しいデータを予測するための自動化されたルールを取得します

たとえば、アパートベースの販売価格を予測することに関心があるかもしれません。 さまざまなアパートの特徴(平方フィート単位のサイズなど)とその最終的な販売価格に関するデータがあります。 データセットから品質予測ルールを導入することは、MLの仕事です。 これらのルールは、ツリー線形回帰の数学方程式、ニューラルネットワークなど、さまざまな形式をとることがあります。 そのため、ルールを手動で作成する代わりに、MLを使用してルールを自動的に抽出します。

しかし、AIについて私たちが知っていることを考えると、MLルールを見つけることはAIエージェントの構築に該当することがわかります。 たとえば、価格予測ルールを次の形式の方程式に制限する場合があります。

(1)  

私たちの目標は、最も正確なものを見つけることです。 これは、方程式( 1 )を使用して予測できるすべての価格の中で、最も真実である可能性が高いものを出力するAIエージェントを構築することと同じです。 したがって、 MLはAIの一部であり、そのに特化したアルゴリズムを使用してデータからエージェントを構築します。

4. 統計学

AIとの関係とは異なり、MLと統計との関係は非常に物議を醸しています。 多くの研究者、特に統計学者は、MLは単なるブランド変更された統計であると主張するでしょう。 その議論にはそのメリットがないわけではありません。 しかし、意見が対立する研究者はたくさんいます。 なぜ最初に統計を定義しよう(しよう)のかを理解するために。

4.1. 統計とは何ですか?

ほとんどの人は、統計を、サンプルのみを使用して母集団について推論するための数学の分野として説明します

たとえば、米国の10代の若者の平均身長を調べたい場合があります。 すべてのアメリカのティーンエイジャーを測定することは非現実的です。 代わりに、全国のいくつかの学校をランダムに選択し、学校ごとに10代の若者を測定することができます。 そうすれば、身長のサンプルを取得できます。その平均から、10代の人口全体の平均がわかります。

同様に、温度が工業プロセスにどのように影響するか、またはアパートの部屋の数がその販売価格にどのように影響するかを確認することに興味があるかもしれません。

統計は、そのような質問に答えるための方法を開発します。 そうすることで、それは非常に形式的です。 仮説検定や記述統計などのすべてのツールには、パフォーマンスの数学的証明が付属しています。 たとえば、サンプル平均の周りに構築する信頼区間は、時間の実際の母平均をキャプチャすることが保証されていることがわかっています。 ただし、そのような証明は、実際には成り立たない可能性のある仮定に依存しています。 たとえば、一般的な仮定は、サンプル要素の統計的独立性とデータの正規性です。

4.2. 機械学習が統計である理由

この見解に賛成する研究者は、データから(任意の形式の)予測ルールを誘導することは、それらのデータを生成するプロセスについて推論することに他ならないと主張しています。 たとえば、MLがフラット価格を予測するために与える方程式は、アパートの「人口」全体が販売に続くという一般的なルールについての推論でもあります。 同様に、統計でデータ生成プロセスに関する一般的なルールを推測することで、新しいデータを予測できます。

この議論を支持するために、人々はまた、線形回帰のようないくつかのコアMLモデルが最初に開発され、統計で研究されたと言います。 彼らはさらに一歩進んで、すべてのMLモデルが統計ツールであると主張します。 唯一の違いは、前者は解釈が難しく、計算量が多いことです。 さらに、一部の研究者は、MLが統計が間違って行われているという懸念を表明しています。 その理由は、自動化されたモデリングには、人間の関与によってのみ可能な適切な厳密さが欠けているためです。

4.3. 機械学習が統計ではないのはなぜですか?

しかし、多くのML研究者は、これらの主張に強く反対します。 彼らは、予測に焦点を合わせると、MLが統計とは異なると主張するでしょう。 ほとんどの場合、特に業界では、パフォーマンスメトリックが重要です。 したがって、数百の内層を持つディープニューラルネットワークは、それ自体では解釈できず、推論ができない場合でも、予測が正確である場合、完全に許容できるML製品です。 一方、統計家は、そのようなブラックボックスモデルを使用すると非常に不快になります。

さらに、MLは予測パフォーマンスに重点を置いているため、保持されたテストデータでモデルを検証して、一般化機能を確認します。 ただし、統計では、サンプルをトレーニングセットとテストセットに分割しません。

さらに、 MLは、統計よりも、モデルのトレーニングと大規模なデータセットの処理のエンジニアリングと計算の側面に注意を払っているようです。 その理由は、統計家が、大量のデータを処理しないように、小さなサンプルを正確に処理するためのツールを開発したためです。 対照的に、MLツールはコンピューターサイエンスとAIの分野に端を発しているため、科学者は最初からアルゴリズムとその実装の側面を検討していました。 その結果、ML手法は、従来の統計では対処できなかったタスクを解決したため、統計手法に取って代わりました。

興味深い議論は、MLの科学者と統計家の研究文化が異なるということです。 広範な理論的結果は、すべての統計的手法に付随しています。 たとえば、定理と証明がなければ、新しい統計的検定に関する論文を発表することは不可能です。 経験的評価だけではそれを削減することはできません。 対照的に、MLの研究者や実務家は、理論にギャップがある場合でも、実際のデータで良好な結果が得られる方法に関心を示します。

4.4. 例

ついに、 予測と推論の両方にMLと統計を使用できますが、それらの方法論は異なります。 MLは、統計が間違って書き直されただけではありません。 これは、異なるモデリングアプローチを採用しています。

たとえば、データセットに10個のアパートのサイズ(平方フィート)と販売価格が含まれているとします。

線形モデルを適合させるために、MLの科学者は、セットをトレーニング(青)とテスト(赤)のデータに分割し、前者よりも損失を最小限に抑えます。

次に、s(he)は3つのテストデータでモデルを評価します。 エラーが無視でき、トレーニングデータのエラーとそれほど変わらない場合、科学者はそれをアパートのサイズに基づいて価格を予測するための優れたモデルと見なします。

対照的に、統計家はデータセット全体に適合します(おそらく異なる係数を取得します)。

しかし、s(he)はそれを予測に使用しませんでした。 代わりに、s(he)は、係数の有意性をチェックすることにより、サイズが販売価格に影響を与えるという仮説をテストします。

この例は、実際には2つの分野の過度に単純化されたビューを示している可能性がありますが、アプローチの違いを示しています。

5. データマイニング

データマイニングは、商用アプリケーションのデータベース管理から生まれました。 その目標は、ビッグデータの貴重なパターンを発見し、ビジネスの利害関係者に実用的な情報を提供することです。 例を挙げて説明しましょう。

5.1. 例

オンライン通信社が、視聴者がどこから来たのかを知りたいとしましょう。 アクティブな加入者の大多数が住んでいる地域のストーリーをカバーすることに焦点を当てるには、その情報が必要です。 このサイトは、すでにフィードを購読していて、ニュースを頻繁に読んでいる人だけを対象としており、将来そうする可能性のある人や受動的な購読者は気にしません。

これは、推論を使用した統計や予測を使用した機械学習で行うこととは逆です。 統計家は、事前定義された一連の地域に住む加入者の割合に関する仮説を定義します。 次に、適切な統計的検定を選択し、データがその仮定を満たしているかどうかを確認します。 そうでない場合、統計家はそれ以上先に進まず、データが有効な推論を許可していないことを通知します。 そうでなければ、彼はテストを実行し、それが仮説を棄却したか、棄却できなかったかを教えてくれます。

しかし、統計的仮説は、サンプルではなく、母集団に関するものです。 私たちの統計家が私たちに何か言うことがあるとしても、それは私たちの現在のアクティブな加入者のような人々、すなわち私たちの潜在的な関心のある聴衆についてです。 ただし、現在の読者に合わせて編集ポリシーを調整したいので、必要な情報ではありません。

同様に、MLモデルは、地域ごとに、そこからランダムな人物がサイトのサブスクライブに関心を持つ確率を予測できます。 繰り返しになりますが、持っているのは良いことですが、モデルは私たちが望んでいるものではありません。 この例が示すように、マイニングとは、多くの場合、手元にあるデータセットを洞察し、データセットからすべてを無視することです。 言い換えると、 データマイニング担当者は、データセットをサンプリングした母集団ではなく、指定されたデータのパターンを見つけます。 実際には、 ほとんどの場合、データには対象の母集団全体が含まれています。

5.2. しかし、ねえ、データマイニングは統計と機械学習を適用しただけではありませんか?

MLおよび統計と同様に、データマイニングは単に適用された統計または適用されたML(特に、教師なし)であると主張する人もいます。 結局のところ、それが使用するツールが生まれた場所です。 したがって、他のフィールドのメソッドを適用するだけの場合は、 独自の分野のマイニングを検討できますか? 多くの統計家やML研究者は、私たちがすべきではないと主張するでしょう。 しかし、多くのデータマイニング担当者はこの見方に反対しており、上記で説明した違いを強調しています。

さらに、データマイニングは方法論よりも結果を優先します。 ヒューリスティックなアプローチは、数学的に十分な根拠がない場合でも、ビジネスに価値を提供する限り許容されます。 さらに、鉱夫は、手元のデータ専用の分析方法を考案することがあり、他のデータセットへの適用性を気にしません。

ついに、 データの調査に重点が置かれています。 したがって、マイニングは、特定の目標を設定した探索的なアクティビティです。 MLと統計は探索的分析を行いますが、ビジネスに不可欠な情報を抽出するのではなく、仮定のチェックに重点を置いています。

6. 結論

この記事では、人工知能、機械学習、統計、データマイニングについて説明しました。 4つのフィールド間の境界に関するコンセンサスはありません。 特に、後者の3つは同じ分野のバリエーションであると考える人もいます。 ただし、線はぼやけていますが、違いを見つけることができます。