1. イントロ

機械学習(ML)アルゴリズムを使用して、従来のプログラミング手法やパラダイムでは解決できない問題、つまり、メールをスパムとして分類するかどうかなど、数学的に定義するのが難しい問題を解決します。

この分野への関心が高まる中、さまざまなエリアとサブフィールドが絶えず進歩しているという事実を考慮に入れる必要があります。 このため、プロジェクトの作業や開発を計画している場合は、MLアプローチに関する基本的なカテゴリ、より具体的にはモデルでのデータの使用方法と、モデルがこのデータから機能を学習する方法を知っておく必要があります。

このチュートリアルでは、教師なし学習と教師なし学習の実際の例について説明します。

2. 定義

教師あり学習では、いくつかの機能を学習した後、入力を出力にマッピングできるようにモデルをトレーニングし、見たことのないデータのサンプルを正しく分類する一般化機能を取得することを目指しています。

まず、簡単な例を考えてみましょう。ここでは、さまざまな犬の画像があり、その犬がどの品種に属しているかを正しく分類することが目的です。 トレーニングフェーズとテストフェーズの両方に対する入力は犬の画像であり、出力はその犬が属する品種を含む1つのラベルになります。

このようにして、スーパーバイザーが出力に正しい値またはラベルを提供し、モデルを評価することができます。

ただし、入力データしかなく、各入力サンプルの出力ラベルを定義できないため、出力が何であるかわからない場合があります。 衣料品を販売する会社で働いていて、以前の顧客からのデータ(消費額、年齢、製品を購入した日)があるとします。

私たちの仕事は、変数間のパターンまたは関係を見つけて、会社に有用な情報を提供し、マーケティング戦略を作成し、利益を最大化するためにどのタイプのクライアントに焦点を当てるべきか、またはどの顧客セグメントをより多く投入できるかを決定することです。市場で拡大するための努力。

この場合、この方法でニーズをモデル化できないため、出力はラベルになりません。 代わりに、私たちのプログラムは、顧客を類似または独自にするものに応じて顧客をグループ化できる必要があります。 このグループ化は、トレーニングフェーズで学習した機能から実行されます。この場合、入力にラベルを付けて出力にマッピングするスーパーバイザーがいないため、教師なし学習アプローチを使用します。

3. 教師あり学習

いくつかの例をさらに説明および説明するために、教師あり学習の2つの主要なアプリケーションである分類と回帰について考えてみましょう。

2つの異なるシナリオについて説明していますが、モデルを監視対象として定義するのは、出力に常にラベルを付けるという事実です。これはどちらの場合にも当てはまります。 このように、モデルのパフォーマンスをチェックするための参照があるため、フィードバック付きのモデルを使用しています。これを参照グラウンドトゥルースと呼びます。

3.1. 回帰

モデルが出力として数値を提供する必要がある場合があります。この場合、回帰の問題が発生します。 

最初の例として、入力が製造年、ブランド、走行距離、エンジン出力などのさまざまな車のいくつかの属性のコレクションであり、出力が車両の価格であるデータセットを検討します。

簡単にするために、車の製造年だけを考えてみましょう。次に、モデルをトレーニングして、重量パラメーターを学習し、ポイントを適合させて、モデルを作成します。

(1)  

価格という1つの機能のみを考慮しているため、問題は2Dプロットで簡単に視覚化できます。

ただし、式1に示す線形モデルを使用すると、モデルがより優れた一般化能力を獲得できなくなる可能性があります。このため、より多くの入力変数を考慮すると、高次多項式や非線形関数などのより複雑なモデルを使用できます。 (ブランド、マイレージ)。

別のの回帰は、この分野で働く会社のアイス製品の販売における温度変化の影響を定義するために実施されました。 これは、会社が任意の時間枠(月、週、または日)に応じて生産を変更するのに役立ちました。

これは、企業がおそらく販売する量よりも多いまたは少ない製品を生産することを妨げた回帰の実際の例の例です。

しかし、繰り返しになりますが、両方の例で、明確に定義された既知のペアの入力/出力がありました。最初に車の機能/車の価格、次に氷製品の温度/販売です。

3.2. 分類

場合によっては、出力として数値がない場合があります。代わりに、いくつかのクラスがあり、通常、そのうちの1つが各入力サンプルに正しく割り当てられている必要があります。

簡単に始めるために、2つのクラスしかないことを考えてみましょう。 現在のモデルの目標は、入力サンプルをこれらのクラスに分離する判別式を定義することです。これは、分類と呼ばれる教師あり学習問題の一種です。

この記事の冒頭で、例として犬種分類子を使用しました。これは、現在説明しているカテゴリに正確に適合します。 私たちのモデルは、犬の特定の特徴を特定の品種に関連付けるルールを推測しようとします。 モデルが堅牢な機能を学習した場合、トレーニングフェーズで使用されたことのない犬がどの品種に属するかを予測できます。

4. 教師なし学習

入力のラベルがない場合、モデルは、人間にとって未知の入力のパターンと規則性を見つけることができるはずです。 どの関連付けが他の関連付けよりも頻繁に発生し、それらがどのように関連しているかを推定する必要があります。

この記事では、教師なし学習の2つのカテゴリであるクラスタリングと関連付けに焦点を当てます。

4.1. クラスタリング

このタイプのアプローチでは、モデルは未分類のデータから自然なクラスター(グループ)を見つけようとします。類似性が見つかった場合、関連する入力サンプルをグループ化するさまざまなクラスターがあります。

クラスタリングには、排他的、凝集、確率的、重複など、さまざまなタイプがあります。 簡単にするために、この記事では、1つの入力サンプルが1つのクラスターにしか属することができないため、排他的方法の一種であるK-meansクラスタリングについて説明します。

K-meansアルゴリズムでは、最初に、持つクラスターの数を定義する必要があります。 これは、任意に、または確立された方法を使用して実行できます。 このアプローチの主なアイデアは、次のとおりです。

  • 各クラスターの重心をランダムに初期化します
  • 次に、各入力サンプルを最も近い重心に割り当てます
  • その後、すべての重心を、割り当てられた入力サンプルの平均に移動します
  • 最後に、各入力サンプルを最も近い重心に再度割り当てます

重心の変化が止まるかどうかの定義された反復回数に達するまで、これを繰り返し行います。

このアルゴリズムを実装して、この記事の冒頭で例として使用した問題である顧客セグメンテーションを解決できます。 このようにして、店舗で購入するすべての人を、購入行動に応じてグループ化できます。

最後の例として、視聴者向けの提案システムを改善したいストリーミングサービスを分析できます。

映画の視聴時間、映画のジャンル、視聴したユニークなテレビ番組など、顧客からの有用なデータがある場合は、クラスタリング手法を使用してそれらをグループ化し、マーケティングキャンペーンで注目する価値のある人を見つけることができます。

4.2. 協会

一部のアプリケーションでは、大規模なデータセットを考慮して、機能または変数が別の機能または変数と強く関連しているかどうかを確認したい場合があります。 MLには、相関ルールの学習があります。相関ルールは、ルールの前件であり後件である接続を定義します。

このアルゴリズムの最も一般的な使用シナリオはバスケット分析です。ここでは、製品を購入する人がその製品も購入する傾向があるかどうかを調べます。

通常、相関ルールで計算される3つのメジャーがあります。 1つ目は、従来の条件付き確率である信頼度です。 ルールが十分に強力であると結論付けることができるよりも、可能な限り1に近く、より大きな値が必要です。

より強力なサポートルールがあっても、顧客の数が非常に多いかどうかを知る必要があるため、ルールのサポートを検討することも重要です。

(2)  

(3)  

アソシエーションルールの他のアプリケーションには、視聴者がテレビ番組を見たことを考慮して映画を提案しようとすること、アソシエーションルールを使用して天然タンパク質からアミノ酸を接続することによって人工タンパク質を開発およびテストすることが含まれます。

5. 結論

議論したさまざまな例から、この記事からのポイントは、教師なし学習と教師なし学習の明確な違いであるはずです。これは、使用しているデータセットにラベルがあり、達成しようとしている目標がラベルまたはグループであるためです。実装するアルゴリズムと戦略を定義します。