機械学習のバイアス

投稿日: 2022-10-20 2022-10-22
タグ: Machine Learning

1. 序章

このチュートリアルでは、機械学習で観察されるさまざまな種類のバイアスについて説明します。これは、私たちがバイアスとは何を意味するのか、そしてなぜバイアスを避けることが不可欠なのかを理解するのに役立ちます。

また、バイアスが機械学習アプリケーションにどのように影響するか、さらに重要なことに、バイアスを特定、回避、修正する方法についても学びます。

2. 機械学習のアプリケーション

このチュートリアルは、機械学習アルゴリズムと、それらを使用するアプリケーションの基本的な構築プロセスにある程度精通していることを前提としています。ただし、バイアスのコンテキストでは、機械学習の実際のアプリケーションを理解することが重要です。これにより、そのようなアプリケーションにおけるバイアスの影響を把握することができます。

機械学習は、人工知能として知られる幅広い分野の分野です。人工知能は、通常は人間の知能を必要とするタスクを実行できるスマートマシンの構築に関係する研究分野です。特に機械学習は、経験とデータの使用を通じて自動的に改善されるアルゴリズムの研究です。

機械学習自体は、広範囲にわたる研究分野です。これは、教師あり、教師なし、半教師あり、強化、およびその他のさまざまなタイプの学習アルゴリズムに分類できます。この分類には、人気のあるニューラルネットワークと深層学習の分野も含まれます。ただし、これを詳細に説明することは、このチュートリアルの範囲を超えています。

興味深いことに、人工知能と機械学習はかなり長い間実践されてきました。しかし、学術研究から移行して実用化されたのは、ここ数十年のことです。これは主に、クラウドコンピューティングの一般的な可用性と、この期間中に生成された大量のデータに起因する可能性があります。

機械学習の分野は十分に成熟しており、現在、幅広い業界で興味深く重要なアプリケーションを見つけることができます。私たちはこれらのアルゴリズムに、より多くの決定を任せています。たとえば、機械学習を使用して、公共の場所にいる人を特定したり、採用候補者を選択したり、ローンの申し込みを決定したりしています。

3. バイアスとは何ですか、なぜ私たちは気にする必要がありますか？

先に進む前に、バイアスの意味を理解することが不可欠です。 バイアスの正式な定義は、1人の個人またはグループに対する、または1人の個人またはグループに対する傾向または偏見です。機械学習のコンテキストでは、アルゴリズムが体系的に偏見のある結果を生成するときにバイアスが発生します。これは多くの場合、複数の理由で不公平な状況につながる可能性があります。

しかし、なぜこれが機械学習アルゴリズムで発生するのでしょうか。前に見たように、機械学習アルゴリズムは、主に、学習するトレーニングデータの品質、客観性、およびサイズに依存します。 したがって、入力データに固有のバイアスがある場合、それはアルゴリズムの出力決定に表示される可能性があります。

ただし、機械学習アプリケーションのバイアスの原因はこれだけではありません。このようなアプリケーションを構築するプロセスを注意深く観察すると、次のセクションで検討する他のいくつかのソースが明らかになります。私たちが理解する必要があるのは、なぜそのような偏見に注意を払う必要があるのかということです。これを説明するいくつかの強力な例があります。

バイアスのかかったアルゴリズムを展開して実際の問題を解決すると、意図しない結果が生じる可能性があることを理解するのは難しくありません。 たとえば、顔認識システムが人種差別的になり始めたり、クレジットアプリケーション評価システムが性別に偏ったりする可能性があります。これらの偏ったアプリケーションには深刻な影響があります。

バイアスは、別のコンテキストで使用された場合、アプリケーションを役に立たなくする可能性もあります。 たとえば、音声アシスタントを開発したが、特定の地域の人々の声だけでトレーニングした場合、別の地域で使用した場合のせいで、うまく機能することは期待できません。声のトーン、方言、文化などの変化。

バイアスは必ずしもこれらの例ほど深刻である必要はないことに注意してください。

4. 機械学習におけるバイアスの種類

バイアスが機械学習アプリケーションにどのように浸透するかについて簡単に触れました。アプリケーションを構築するプロセスでは、データを収集して処理し、それを機械学習モデルにフィードして、モデルがデータから学習できるようにする必要があります。不注意にも、このプロセスのどの段階でもバイアスを導入する可能性があり、バイアスの原因は非常に多様です。

バイアスを効率的に処理するには、バイアスを導入するメカニズムを理解することが不可欠です。機械学習アルゴリズムのバイアスは、大まかに言って、複数のカテゴリに分類できます。

偏見：基本的に、バイアスはアプリケーションに浸透します。なぜなら、バイアスを設計する人は、故意または無意識のうちにこれらのバイアスを持っているからです。時代を超えて、私たちは社会として、根絶するのが難しい根深い偏見を発展させてきました。これは、機械学習アプリケーションの開発のどの段階にも影響を与える可能性があります。したがって、これはおそらく修正するのに最も複雑で重要な情報源です。
サンプリングバイアス：バイアスのもう1つの一般的な原因は、モデルをトレーニングするためのデータの収集方法です。意図的または意図せずに、母集団グループからオーバーサンプリングして、そのグループを表す特性に予測が偏る可能性があります。たとえば、特定の性別から他の性別よりも頻繁にサンプリングしている場合があります。
アルゴリズムバイアス：次のステップは、トレーニングするモデルの作成に使用するアルゴリズムを選択することです。これまで見てきたように、線形回帰、サポートベクターマシン、決定木など、選択できるアルゴリズムがいくつかあります。これらのアルゴリズムには幅広い用途がありますが、アルゴリズムにより適したユースケースは確かにあります。アルゴリズムの選択を誤ると、予測に偏りが生じる可能性もあります。
確証バイアス：モデルのトレーニングとその予測の評価を開始すると、先入観を確認する情報を保持する傾向があります。その過程で、私たちの理論に反するデータを除外または削除し始める可能性があります。これにより、データに一定のバイアスが生じ、アプリケーションの予測に影響が出ます。これは開発者として私たちを満足させるかもしれませんが、アプリケーションの使いやすさを大幅に低下させる可能性があります。

これは、バイアスが機械学習アプリケーションに入る可能性のあるソースの完全なリストではありません。しかし、これは最も頻繁に発生するバイアスの原因をカバーしています。これらのソースを効果的に処理することにより、より合理的なアプリケーションを実現できるはずです。

5. バイアスを特定して測定する方法

前のセクションでは、バイアスとは何か、そしてそれが機械学習アプリケーションにどのように入ることができるかを学びました。また、それを可能な限り取り除く必要がある理由もかなり明白です。ただし、バイアスを削減または排除する前に、アプリケーションのバイアスを特定して測定することが不可欠です。機械学習モデルは増分データを通じて継続的に改善できるため、バイアスを探し、定期的に対策を講じることが重要です。

機械学習アプリケーションが結果を生成する方法は、多くの場合、非常に大まかに理解されています。ほとんどの実際のアプリケーションでは、これをデータが一方の端に入力され、予測がもう一方の端から流れるブラックボックスとして扱います。

線形回帰などのより単純なモデルのいくつかについて、これらの予測の背後にある直感を構築できます。ただし、ニューラルネットワークや深層学習モデルなどの複雑なモデルの場合はさらに複雑になります。これらのモデルが効率的に機能している場合でも、何が起こっているのかという内部の仕組みを理解するのは非常に難しいです。

これにより、特定の機械学習アプリケーションが偏った結果を生成する方法と理由を知ることが難しくなります。したがって、アプリケーションの多数の予測セットのバイアスを継続的にチェックすることに重点を置く必要があります。 すべての組織は、その業務のコンテキストでバイアスを構成する可能性のあるものを確立する必要があります。たとえば、採用担当会社は、特定の性別、人種、または民族からより頻繁に選択しているかどうかを定期的に評価する必要があります。

6. 機械学習でバイアスを防ぐ方法

最後に、バイアスに対処できます。前に見たように、機械学習は本質的にヒューリスティックなプロセスです。ある程度説明はできますが、完全には理解できていません。これはまた、バイアスのチェックと排除を面倒にします。

それにもかかわらず、これはその研究分野にとって重要なトピックのままです。

バイアスの問題は、機械学習アプリケーションに何十年も存在しており、それらを効率的に処理するための努力もあります。何年にもわたって、バイアスを可能な限り回避するためのいくつかのベストプラクティスを開発してきました。責任は主に、これらのアプリケーションを活用して、従来の方法でこれに対処するためのフレームワークを定義する組織にあります。

基準とガイドラインの設定：バイアスを処理するための最初のステップの1つは、それらについて真剣に取り組むことです。非常に成熟した一連のベストプラクティスがありますが、それは継続的に進化しています。組織にとって、潜在的なバイアスとそれらを処理する方法を探すために、明白な基準とガイドラインを設定することが不可欠です。さらに重要なことに、これらの基準とガイドラインは頻繁に見直す必要があります。
バイアスの潜在的な原因の特定：これまで見てきたように、機械学習モデルに入力するデータは、主にそれが行う予測の基礎を形成します。したがって、データ収集におけるバイアスの潜在的な原因を特定する際には注意が必要です。これは、私たちの偏見、測定の誤り、偏ったサンプリングなどから生じる可能性があります。そのような考えられるすべてのソースを特定することが、是正措置の鍵となります。
バイアスのモデルを早期に評価する：機械学習アプリケーションを開発するときは、期待するパフォーマンスを確実に提供できるように細心の注意を払っています。多くの場合、精度や精度などのパフォーマンス測定値のみを測定して対応します。バイアスの測定値を同様に関連性のあるパフォーマンス指標と見なすことが重要です。これは、プロセスの早い段階で潜在的なバイアスに対処するのに役立ちます。
アプリケーションを継続的に監視およびレビューする：ほとんどすべての機械学習モデルは、一定量のトレーニングデータでトレーニングされています。アプリケーションが本番環境にデプロイされると、実際のデータは時間とともに変化する可能性があります。さらに、モデルは、本番環境で観察されるより多くのデータから継続的に学習します。したがって、動作中に潜在的なバイアスがないか、このようなアプリケーションのパフォーマンスを継続的に観察することが非常に重要です。

7. 責任あるAIとどのように関連していますか

前に説明したように、機械学習は、人工知能と呼ばれるより大きな傘の一部です。インテリジェントで自律的なシステムを作成するために、この傘の下で多くの手法を採用することがよくあります。結果として、バイアスの問題は機械学習だけに限定されません。実際、人工知能の分野は、ますます高まる倫理的および法的懸念に直面しています。

この点で、政府、大規模な組織、および市民社会は、これらの慣行に関与する当事者をより責任のあるものにすることについて話し合っています。これは、公正で信頼できる人工知能アプリケーションの開発を目的とした、ResponsibleAIと呼ばれるガバナンスフレームワークに含まれることがよくあります。

人工知能とは、通常、機械学習を意味します。これは、機械学習の絶大な人気と実用的なアプリケーションによるものです。したがって、Responsible AIに言及する場合、機械学習アプリケーションの透明性と民主化を促進するガバナンスフレームワークがその基盤です。

今日、この種のガバナンスフレームワークを開発する責任は、主に組織にあります。実質的なAIアプリケーションを採用している大規模な組織は、責任あるAIに関するポリシーを公開しています。それが公正で包括的であることを保証するために彼らが取っている多くのステップがあります。ただし、この点に関しては、組織全体で標準化されていません。

8. 公正なAIのためのツール

AIにおける公平性の重要性を認識し始めたため、この点で役立ついくつかのツールがオープンソースの世界で利用できるようになりました。適切なアプリケーションを開発するためのすべてのベストプラクティスに従うためのデューデリジェンスを行ったら、これらのツールを使用してそのパフォーマンスを評価できます。

そのようなツールの1つが、GoogleのPeople＆AI Research（PAIR）チームによって利用可能になりました。このツールはWhat-Ifツールと呼ばれ、開発者が5つの異なるタイプの公平性を試すための視覚化を提供します。数学的尺度に基づいて、さまざまな公平性に従ってデータを並べ替える5つのボタンが表示されます。

この点で使用できるもう1つのツールは、IBMResearchのAIFairness360ツールキットです。この拡張可能なツールキットは、AIアプリケーションのライフサイクル全体を通じて、機械学習モデルの差別とバイアスを調査、報告、軽減するのに役立ちます。これらのPythonパッケージには、バイアスをテストするためのデータセットとモデルの包括的なメトリックセットが含まれています。

9. 結論

この記事では、機械学習アプリケーションのバイアスについて検討しました。また、バイアスの原因を特定し、アプリケーションでそれらを測定する方法についても説明しました。次に、バイアスを削減または排除できるように、バイアスを処理する方法を検討しました。最も重要なことは、そのような偏見に対処することが重要である理由を学びました。

getdocs

13036