ビッグデータとデータマイニング
1. 概要
このチュートリアルでは、機械学習に関する記述でよく誤用される2つの用語、ビッグデータとデータマイニングの違いを学習します。
最初にそれらを個別に調査し、次にメディアがそれらを互いに混同することが多い理由を確認します。 このチュートリアルの最後に、2つの概念の主な類似点と相違点を理解し、どちらを使用するかを理解します。
この記事は、平均的なデータセットのサイズに対しての計算能力の量が「遅れている」と認識されているため、「ビッグデータ」が最近一般的な用語として復活したという考えを支持しています。
2. ビッグデータ
2.1. 「ビッグデータ」はどのくらいの大きさである必要がありますか?
ビッグデータという用語は、ここ数年で一般的な言葉になりましたが、適切な分析的定義がありません。 実際、ビッグデータを他の種類のデータと区別する必要がある数学的または情報理論的な理由はありません。
たとえば、「ビッグデータ」のクラスに属するためにテーブルに必要な行数や、分類にしきい値以外のメソッドを使用する必要があるかどうかは明確ではありません。
それでも、公の言説でこの単語が頻繁に使用されていることがわかります。つまり、識別可能な意味と利点が必要ですが、技術的な観点からは不正確である可能性があります。
したがって、単語の歴史を掘り下げて、それが日常の語彙にどのように組み込まれたかを見てみましょう。
2.2. 用語はどこから来たのですか?
科学文献でビッグデータという用語が最初に参照されたのは、1970年代に発行された論文です。
この論文は、データセットの因数分解の問題に取り組み、プロセスを自動化するための方法を提案しました。 当時、実際、人間のアナリストは、行列の特異値分解の可能性に関して、コンピューターによって提案された複数の仮説間の最適な適合を目で見て、行列因数分解を実行しました。
同じ期間に由来するこの用語の別の言及は、地理データセットの処理に関連して見つけることができます。 米国の国家石油産業の発展は、掘削と油井の運用に関連する大規模なデータセットの集中化につながりました。 これにより、管理と処理が困難になり、ストレージと計算の需要が増加しました。
この用語は、翻訳や今日の知識グラフの作成のために大きな辞書を処理することの難しさを表すために使用された1980年代に再び登場しました。 繰り返しになりますが、この用語は、データセットに取り組んだ人の数よりも急速にサイズが大きくなっているデータセットの管理または保守における苦労のアイデアを伝えました。
という用語の最初の使用法はすべて、データセットのサイズが大きくなるにつれて、データセット管理者がデータセットの管理と保守においてますます困難な問題に直面するという考えを伝えました。
2.3. 現代の復活
ビッグデータという用語も今日では一般的であり、実際、これまで以上に人気があります。 2010年代初頭から、この用語は一般の人々の語彙で一般的な単語になりました。
この用語は、使用され始めたときには存在しなかった特定の技術的意味をまだ獲得していません。 したがって、そもそも用語の出現の原因を推論し、それらの原因が過去数年で再発したかどうかを確認することができます。 もしそうなら、彼らは現代におけるこの言葉の復活を説明するかもしれません。
前述のように、この用語が最初に科学文献に登場したとき、そのユーザーは、データセットのサイズが人間やコンピューターによるデータセットの処理能力よりも速く成長したという考えを表現することがよくありました。 したがって、同じ現象が現在起こっていると仮定することができます。 したがって、データセットのサイズは、利用可能な計算能力よりも速く成長しています。
この場合、同様の条件下で同じ単語を再び使用し始めた理由が説明されます。
したがって、この仮説は次の3つの部分で構成されます。
- ランダムなデータセットのサイズは、通常、時間の経過とともに増加するはずです
- データセットのサイズの増加率は、計算能力の増加率よりも高くする必要があります
- データセットのサイズの変動は、計算能力の変動とは無関係である必要があります。 つまり、一方を他方に還元することはできません
これが当てはまるかどうかを見てみましょう。
2.4. データセットのサイズの増加
データセットの平均サイズが時間の経過とともに増加するという直感的な感覚を得ることができます。 そして、私たちが正しいとしても、これはこれらのデータセットが拡大している速度についてはあまり語っていません。 ここで、重大な問題に直面します。時間の経過に伴うサイズの増加率を測定するために、どのデータセットを選択する必要がありますか?
どこにでも存在するすべてのデータセットをサンプリングすることはできないため、この問題には簡単な解決策はありません。 代わりに、ビッグデータに関する文献で採用されているアプローチは、データセットのランダムでない選択のサイズの変動をサンプリングすることです。
これらのデータセットは最大の企業に属する傾向があるため、デジタルデータセットの母集団全体を表すことはほとんどありません。 これから、重要な警告が続きます。データセットの増加についての私たちの理解は、主に、観測の非ランダムサンプルでのこの現象の研究に由来します。 これは、そこから導き出される考慮事項が選択バイアスの影響を受ける可能性が高く、間違っている可能性があることを意味します。
ただし、主要企業が保有するデータベースを引き続き見ると、これらは一般的に非常に急速に増加する傾向があることがはっきりとわかります。
2.5. データセットの成長のためのプロキシ対策
したがって、選択バイアスに関する考慮事項を除いて、データセットとユーザーベースの平均サイズは線形よりも速く増加しているように見えます。 この直線的な成長よりも速い成長に影響を与える要因は、一般人口によるインターネットへのアクセスの増加です。これは、企業が保持するデータセットの平均サイズの代理指標として使用できます。
世界でのインターネットの普及は着実に増加しており、「ビッグデータ」という言葉が再浮上した数年の間に加速しました。
データセット内のすべてのデータが人間によって挿入された場合、これ自体が、近年の平均的なデータセットのサイズの増加を説明します。 ただし、これらの人間だけがデータのソースではなく、IoTデバイスもそうであることを私たちは知っています。 次に、データセットのサイズの増加にどちらがより貢献するかが問題になります。
これは、問題のややトリッキーな側面です。 ほとんどのデータをデータセットに入力するのが人間のユーザーである場合、データセットはインターネットの普及率と同じ速さで増加すると想定できます。 ただし、そうではありません。
デジタルデータの主要なソースの1つであるIoTデバイス、の数は、人口よりも大幅に速く増加しています。
2015年から2020年までの2つのグラフを比較すると、インターネットの普及率が45%から約60%に増加し、同時にIoTデバイスの数が2倍になっていることがわかります。
これは、一方ではインターネットの浸透と、他方ではIoTデバイスの両方が、同様に生成されるデータの量に寄与することを示唆しています。
2.5. 計算能力の成長
時間の経過に伴う計算能力の急速な成長は、ムーアの法則の名前をとる確立された事実です。 法律は、その基本的な定式化において、利用可能な計算能力が2年ごとに2倍になると予測しています。
この法則は非常に批判され、今日ではもはや正確ではないと考えられています。 「ビッグデータ」という言葉が復活した2010年代初頭をカバーする期間、法律はますます時代遅れになりました。 研究開発への支出の増加従来のプロセッサが到達したという事実のために、実際には必ずしもより良いプロセッサにつながるとは限りませんでしたそれらの物理的制限 。
対数スケールではなく線形スケールでは、時間の経過に伴う計算能力の観測された分布は、このグラフの線に沿って変化しました。
これは、2010年代の計算能力の利用可能性が、ムーアの法則の最初の定式化の時代ほど速く増加していなかったことを意味します。 その期間に住んでいる人、または今日生きている人は、利用可能なデータの増加率に遅れをとって、計算能力が増加することを認識します。
2.6. データセットのサイズと計算
上記の説明から私たちが考えることができるのは、近年、データセットが線形よりも速く、おそらく指数関数的なペースで成長しているということです。 同時に、利用可能な計算能力も増加していますが、速度は遅くなっています。 これは、特定の期間で利用可能な計算能力が、その期間で生成されたすべてのデータを処理できないことを意味します。
これには2つの理由があります。
- データセットのサイズが拡大するにつれて、データセットの処理に必要な計算は線形よりも速く増加する傾向があります
- 利用可能な計算能力の増加の一部は、データの処理ではなく、新しいデータの生成に使用されます
最初の点に関しては、これはタスクごとに異なりますが、一般的には真実です。 たとえば、行列乗算の単純な演算では、$ O(n ^ 3)$計算時間を実行する必要があります。 つまり、平均データセットのサイズが特定の間隔で2倍になった場合、そのデータセットで行列演算を実行し続けるために必要な計算能力は、それに追いつくために同じ間隔で8倍に増加する必要があります。
2つ目のポイントについては、IoTデバイスの数が急速に増加していることを前述しました。 これらのデバイスは、計算の増加の重要な部分を構成します。 それらのセンシングコンポーネントは電力を必要としますが、データセットを処理するための総計算能力のプールでは利用できません。
これは、データセットの増加が計算能力の可用性の増加に部分的にのみ依存することを意味します。 これらのセクションの議論に基づいて、上記の3つの仮説を受け入れる場合、最近のビッグデータという用語の使用はデータ量の増加に依存していると推測できます。 代わりに、計算の増加は遅れており、「ビッグデータ」という用語でそれ自体を表す計算ギャップが生成されます。
3. データマイニング
したがって、必要な計算能力がデータよりも遅くなるため、ビッグデータという用語が復活したと主張しました。 この文脈で、「ビッグデータ」と「データマイニング」の違いを研究することができます。 後者は、データセットのサイズではなく、生の観測値のコレクションから知識を抽出するための手法に関係します。
3.1. 採石場での採掘のように
「データマイニング」という用語自体は、データを掘り下げることで貴重なものを抽出できるという考えに由来しています。 この何かはしばしば知識や貴重な洞察の形をしています:
この用語の背後にある考え方は、データベースを掘り下げるときに、データベースから知識を抽出して、私たちまたは私たちの会社に実際的な利益をもたらすことができるということです。 この意味で、データマイニングと知識抽出または知識発見は互いに同義です。
「データマイニング」という用語は、「データスクレイピング」と混同しないでください。これは、Webから公的にアクセス可能なデータを収集する非常に異なるプロセスを指します。
3.2. データマイニングと知識発見
ナレッジディスカバリーという用語の最初の使用は、1989年のAIワークショップで行われました。 提案されたアイデアは、研究者がドメイン知識の使用を必要としないデータセットから知識を抽出するための方法を開発することができたというものでした。 科学者たちは、効率的な検索アルゴリズムを設計することで、ドメイン固有の知識の制約では許されない問題に対する予期しない解決策を見つけることができると期待していました。
この問題の具体例が示され、それを使用してそれらの意味を理解することができます。 トラックの効率的な輸送ルートを検索する場合、トラックが水上を走行しないという知識を使用して、道路網の検索スペースを制限することができます。 ただし、このタイプのドメイン固有の知識と関連する制約により、冬に凍った川を横断するルートを特定できなくなります。
このような状況では、データマイニングは、人間の知識ではなく、予期しない解決策を見つけることができる可能性があります。
データマイニングとナレッジディスカバリーの共同分野の開発における次のステップは、同じ名前のジャーナルの設立で構成されていました。 ベイジアンネットワークや一般化バージョンのDBSCANなど、データマイニングで現在使用されている一般的な手法のほとんどは、最初にこのジャーナルで公開されました。
3.3. データマイニングとデータストレージ
用語の混乱のもう1つの理由は、データマイニングとデータストレージの関連付けです。 ただし、2つの用語は同等ではありません。 代わりに、データストレージを分散方式でのデータの効率的なストレージを研究する分野と見なす必要があります。
データマイニングは、データストレージ専用のプラットフォームで実行できますが、実行する必要はありません。 しかし、2つが一緒になる頻度は、2つの間の関連の出現につながりました。
大規模なデータセットを分散形式で保存するための一般的なフレームワークは、Hadoopです。 ただし、このライブラリはデータマイニング専用ではなく、代わりに ApacheSparkを介して実行する方が適切です。 Spark用のMLibライブラリは、特に、大規模なデータセットのノイズフィルタリング専用です。
したがって、ビッグデータは、両方とのリンクによって、データマイニングとデータストレージ間の間接的な接続を仲介します。 ただし、データストレージに特化したフレームワークを使用することは、データマイニングを実行するための厳密な条件ではありません。
4. 混乱の理由
一般の人々が2つの用語を混同することがよくある理由はいくつかあります。 1つは、上で見たように、「ビッグデータ」はあいまいな用語であり、ほとんど定義されていないということです。 結果として、それはかなり使いすぎがちです。
ここでさらに詳しく説明するその他の重要な理由は次のとおりです。
- データマイニングは、多くの場合、大規模なデータセットで行われます
- 大規模なデータセットを所有する組織も、ほとんどのデータマイニングを行っています
- データセットのサイズが大きくなると、データセットに含まれるノイズも大きくなるため、知識抽出のためにより多くのデータマイニングが必要になります
それぞれについて、以下で詳しく見ていきましょう。
4.1. ビッグデータでデータマイニングが行われる
混乱の最初の理由は非常に直感的です。 それは、単純なデータセットと単純な問題がそれらから洞察を抽出するために単純な分析を必要とするという事実から来ています。
私たちの製品のマーケティングキャンペーンが役立つかどうかを理解したいとします。 年間の売上を2つの期間に分割し、どちらの期間でより多くのユニットを販売したかを確認できます。
タスクが上記の方法で定式化され、データセットが非常に単純に見える場合、その問題に対する答えを見つけるのは簡単です。 ただし、実際には、データ分析における重要なタスクのほとんどは、ソリューションの目玉以上のものを必要とします。 結果として、データマイニングを適用しないと解決できない可能性があります。
この例は、データマイニングがそれ自体で大規模なデータセットに関連付けられていることを示しています。 大規模なデータセットがある場合は、データマイニングを使用して作業する可能性があります。 これは、2つの用語間の関連と混乱の1つの理由を構成します。
4.2. ビッグデータの所有者はデータマイニングを行います
データマイニングを実行する組織の性質に関係する別の理由もあります。 これらの組織は通常、上記の動機のために大規模なデータセットを保持しています。
ただし、それに加えて、これらの組織は、データマイニングに特に適したチームも採用しています。 これらのチームは、ビッグデータとデータマイニングの両方に関する調査のほとんどを実施し、それらの間の関連付けを推進します。
一例として、Googleのデータマイニングチームがあります。このチームは、知識グラフに焦点を当てたデータマイニングのブランチを専門としており、その後グラフマイニングと呼ばれます。
この分野の研究で知られているもう1つの組織はCERNです。 CERNの大型ハドロン衝突型加速器は、現存する最大のデータセットの1つを生成します。 このデータセットに関連して、CERNは ROOT と呼ばれる専用ツールを開発しました。これはオープンソースで公開されており、階層型データベースのデータマイニングに優れています。
したがって、2つの用語の関係は、データマイニングを行う組織もビッグデータを保持していることが多いということでもあります。
4.3. ほとんどのデータはノイズです
2つの用語を頻繁に混合する最後の理由は、データセットのノイズに関係しています。 データセットのサイズが大きくなると、情報を取得するよりもノイズを蓄積する傾向があります。 結果として、小さなデータセットには必要のない大きなデータセットを処理するには、特別なノイズフィルタリング技術が必要です。
大規模なデータセットに特化したフレームワークが必要な方法と、これらがノイズリダクションの手法を統合する方法については、前に説明しました。 これらは、データセットが大きくなるにつれてアプリケーションがますます必要になるデータマイニング技術です。 これはまた、ビッグデータとデータマイニングという用語を同時に使用する理由が増えます。
5. 結論
この記事では、ビッグデータとデータマイニングの主な概念的および技術的な違いについて説明しました。
ビッグデータには特定の技術的意味はありません。 代わりに、その使用法はギャップに起因します。このギャップは、計算能力のゆっくりとした増加とデータセットのサイズの急速な増加に関係しています。
次に、データマイニングを、データセット内の知識をアルゴリズムで抽出および検出するために必要な一連の手法として定義しました。 また、データストレージがビッグデータとの関係によって間接的にのみデータマイニングに関係していることも確認しました。
最後に、メディアが2つの用語を混同することが多い主な理由をリストしました。 これは、すべての大規模なデータセットに対してデータマイニングを実施する必要性に起因することがわかりました。 これは、すべてのビッグデータセットでノイズフィルタリング(データマイニング技術)を実行する必要があることも意味します。
私たちはついにこの二分法の組織的側面を見てきました。 ビッグデータを保持しているほとんどの組織には、データマイニングを研究するチームがあります。 これらのチームは、順番に、それに関する研究のほとんどを実施し、2つの用語を同じ意味で使用します。