Web教科書

ビッグデータ

ビッグデータ

解説

ビッグデータとは、従来のデータベース管理システムでは記録・保管・解析が困難なほど巨大で複雑なデータ群のことです。

定義:3つの「V」

ビッグデータの定義として、ダグ・レイニー(Doug Laney)が提唱した以下の「3V」が最も有名であり、試験でも頻出です。

  • Volume(量):データのサイズが膨大であること(テラバイト、ペタバイト級)。
  • Velocity(速度):データの生成・更新頻度が高速であること(リアルタイムなセンサーデータやSNS投稿など)。
  • Variety(多様性):構造化データ(Excelのような表形式)だけでなく、非構造化データ(画像、動画、音声、テキストなど)が含まれること。

近年ではこれらに、Veracity(正確性・真実性)Value(価値)を加えて「4V」「5V」と呼ぶこともあります。

AIの「燃料」としての役割

ディープラーニングが高い精度を出すためには大量のデータが必要不可欠です。ビッグデータは、第3次AIブームを支える「燃料」としての役割を果たしています。


G検定対策

出題ポイント

  • 3Vの暗記:Volume(量)、Velocity(速度)、Variety(多様性)。特に「Variety(非構造化データを含む)」が重要。
  • 関連技術:Hadoop(ハドゥープ)やSparkなどの分散処理フレームワーク、NoSQLデータベース。
  • データ種別:「構造化データ(表形式)」と「非構造化データ(画像・テキスト)」の違い。

よくあるひっかけ問題

  • × ビッグデータとは、Excelで管理できる大量の顧客リストのことである
    (解説)Excelで扱えるレベルはビッグデータとは呼びません。また、単なるリスト(構造化データ)だけでなく、画像などの非構造化データを含む点が重要です。
  • × データの量(Volume)さえ多ければビッグデータと呼ばれる
    (解説)量だけでなく、頻度(Velocity)や多様性(Variety)の要素も必要です。
タイトルとURLをコピーしました