ビッグデータ
解説
ビッグデータとは、従来のデータベース管理システムでは記録・保管・解析が困難なほど巨大で複雑なデータ群のことです。
定義:3つの「V」
ビッグデータの定義として、ダグ・レイニー(Doug Laney)が提唱した以下の「3V」が最も有名であり、試験でも頻出です。
- Volume(量):データのサイズが膨大であること(テラバイト、ペタバイト級)。
- Velocity(速度):データの生成・更新頻度が高速であること(リアルタイムなセンサーデータやSNS投稿など)。
- Variety(多様性):構造化データ(Excelのような表形式)だけでなく、非構造化データ(画像、動画、音声、テキストなど)が含まれること。
近年ではこれらに、Veracity(正確性・真実性)やValue(価値)を加えて「4V」「5V」と呼ぶこともあります。
AIの「燃料」としての役割
ディープラーニングが高い精度を出すためには大量のデータが必要不可欠です。ビッグデータは、第3次AIブームを支える「燃料」としての役割を果たしています。
G検定対策
出題ポイント
- 3Vの暗記:Volume(量)、Velocity(速度)、Variety(多様性)。特に「Variety(非構造化データを含む)」が重要。
- 関連技術:Hadoop(ハドゥープ)やSparkなどの分散処理フレームワーク、NoSQLデータベース。
- データ種別:「構造化データ(表形式)」と「非構造化データ(画像・テキスト)」の違い。
よくあるひっかけ問題
- × ビッグデータとは、Excelで管理できる大量の顧客リストのことである
(解説)Excelで扱えるレベルはビッグデータとは呼びません。また、単なるリスト(構造化データ)だけでなく、画像などの非構造化データを含む点が重要です。 - × データの量(Volume)さえ多ければビッグデータと呼ばれる
(解説)量だけでなく、頻度(Velocity)や多様性(Variety)の要素も必要です。
