コーパス - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

コーパス (Corpus)

コーパス（Corpus）は、自然言語処理の研究や学習のために収集・整理された、大規模な「言語全集（テキストデータセット）」のことです。ラテン語で「身体」を意味する言葉が語源で、言語の「全体像」を捉えるためのデータベースです。

AIが人間の言葉を理解するためには、文法書を読むだけでは不十分です。「実際に人々がどういう文脈でその単語を使っているか」という大量の実例（生きた言葉）が必要です。この実例を集積したものがコーパスです。

📖 「辞書」と「コーパス」の違い

辞書 (Dictionary)：
言葉の「定義・意味」が載っている。
（例：「『ヤバい』とは、危険であること。または素晴らしいこと」）
コーパス (Corpus)：
言葉の「実際の使われ方（用例）」が大量に載っている。
（例：「このラーメン、マジでヤバい」「納期がヤバい」といった実際の文章の集まり）

AIはコーパスを読み込むことで、「ヤバい」という単語がどんな単語と一緒に使われることが多いか（共起関係）などの「統計的な確率」を学習します。

ただのテキストファイルではなく、目的に応じて整理（構造化）されています。

種類	特徴
タグ付きコーパス (Annotated Corpus)	単語ごとに「名詞」「動詞」といった品詞情報や、構文情報がタグ付けされているもの。 AIが文法構造を理解するのに役立つ。
対訳コーパス (Parallel Corpus)	「日本語の文」と「英語の文」が対（ペア）になっているもの。機械翻訳モデルの学習に必須。
大規模Webコーパス	Common CrawlやWikipediaなど、Web上の膨大なテキストを集めたもの。 LLM（ChatGPT等）の事前学習に使われる。

× コーパスとは、単語の意味を定義した辞書のことである
（解説）定義集ではなく、「用例集（データの塊）」です。ここが最大のひっかけポイントです。
× Web上の文章は信頼できないため、コーパスには使われない
（解説）現代のLLM（GPTなど）は、Web上の文章（Common Crawl等）を大量に学習することで高い性能を実現しています。もちろん品質フィルタリングは行いますが、Webデータは主要な資源です。