コーパス (Corpus)
解説:AIのための「言葉の標本箱」
コーパス(Corpus)は、自然言語処理の研究や学習のために収集・整理された、大規模な「言語全集(テキストデータセット)」のことです。ラテン語で「身体」を意味する言葉が語源で、言語の「全体像」を捉えるためのデータベースです。
AIが人間の言葉を理解するためには、文法書を読むだけでは不十分です。「実際に人々がどういう文脈でその単語を使っているか」という大量の実例(生きた言葉)が必要です。この実例を集積したものがコーパスです。
📖 「辞書」と「コーパス」の違い
- 辞書 (Dictionary):
言葉の「定義・意味」が載っている。
(例:「『ヤバい』とは、危険であること。または素晴らしいこと」) - コーパス (Corpus):
言葉の「実際の使われ方(用例)」が大量に載っている。
(例:「このラーメン、マジでヤバい」「納期がヤバい」といった実際の文章の集まり)
AIはコーパスを読み込むことで、「ヤバい」という単語がどんな単語と一緒に使われることが多いか(共起関係)などの「統計的な確率」を学習します。
コーパスの種類
ただのテキストファイルではなく、目的に応じて整理(構造化)されています。
| 種類 | 特徴 |
|---|---|
| タグ付きコーパス (Annotated Corpus) |
単語ごとに「名詞」「動詞」といった品詞情報や、構文情報がタグ付けされているもの。 AIが文法構造を理解するのに役立つ。 |
| 対訳コーパス (Parallel Corpus) |
「日本語の文」と「英語の文」が対(ペア)になっているもの。 機械翻訳モデルの学習に必須。 |
| 大規模Webコーパス |
Common CrawlやWikipediaなど、Web上の膨大なテキストを集めたもの。 LLM(ChatGPT等)の事前学習に使われる。 |
G検定対策
出題ポイント
- 定義:自然言語処理の研究・開発のために構築された「構造化されたテキストデータの集合体」である。
- 活用:「形態素解析」の辞書作りや、翻訳モデル、大規模言語モデルの学習データとして使われる。
- 代表例:「BCCWJ(現代日本語書き言葉均衡コーパス)」や「Wikipedia」、「青空文庫」などがコーパスとして利用されることがある。
ひっかけ対策
- × コーパスとは、単語の意味を定義した辞書のことである
(解説)定義集ではなく、「用例集(データの塊)」です。ここが最大のひっかけポイントです。 - × Web上の文章は信頼できないため、コーパスには使われない
(解説)現代のLLM(GPTなど)は、Web上の文章(Common Crawl等)を大量に学習することで高い性能を実現しています。もちろん品質フィルタリングは行いますが、Webデータは主要な資源です。
