Web教科書

コーパス

コーパス (Corpus)

解説:AIのための「言葉の標本箱」

コーパス(Corpus)は、自然言語処理の研究や学習のために収集・整理された、大規模な「言語全集(テキストデータセット)」のことです。ラテン語で「身体」を意味する言葉が語源で、言語の「全体像」を捉えるためのデータベースです。

AIが人間の言葉を理解するためには、文法書を読むだけでは不十分です。「実際に人々がどういう文脈でその単語を使っているか」という大量の実例(生きた言葉)が必要です。この実例を集積したものがコーパスです。

📖 「辞書」と「コーパス」の違い

  • 辞書 (Dictionary):
    言葉の「定義・意味」が載っている。
    (例:「『ヤバい』とは、危険であること。または素晴らしいこと」)
  • コーパス (Corpus):
    言葉の「実際の使われ方(用例)」が大量に載っている。
    (例:「このラーメン、マジでヤバい」「納期がヤバい」といった実際の文章の集まり)

AIはコーパスを読み込むことで、「ヤバい」という単語がどんな単語と一緒に使われることが多いか(共起関係)などの「統計的な確率」を学習します。

コーパスの種類

ただのテキストファイルではなく、目的に応じて整理(構造化)されています。

種類 特徴
タグ付きコーパス
(Annotated Corpus)
単語ごとに「名詞」「動詞」といった品詞情報や、構文情報がタグ付けされているもの。
AIが文法構造を理解するのに役立つ。
対訳コーパス
(Parallel Corpus)
「日本語の文」と「英語の文」が対(ペア)になっているもの。
機械翻訳モデルの学習に必須。
大規模Webコーパス Common CrawlやWikipediaなど、Web上の膨大なテキストを集めたもの。
LLM(ChatGPT等)の事前学習に使われる。

G検定対策

出題ポイント

  • 定義:自然言語処理の研究・開発のために構築された「構造化されたテキストデータの集合体」である。
  • 活用:形態素解析」の辞書作りや、翻訳モデル、大規模言語モデルの学習データとして使われる。
  • 代表例:「BCCWJ(現代日本語書き言葉均衡コーパス)」や「Wikipedia」、「青空文庫」などがコーパスとして利用されることがある。

ひっかけ対策

  • × コーパスとは、単語の意味を定義した辞書のことである
    (解説)定義集ではなく、「用例集(データの塊)」です。ここが最大のひっかけポイントです。
  • × Web上の文章は信頼できないため、コーパスには使われない
    (解説)現代のLLM(GPTなど)は、Web上の文章(Common Crawl等)を大量に学習することで高い性能を実現しています。もちろん品質フィルタリングは行いますが、Webデータは主要な資源です。
タイトルとURLをコピーしました