自然言語処理の活用タスク

これまで紹介した技術（形態素解析、word2vec、Transformerなど）を使って、具体的にどのようなタスクが行われているのかを解説します。

G検定では、技術名とタスク内容の組み合わせや、手法の進化（統計ベース→ニューラルベース）について問われることが多いため、整理しておきましょう。

ある言語のテキストを、別の言語に自動的に変換するタスクです。歴史的な変遷を押さえておくことが重要です。

統計的機械翻訳（SMT：Statistical Machine Translation）：
ディープラーニング以前の主流手法（〜2015年頃）。大量の対訳データから「単語やフレーズの並びやすさ（確率）」を計算して訳を作っていました。
※文法が不自然になりがちでした。
ニューラル機械翻訳（NMT：Neural Machine Translation）：
現在の主流手法。Seq2SeqやTransformerを使用します。文全体をベクトルとして捉え、文脈を考慮して翻訳するため、非常に流暢で精度の高い翻訳が可能になりました。

テキストに込められた書き手の感情や極性を分析するタスクです。

活用例：
SNS上の投稿を分析して「新商品の評判」を可視化したり、ECサイトの商品レビューを自動分類したりするのに使われます。

ユーザーが自然言語（話し言葉）で入力した質問に対して、システムが適切な回答を返すタスクです。検索エンジンやチャットボットの核心技術です。

仕組みによる分類：

抽出型（Extraction-based）：
用意されたドキュメントの中から、答えとなる部分（文字列）をそのまま「抜き出して」提示するタイプ。
（例：Google検索で答えが強調表示される機能など）
生成型（Generation-based）：
LLM（大規模言語モデル）のように、知識をもとに回答となる文章を新しく「作文」して提示するタイプ。
（例：ChatGPTなど）

長い文章の要点を捉え、内容を保ったまま短くまとめるタスクです。こちらも「どうやって短くするか」のアプローチによって2種類に分けられます。

手法	説明と特徴
抽出型要約 (Extractive Summarization)	元文章の中から、重要そうな文をいくつか選び出し、そのまま切り貼りして要約を作る手法。事実と異なることは書きにくいが、文のつながりが不自然になることがある。
生成型要約 (Abstractive Summarization)	元文章の意味を一度理解（ベクトル化）し、人間が要約するように新しい言葉で書き直す手法。 Seq2SeqやTransformerが得意とする。非常に自然だが、元の文にない嘘（ハルシネーション）が混じるリスクもある。

ユーザーのクエリ（検索ワード）に対して、膨大なデータベースの中からニーズに合った文書やデータを探し出す技術です。

キーワード検索（旧来）：「単語が一致するかどうか」で探す。表記ゆれ（スマホ／スマートフォン）に対応しづらい。
ベクトル検索（最新）：クエリと文書をそれぞれ分散表現（ベクトル）に変換し、「ベクトルの距離が近い（意味が似ている）」ものを探す。キーワードが含まれていなくても、意図が近ければ検索できる。

自然言語処理は、「言葉を数える（BoW）」時代から、「意味を計算する（word2vec）」時代を経て、今や「文脈を理解し生成する（Transformer/LLM）」時代へと突入しました。

G検定では、これらの技術が「どのような課題を解決するために生まれ、どのように進化したか」というストーリーが問われます。この記事で紹介した用語を「点」ではなく「線」でつなげて理解しておきましょう。