Web教科書

テキスト拡張

テキストデータの拡張(Noising / Paraphrasing)

解説:文章を「カサ増し」する技術

画像データであれば、画像を少し回転させたり左右反転させたりしても「猫は猫」のままですが、テキストデータは一文字変わるだけで意味が変わってしまうため、データの拡張(カサ増し)が非常に困難です。

しかし、近年の自然言語処理(NLP)では、AIの汎化性能を高めるために以下の2つのアプローチでデータを人工的に増やす手法が確立されています。

1. Noising(ノイジング)

「多少乱れても気にしない」アプローチ。
文法や意味の厳密さをあえて無視し、単語レベルで機械的な操作を加えることでデータを増やします。代表的な手法にEDA (Easy Data Augmentation) があります。

🛠️ EDAの4つの基本操作

  • 同義語置換 (Synonym Replacement): 「美しい」→「綺麗な」に入れ替える。
  • ランダム挿入 (Random Insertion): 文中に無関係な単語や、文脈にある単語をランダムに挿入する。
  • ランダム交換 (Random Swap): 「私が 猫を 撫でる」→「猫を 私が 撫でる」のように語順を入れ替える。
  • ランダム削除 (Random Deletion): 単語をランダムに消す。

※注意点:簡単ですが、「猫が ネズミを 食べた」→「ネズミが 猫を 食べた」のように、意味が逆転したり崩壊したりするリスクがあります。

2. Paraphrasing(パラフレーズ / 言い換え)

「意味を保ったまま変形する」アプローチ。
文の意味を変えずに、表現だけを変える高度な手法です。

🔄 代表的手法:逆翻訳 (Back Translation)

一度、別の言語に翻訳してから、再度元の言語に戻す手法です。

  • 元の文: 「このラーメンはとても美味しい。」
  • 英訳 (En): “This ramen is very delicious.”
  • 再翻訳 (Jp): 「このラーメンは本当にうまい。」

これにより、意味は同じだけど表現が異なる(データの多様性が増した)文を生成できます。

手法の比較まとめ

手法 特徴 メリット・デメリット
Noising
(EDAなど)
単語の置換・削除・入替 ◎ 計算が速い、実装が簡単
✕ 文法や意味が壊れやすい
Paraphrasing
(逆翻訳など)
意味を保った言い換え ◎ 質が高く、自然な文になる
✕ 翻訳モデルが必要でコストが高い

G検定対策

出題ポイント

  • EDA (Easy Data Augmentation):「同義語置換・挿入・交換・削除」の4つを使うNoising手法として名前が出ることがあります。
  • 逆翻訳 (Back Translation):Paraphrasingの代表例として、翻訳モデルを使ってデータを増やす手法であることを抑えておきましょう。
  • 目的:データセットの偏りを減らし、モデルの汎化性能(未知のデータに対する強さ)を向上させるために行われる。

ひっかけ対策

  • × Noisingを行えば、必ずモデルの精度は向上する
    (解説)過度なNoisingはデータの意味を破壊し(ノイズになりすぎる)、逆に精度を下げる原因になります。
  • × 自然言語処理では画像処理と同じ拡張手法(反転など)が使える
    (解説)テキストは離散的なデータなので、画像のような連続的な変換はできません。
タイトルとURLをコピーしました