テキスト拡張 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

テキストデータの拡張（Noising / Paraphrasing）

画像データであれば、画像を少し回転させたり左右反転させたりしても「猫は猫」のままですが、テキストデータは一文字変わるだけで意味が変わってしまうため、データの拡張（カサ増し）が非常に困難です。

しかし、近年の自然言語処理（NLP）では、AIの汎化性能を高めるために以下の2つのアプローチでデータを人工的に増やす手法が確立されています。

「多少乱れても気にしない」アプローチ。
文法や意味の厳密さをあえて無視し、単語レベルで機械的な操作を加えることでデータを増やします。代表的な手法にEDA (Easy Data Augmentation) があります。

🛠️ EDAの4つの基本操作

※注意点：簡単ですが、「猫がネズミを食べた」→「ネズミが猫を食べた」のように、意味が逆転したり崩壊したりするリスクがあります。

「意味を保ったまま変形する」アプローチ。
文の意味を変えずに、表現だけを変える高度な手法です。

🔄 代表的手法：逆翻訳 (Back Translation)

一度、別の言語に翻訳してから、再度元の言語に戻す手法です。

これにより、意味は同じだけど表現が異なる（データの多様性が増した）文を生成できます。

手法	特徴	メリット・デメリット
Noising (EDAなど)	単語の置換・削除・入替	◎ 計算が速い、実装が簡単 ✕ 文法や意味が壊れやすい
Paraphrasing (逆翻訳など)	意味を保った言い換え	◎ 質が高く、自然な文になる ✕ 翻訳モデルが必要でコストが高い

EDA (Easy Data Augmentation)：「同義語置換・挿入・交換・削除」の4つを使うNoising手法として名前が出ることがあります。
逆翻訳 (Back Translation)：Paraphrasingの代表例として、翻訳モデルを使ってデータを増やす手法であることを抑えておきましょう。
目的：データセットの偏りを減らし、モデルの汎化性能（未知のデータに対する強さ）を向上させるために行われる。

× Noisingを行えば、必ずモデルの精度は向上する
（解説）過度なNoisingはデータの意味を破壊し（ノイズになりすぎる）、逆に精度を下げる原因になります。
× 自然言語処理では画像処理と同じ拡張手法（反転など）が使える
（解説）テキストは離散的なデータなので、画像のような連続的な変換はできません。