テキストデータの拡張(Noising / Paraphrasing)
解説:文章を「カサ増し」する技術
画像データであれば、画像を少し回転させたり左右反転させたりしても「猫は猫」のままですが、テキストデータは一文字変わるだけで意味が変わってしまうため、データの拡張(カサ増し)が非常に困難です。
しかし、近年の自然言語処理(NLP)では、AIの汎化性能を高めるために以下の2つのアプローチでデータを人工的に増やす手法が確立されています。
1. Noising(ノイジング)
「多少乱れても気にしない」アプローチ。
文法や意味の厳密さをあえて無視し、単語レベルで機械的な操作を加えることでデータを増やします。代表的な手法にEDA (Easy Data Augmentation) があります。
🛠️ EDAの4つの基本操作
- 同義語置換 (Synonym Replacement): 「美しい」→「綺麗な」に入れ替える。
- ランダム挿入 (Random Insertion): 文中に無関係な単語や、文脈にある単語をランダムに挿入する。
- ランダム交換 (Random Swap): 「私が 猫を 撫でる」→「猫を 私が 撫でる」のように語順を入れ替える。
- ランダム削除 (Random Deletion): 単語をランダムに消す。
※注意点:簡単ですが、「猫が ネズミを 食べた」→「ネズミが 猫を 食べた」のように、意味が逆転したり崩壊したりするリスクがあります。
2. Paraphrasing(パラフレーズ / 言い換え)
「意味を保ったまま変形する」アプローチ。
文の意味を変えずに、表現だけを変える高度な手法です。
🔄 代表的手法:逆翻訳 (Back Translation)
一度、別の言語に翻訳してから、再度元の言語に戻す手法です。
- 元の文: 「このラーメンはとても美味しい。」
- 英訳 (En): “This ramen is very delicious.”
- 再翻訳 (Jp): 「このラーメンは本当にうまい。」
これにより、意味は同じだけど表現が異なる(データの多様性が増した)文を生成できます。
手法の比較まとめ
| 手法 | 特徴 | メリット・デメリット |
|---|---|---|
| Noising (EDAなど) |
単語の置換・削除・入替 |
◎ 計算が速い、実装が簡単 ✕ 文法や意味が壊れやすい |
| Paraphrasing (逆翻訳など) |
意味を保った言い換え |
◎ 質が高く、自然な文になる ✕ 翻訳モデルが必要でコストが高い |
G検定対策
出題ポイント
- EDA (Easy Data Augmentation):「同義語置換・挿入・交換・削除」の4つを使うNoising手法として名前が出ることがあります。
- 逆翻訳 (Back Translation):Paraphrasingの代表例として、翻訳モデルを使ってデータを増やす手法であることを抑えておきましょう。
- 目的:データセットの偏りを減らし、モデルの汎化性能(未知のデータに対する強さ)を向上させるために行われる。
ひっかけ対策
- × Noisingを行えば、必ずモデルの精度は向上する
(解説)過度なNoisingはデータの意味を破壊し(ノイズになりすぎる)、逆に精度を下げる原因になります。 - × 自然言語処理では画像処理と同じ拡張手法(反転など)が使える
(解説)テキストは離散的なデータなので、画像のような連続的な変換はできません。
