音声処理の基礎 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

音声処理の基礎：AIは「音」をどう聴いているのか？

SiriやAlexaなどの音声アシスタント、Zoomの自動字幕生成など、私たちの身の回りには「音声AI」があふれています。

しかし、コンピュータにとって「音」は単なる空気の振動です。これをどのようにデータ化し、AIに理解させているのでしょうか？

この記事では、G検定でも頻出の「音声処理」の仕組み、特徴量の作り方、そして代表的なモデルまでを初心者向けに解説します。

1. 音声データの基本：アナログからデジタルへ

音は空気の振動（波）であり、そのままではコンピュータで扱えません。マイクで拾った連続的な波形（アナログ信号）を、コンピュータが扱える「デジタル信号」に変換する処理を「A-D変換」と呼びます。

パルス符号変調（PCM：Pulse Code Modulation）

A-D変換の最も代表的な方式です。CD音質（44.1kHz、16bit）などの高音質オーディオ記録で用いられる「非圧縮」の方式で、以下の3ステップで行われます。

サンプリング（標本化）：波の形を一定の時間間隔で測定すること。
※1秒間の測定回数を「サンプリング周波数」と言います（例：CDは44.1kHz）。
量子化：測定した波の高さ（振幅）を、決まった段階の数値（ビット数）に丸めること。
符号化：その数値を2進数（0と1のビット列）に変換すること。

MP3などの圧縮音源とは異なり、元の音に忠実なデジタル表現が可能ですが、データ容量は大きくなります。

サンプリングと量子化の図解

2. 音の最小単位とタスクの種類

音声処理を学ぶ上で、「音をどのくらいの粒度で扱うか」を知っておく必要があります。

音素と音韻

音素（Phoneme）：言語を構成する「最小の音の単位」です。
日本語の「おはよう」であれば、「o / h / a / y / o / u」のように分解されます。
音韻：文中の意味のまとまりや発音のタイミングを表す構造的な単位で、話し方やニュアンスに関する概念です。

主な音声処理タスク

タスク名	概要と具体例
音声認識 (ASR)	音声をテキストに変換する処理。（例：スマートスピーカー、自動字幕、音声入力）
音声合成 (TTS)	テキストから人間のような音声を生成する処理。（例：ナビ音声、アシスタントの回答）
音響イベント検出	「ガラスが割れた音」「足音」など、何の音かを特定する処理。（例：防犯カメラの異常検知）

3. 音声の特徴表現（G検定の最重要ポイント）

生の波形データは情報量が多すぎるため、AIが理解しやすい「特徴量」に変換します。

(1) フーリエ変換 (Fourier Transform)

信号（時系列データ）を「周波数成分」に分解する処理です。これにより、「どの高さの音がどれくらい含まれているか」がわかります。

FFT（高速フーリエ変換）：コンピュータで高速に計算するアルゴリズム。音声だけでなく、株価の変動分析や脳波解析などにも使われます。
STFT（短時間フーリエ変換）：音を短い区間で区切りながらFFTを行う手法です。

フーリエ変換のイメージ

(2) スペクトログラムと「音色の特徴」

STFTの結果を可視化したものを「スペクトログラム」と呼びます（横軸：時間、縦軸：周波数）。ここからさらに、声の質や個人性を表す重要な特徴を読み取ることができます。

G検定出題キーワード

スペクトル包絡：周波数成分のギザギザした波形の「輪郭（概形）」のこと。音の高さではなく、「声質」や「音色」の違いを表します。
フォルマント（フォルマント周波数）：スペクトル包絡に見られる「山（盛り上がっている部分）」の周波数。声道の共鳴によって生じ、「人間の声の個性」や母音（あいうえお）の識別に利用されます

(3) メル周波数ケプストラム係数 (MFCC)

スペクトログラム（スペクトル包絡）を、さらに「人間の耳の聞こえ方（メル尺度）」に合わせて加工した特徴量です。音声認識の精度を劇的に向上させた立役者です。

4. 代表的な音声処理モデル

歴史的な手法から最新のDeep Learningモデルまで、試験に出るポイントを押さえましょう。

HMM（隠れマルコフモデル）

ディープラーニング以前に主流だった時系列モデルです。
「状態が見えない（隠れ）まま、観測データからその遷移を予測する」という確率的な仕組みで、音声の時間的な変化を扱っていました。

HMMは、以下の2つの確率を組み合わせてモデル化します。

遷移確率（Transition Probability）：ある状態から次の状態へ移る確率。（例：「お」と言った後に「は」と言う確率）
出力確率（Emission Probability）：ある状態から、特定のデータが観測される確率。（例：「あ」という発音記号から、実際にマイクが「あ〜」という波形を拾う確率）

現在はRNNやTransformerに置き換えられつつあります。

WaveNet

2016年にDeepMind社が開発した、革命的な音声合成モデルです。

仕組み：「PixelCNN」という画像生成モデルを応用し、畳み込みニューラルネットワーク（CNN）を用いて音声波形そのものを1点ずつ生成します。
パラメトリックTTSとの違い：従来の「パラメトリックTTS（音声波形とテキストをパラメータで記述して合成する手法）」に比べ、大量のデータを学習でき、人間と区別がつかないほど自然な音声を生成可能にしました。

CTC（Connectionist Temporal Classification）

RNNなどで音声認識を行う際の「損失関数」です。入力（音声）と出力（テキスト）の長さが違うという問題を、「空白（blank）」クラスを導入することで解決しました。

まとめ

音声処理は、「PCMなどのA-D変換」から始まり、「FFTやフォルマント抽出」などの前処理を経て、「WaveNetやTransformer」などのモデルで処理されます。

特に「スペクトル包絡＝音色」「フォルマント＝声の個性」といった結びつきはG検定でよく問われるので、しっかり覚えておきましょう。