一見複雑なマルチレイヤーパーセプトロン(MLP)を直感的に理解するため、正確性は横に置いておいて、あえて極端に単純化する試みをしてみます。
MLPは、機械学習の一種で、一連の層(レイヤー)から成り立つネットワークを通じて入力から出力への変換を行うものです。
では、具体的な例を用いて、この複雑なMLPがどのように動作するのか見てみましょう。
まず、ある犬がいたとします。我々が取り扱う対象である「犬」の特性を表す3次元のベクトルを考えてみます。
次に、この入力ベクトルがMLPによって中間層へと送られ、新しい特性を表す6次元のベクトルとなります。これが以下のような形で表現されます。
そして最後に、この中間層のベクトルが再度MLPによって処理され、最終的な出力を表す3次元のベクトルとなります。この例では、犬の種類を示す次のようなベクトルとなります。
この例を通じて、MLPがどのように入力ベクトルを処理し、その「質」を変えて出力するかを示しました。一見複雑なMLPも、正確性を犠牲にしたうえであえて単純化する試みを通じて理解することで、その働きがより直感的に理解できるかもしれません。
「深層学習モデルは、一般的に複数の「層」または「レイヤー」が組み合わさって構成されています。GPT-3のようなモデルでは、一つの「レイヤー」は、特定の順序で線形変換と非線形変換を組み合わせて実装されています。
まず、線形変換は、入力データを一定の比率でスケーリングまたはシフトします。これは、モデルがデータに基本的な形状を与えるための一手段となります。
次に、非線形変換が施されます。GPT-3では、この非線形活性化関数としてGELU(Gaussian Error Linear Unit)が用いられています。非線形変換はモデルが単純な線形関係を超えた複雑なパターンを捉えることを可能にします。
GPT-3の1つのレイヤーの中では、まず線形変換が行われ、次に非線形変換(GELU)が適用され、その後再び線形変換が行われます。これらの処理は一つのレイヤー内で順番に行われ、一つのレイヤーの出力が次のレイヤーの入力となります。このように複数のレイヤーを積み重ねることで、モデルは「尾を速く振る」かつ「大きな声で鳴く」犬が特に元気であるというような、単純な特性を超えた複雑なパターンを学習することができます。」
PyTorchでの実装例
class MLP(nn.Module):
def __init__(self, config):
super().__init__()
self.c_fc = nn.Linear(config.n_embd, 4 * config.n_embd, bias=config.bias)
self.gelu = nn.GELU()
self.c_proj = nn.Linear(4 * config.n_embd, config.n_embd, bias=config.bias)
self.dropout = nn.Dropout(config.dropout)
def forward(self, x):
x = self.c_fc(x)
x = self.gelu(x)
x = self.c_proj(x)
x = self.dropout(x)
return x
なお、GPTの1つのレイヤー(Transformer Block)内における2つの線形変換は、それぞれ異なる重みを使用します。具体的には、c_fc
(前の線形変換)とc_proj
(後の線形変換)は別々の重みを持つことで、それぞれ異なる変換を行うことができます。なお、活性化関数(ここではGELU)自体は重みを持ちません。これは固定された非線形の関数で、各層の線形変換の結果を加工します。
これは一つのレイヤー内で複雑な表現を学習できるようにするための重要な設計です。非線形の活性化関数(ここではGELU)と組み合わせることで、ネットワークはより複雑で柔軟な関数を表現できるようになります。
GPTとその他のトランスフォーマーベースのモデルのレイヤー構造は、伝統的なニューラルネットワークと一部異なります。伝統的なニューラルネットワーク(例えば、全結合層や畳み込み層など)では、一つの「レイヤー」は一つの線形変換(つまり、重みとバイアスによる変換)とそれに続く非線形活性化関数による変換を指します。
しかし、GPTの1つのレイヤーでは、その流れは少し異なります。具体的には、線形変換、非線形変換(GELU)、そしてもう一つの線形変換という一連の操作が1つの「レイヤー」を構成します。つまり、1つのGPTのレイヤー内で行われる処理は、伝統的なニューラルネットワークの1つのレイヤーと比べてより複雑なものになっています。
この差異は、トランスフォーマーベースのモデルが多層パーセプトロン(MLP)を用いて情報の変換と抽出を行っていることに起因します。このMLP内部で行われる2つの線形変換は、それぞれ異なる重みセットを用いています。
これらの違いを理解することは、GPTやその他のトランスフォーマーベースのモデルの動作と能力を理解する上で非常に重要です。これらのモデルは、伝統的なニューラルネットワークとは異なるアプローチを採用しており、その結果、自然言語処理(NLP)などの分野で驚異的なパフォーマンスを達成しています。