Нейросеть изнутри — визуальное пособие
ШАГ 1 / 12
Токенизация
💡
⚙️
КАК УСТРОЕНА
НЕЙРОСЕТЬ
GPT-2: 117 млн LLaMA-3: 70 млрд GPT-3: 175 млрд GPT-4: ~1.8 трлн
1 БЛОК = ATTENTION Add&Norm FFN ↻ × 12–120 раз = вся глубина трансформера
ТОКЕНЫ
слова → номера
~50K
EMBEDDING
512 чисел
координаты
+ POS
RoPE/sine
позиция
Q/K/V
Wq,Wk,Wv
3 роли
ATTENTION
Σ α·V
8–12 голов
ADD&NORM
RMSNorm
residual
FFN
SwiGLU
2048 нейрон
ADD&NORM
RMSNorm
residual
FINAL LN
RMSNorm
перед output
OUTPUT
50K логитов
softmax
Прямой проход
Обратный / Loss
Обновление весов
Внимание