Нейросеть изнутри — визуальное пособие
⚡ Обучение
→ Инференс (ответ)
ШАГ 1 / 12
Токенизация
💡
⚙️
КАК УСТРОЕНА
НЕЙРОСЕТЬ
GPT-2: 117 млн
LLaMA-3: 70 млрд
GPT-3: 175 млрд
GPT-4: ~1.8 трлн
1 БЛОК =
ATTENTION
Add&Norm
FFN
↻ × 12–120 раз
= вся глубина трансформера
ТОКЕНЫ
слова → номера
~50K
EMBEDDING
512 чисел
координаты
+ POS
RoPE/sine
позиция
Q/K/V
Wq,Wk,Wv
3 роли
ATTENTION
Σ α·V
8–12 голов
ADD&NORM
RMSNorm
residual
FFN
SwiGLU
2048 нейрон
ADD&NORM
RMSNorm
residual
FINAL LN
RMSNorm
перед output
OUTPUT
50K логитов
softmax
← НАЗАД
ВПЕРЁД →
↺
Прямой проход
Обратный / Loss
Обновление весов
Внимание