механика интеллекта
Создана: 17 Декабря 2025 Срд 14:09:08.
Раздел: "Мнение оппозиции"
Сообщений в теме: 6, просмотров: 361
-
трансформер это зерно LLM
придумали его в google, но начали использовать в openAI
он состоит из двух частей, по моему -
1. матриц внимания, их существует четыре типа - матрица запрос, матрица ключ, матрица значение и матрица выхода
2. матриц FFN (Feed-Forward Network), их называют матрицы баз знаний, обычно это две или три большие матрицы - матрица Up-Projection, матрица Down-Projection и матрица Gate (Ворота) -
у современных продвинутых моделей трансформер состоит только из декодера
Если в электронике дешифратор просто выбирает один сигнал из многих, то в нейросетях декодировщик — это структура, которая предсказывает следующее слово (токен) на основе всего предыдущего контекста.
декодер создает процесс авторегрессии:
1. Вы даете модели начало фразы (промпт).
2. Декодировщик вычисляет вероятность того, какое слово должно идти следующим и добавляет его к фразе.
3. Повторяет процесс снова и снова, пока не закончит мысль.
декодер состоит из нескольких механизмов которые позволяют ему «понимать» текст и генерировать продолжение:
Masked Self-Attention (Маскированное самовнимание): декодировщик имеет в качестве запроса неоконченные фразы (не полностью сформулированные задания, запросы). Модель должна угадывать следующее слово, опираясь только на то, что уже было сказано ранее.
Слои прямой связи (Feed-Forward Networks): После того как механизм внимания собрал связи между словами (например, понял, что слово «открыл» относится к слову «книга»), эти слои обрабатывают информацию и формируют более абстрактное представление смысла.
Линейный слой и Softmax: Это финальный этап. Декодировщик переводит свои математические вычисления в список вероятностей для всех слов, которые он знает (его словаря). Например: «кот» — 80\%, «пес» — 5\%, «самолет» — 0.1\%. -
механизм внимания (Attention) позволяет понять, что слово «ключ» в предложении «Я открыл замок ключом» — это инструмент, а не музыкальный знак,
если предложение «Я увидел в нотах ключ», то скорее всего речь идет о музыкальном ключе
механизм внимания улавливает связь между словами в запросе
механизм FFN(feed-forward network) позволяет обдумать - расширить и углубить наше восприятие контекста запроса
FFN делает следующее:
Извлечение фактов: FFN работают как своего рода «база знаний». В их весах хранятся конкретные факты о мире.
Уточнение признаков: FFN может решить: «Ага, раз контекст про двери, значит, нам нужно усилить признаки "металлический", "холодный", "поворачивающийся"».
Трансформация представления: Слово на входе в FFN — это просто набор сырых данных из контекста. На выходе это уже более глубокое, концептуальное описание. -
у трансформера две основные матрицы (матрица внимания и матрица FFN), интересно посмотреть их размеры
их можно вычислить
нейронная сеть трансформера GPT-5.2 состоит из 96 слоев (блоков)
для каждого слоя создаются 4 матрицы внимания - Q, K, V, O и одна матрица FFN, для каждого слоя эти матрицы уникальны
матрицы одного слоя отличаются от матриц другого уровнем абстракции, чем больше номер уровня нейронной сети, тем выше уровень абстракции содержимого матриц
то есть матрицы 96-го слоя имеют дело с самыми абстрактными сущностями
каждая из четырех матриц внимания Q, K, V, O имеет размер d*d
где d - это размер вектора эмбединга в числах с плавающей запятой, для GPT-5.2 это 32 768 -
Вопрос о том, как именно нейронная сеть (архитектуры Transformer) «решает», на каком уровне абстракции находится знание и как оно упаковывается в веса Feed-Forward Network (FFN), касается современных исследований в области интерпретируемости
почему вообще возникает иерархия абстракций и как модель сама её организует.
Это запятая, где интуиция обычно ломается
Откуда берётся “абстракция” ?
Ключевая мысль:
Абстракция = инвариантность к деталям
Во время обучения:
модель много раз видит:
cat sleeps
dog sleeps
child sleeps
animal sleeps
Градиент (механизм обучения) говорит:
“Мне не важно ЧТО спит,
мне важно, что ЭТО — субъект, способный спать”
FFN-нейроны начинают:
игнорировать конкретику
усиливать общее




