механика интеллекта

Создана: 17 Декабря 2025 Срд 14:09:08.
Раздел: "Мнение оппозиции"
Сообщений в теме: 6, просмотров: 1546

karaganda

Сообщений: >10K

17 Декабря 2025 Срд 14:09:08

#6181967

трансформер это зерно LLM

придумали его в google, но начали использовать в openAI

он состоит из двух частей, по моему -
1. матриц внимания, их существует четыре типа - матрица запрос, матрица ключ, матрица значение и матрица выхода
2. матриц FFN (Feed-Forward Network), их называют матрицы баз знаний, обычно это две или три большие матрицы - матрица Up-Projection, матрица Down-Projection и матрица Gate (Ворота)

Ответить
karaganda

Сообщений: >10K

20 Декабря 2025 Суб 12:26:05

#6182011

у современных продвинутых моделей трансформер состоит только из декодера

Если в электронике дешифратор просто выбирает один сигнал из многих, то в нейросетях декодировщик — это структура, которая предсказывает следующее слово (токен) на основе всего предыдущего контекста.

декодер создает процесс авторегрессии:

1. Вы даете модели начало фразы (промпт).

2. Декодировщик вычисляет вероятность того, какое слово должно идти следующим и добавляет его к фразе.

3. Повторяет процесс снова и снова, пока не закончит мысль.

декодер состоит из нескольких механизмов которые позволяют ему «понимать» текст и генерировать продолжение:

Masked Self-Attention (Маскированное самовнимание): декодировщик имеет в качестве запроса неоконченные фразы (не полностью сформулированные задания, запросы). Модель должна угадывать следующее слово, опираясь только на то, что уже было сказано ранее.

Слои прямой связи (Feed-Forward Networks): После того как механизм внимания собрал связи между словами (например, понял, что слово «открыл» относится к слову «книга»), эти слои обрабатывают информацию и формируют более абстрактное представление смысла.

Линейный слой и Softmax: Это финальный этап. Декодировщик переводит свои математические вычисления в список вероятностей для всех слов, которые он знает (его словаря). Например: «кот» — 80\%, «пес» — 5\%, «самолет» — 0.1\%.

Ответить
karaganda

Сообщений: >10K

21 Декабря 2025 Вск 13:13:39

#6182025

механизм внимания (Attention) позволяет понять, что слово «ключ» в предложении «Я открыл замок ключом» — это инструмент, а не музыкальный знак,
если предложение «Я увидел в нотах ключ», то скорее всего речь идет о музыкальном ключе

механизм внимания улавливает связь между словами в запросе

механизм FFN(feed-forward network) позволяет обдумать - расширить и углубить наше восприятие контекста запроса

FFN делает следующее:

Извлечение фактов: FFN работают как своего рода «база знаний». В их весах хранятся конкретные факты о мире.

Уточнение признаков: FFN может решить: «Ага, раз контекст про двери, значит, нам нужно усилить признаки "металлический", "холодный", "поворачивающийся"».

Трансформация представления: Слово на входе в FFN — это просто набор сырых данных из контекста. На выходе это уже более глубокое, концептуальное описание.

Ответить
karaganda

Сообщений: >10K

26 Декабря 2025 Птн 11:40:58

#6182085

у трансформера две основные матрицы (матрица внимания и матрица FFN), интересно посмотреть их размеры

их можно вычислить

нейронная сеть трансформера GPT-5.2 состоит из 96 слоев (блоков)

для каждого слоя создаются 4 матрицы внимания - Q, K, V, O и одна матрица FFN, для каждого слоя эти матрицы уникальны

матрицы одного слоя отличаются от матриц другого уровнем абстракции, чем больше номер уровня нейронной сети, тем выше уровень абстракции содержимого матриц

то есть матрицы 96-го слоя имеют дело с самыми абстрактными сущностями

каждая из четырех матриц внимания Q, K, V, O имеет размер d*d

где d - это размер вектора эмбединга в числах с плавающей запятой, для GPT-5.2 это 32 768

Ответить
karaganda

Сообщений: >10K

26 Декабря 2025 Птн 11:58:09

#6182086

Вопрос о том, как именно нейронная сеть (архитектуры Transformer) «решает», на каком уровне абстракции находится знание и как оно упаковывается в веса Feed-Forward Network (FFN), касается современных исследований в области интерпретируемости

почему вообще возникает иерархия абстракций и как модель сама её организует.
Это запятая, где интуиция обычно ломается

Откуда берётся “абстракция” ?

Ключевая мысль:
Абстракция = инвариантность к деталям

Во время обучения:

модель много раз видит:
cat sleeps
dog sleeps
child sleeps
animal sleeps

Градиент (механизм обучения) говорит:
“Мне не важно ЧТО спит,
мне важно, что ЭТО — субъект, способный спать”

FFN-нейроны начинают:
игнорировать конкретику
усиливать общее

Ответить
karaganda

Сообщений: >10K

26 Декабря 2025 Птн 12:01:37

#6182087

я вам не скажу за всю Одессу
вся Одесса очень велика
но и Молдаванка и Пересы
обожают Костю моряка

то есть в адресе сначала идут абстракции верхнего уровня и далее идет спуск

Ответить

механика интеллекта

Панель управления темой #393096