Словарь терминов

$ grep -r "" ./glossary/ | wc -l 35 терминов

# LLM (Large Language Model)

Большая языковая модель — нейросеть с миллиардами параметров, обученная на огромных корпусах текста для генерации, понимания и преобразования естественного языка.

# Transformer

Архитектура нейросети, предложенная в 2017 году в статье «Attention Is All You Need». Отказывается от рекуррентных слоёв в пользу механизма самовнимания, что обеспечивает полную параллелизацию вычислений.

# Self-Attention (самовнимание)

Механизм, позволяющий каждому токену в последовательности «посмотреть» на все остальные токены и собрать контекстную информацию. Ключевой компонент архитектуры Transformer.

# Энтропия (Шеннона)

Мера неопределённости или непредсказуемости случайной величины. В теории информации — математическое ожидание количества информации, которое несёт источник сообщений.

# Информация (по Шеннону)

Мера неожиданности события: I = −log₂(p), где p — вероятность. Чем менее вероятно событие, тем больше информации оно несёт. Измеряется в битах.

# Теория информации Шеннона

Математическая теория (1948), определяющая информацию через вероятность событий. Фундамент для сжатия данных, криптографии, сетевых протоколов и обучения нейросетей.

# Эмбеддинг (вложение)

Представление слова или токена в виде числового вектора в многомерном пространстве, где близкие по смыслу слова находятся рядом. Статические (Word2Vec) фиксированы, контекстные — меняются от окружения.

# RNN (рекуррентная нейронная сеть)

Класс нейросетей, обрабатывающих последовательности пошагово, передавая скрытое состояние от шага к шагу. Страдают от проблемы исчезающего градиента на длинных последовательностях.

# LSTM (Long Short-Term Memory)

Разновидность RNN с механизмом «вентилей» (gates), решающая проблему исчезающего градиента. Была стандартом в NLP до появления Transformer.

# Токен

Базовая единица текста для языковой модели. Может соответствовать слову, части слова или символу. Контекстное окно LLM измеряется в токенах.

# Инференс

Процесс использования обученной модели для получения предсказаний. В контексте LLM — генерация ответа на промпт пользователя.

# N-грамма

Последовательность из n подряд идущих элементов в тексте. N-граммные модели оценивают вероятность следующего элемента на основе нескольких предыдущих — первый подход к моделированию языка.

# Обратное распространение ошибки

Алгоритм обучения нейросетей, вычисляющий градиенты функции потерь по всем весам от выходного слоя к входному. Основа обучения всех современных глубинных моделей.

# RLHF

Reinforcement Learning from Human Feedback — метод дообучения модели на основе оценок качества ответов, данных людьми. Ключевая технология, сделавшая ChatGPT удобным.

# Few-shot learning

Способность модели решать задачу по нескольким примерам в промпте без дополнительного обучения весов. Впервые продемонстрировано в масштабе в GPT-3.

# Multi-Head Attention

Расширение Self-Attention: несколько параллельных «голов» одновременно анализируют текст с разных точек зрения, затем объединяют результаты.

# Softmax

Функция активации, превращающая вектор чисел в распределение вероятностей (все положительные, в сумме единица). Используется в механизме внимания для вычисления весов.

# Cross-entropy loss

Функция потерь, измеряющая расхождение между предсказанным и истинным распределениями вероятностей. Стандартная функция потерь при обучении LLM, напрямую связана с теорией Шеннона.

# KV-кэш

Кэширование ключей (Key) и значений (Value) ранее обработанных токенов при авторегрессивной генерации. Позволяет не пересчитывать внимание к предыдущим токенам на каждом шаге.

# Цепь Маркова

Вероятностная модель, где следующее состояние зависит только от текущего. Впервые применена А. А. Марковым к тексту в 1913 году — первый шаг к моделированию языка.

# Seq2seq

Архитектура нейросети, преобразующая входную последовательность в выходную. Механизм внимания был впервые введён именно в seq2seq-моделях для машинного перевода.

# Квадратичная сложность O(n²)

Вычислительная сложность Self-Attention: при увеличении длины последовательности в n раз вычисления растут в n² раз. Главная причина ограничения контекстного окна.

# Mixture of Experts (MoE)

Архитектурный паттерн: модель состоит из множества «экспертов», а механизм маршрутизации выбирает, какие активировать для каждого токена.

# State Space Models (SSM)

Класс архитектур (например, Mamba), альтернативных Transformer, с линейной сложностью по длине последовательности.

# GPU

Графический процессор с тысячами параллельных ядер — основная платформа для обучения и инференса нейросетей. Революция AlexNet (2012) показала их эффективность.

# Observability (наблюдаемость)

Способность понимать внутреннее состояние системы по внешним проявлениям — логам, метрикам, трейсам. Инструменты: Prometheus, Grafana, Loki.

# Self-hosting

Запуск ПО на собственном оборудовании, а не на облачных платформах. В контексте ИИ — локальный запуск LLM через Ollama, vLLM, LM Studio.

# Открытый индивидуализм

Философская позиция (Д. Колак): существует один субъект опыта, проявляющийся во всех сознательных существах. Границы между «я» и «другими» — информационная иллюзия.

# Закрытый индивидуализм

Интуитивная позиция: у каждого существа своё отдельное «я», изолированное от других. Аналог — изолированный сервер за фаерволом.

# Пустой индивидуализм

Позиция, отрицающая постоянное «я»: есть только дискретные моменты опыта, связанные памятью. Аналог — stateless-сервис.

# Трудная проблема сознания

Проблема (Д. Чалмерс, 1995): почему физические процессы в мозге сопровождаются субъективным опытом. Ни одна теория не даёт общепризнанного ответа.

# Феноменальное сознание

Субъективный опыт — то, «каково это» что-то ощущать. Отличается от функционального доступа к информации.

# Alignment (выравнивание ИИ)

Задача настройки ценностей и поведения ИИ так, чтобы они соответствовали интересам людей. Включает RLHF, constitutional AI и философские вопросы.

# Тьюринг-тест

Тест машинного интеллекта (А. Тьюринг, 1950): человек общается текстом и должен определить, кто из собеседников — машина.

# Word2Vec

Модель (T. Mikolov, Google, 2013), показавшая, что векторы слов улавливают семантику: «король − мужчина + женщина ≈ королева». Кардинально упростила подход к эмбеддингам.