$ grep -r "" ./glossary/ | wc -l 35 терминов
# LLM (Large Language Model)
Большая языковая модель — нейросеть с миллиардами параметров, обученная на огромных корпусах текста для генерации, понимания и преобразования естественного языка.
# Transformer
Архитектура нейросети, предложенная в 2017 году в статье «Attention Is All You Need». Отказывается от рекуррентных слоёв в пользу механизма самовнимания, что обеспечивает полную параллелизацию вычислений.
# Self-Attention (самовнимание)
Механизм, позволяющий каждому токену в последовательности «посмотреть» на все остальные токены и собрать контекстную информацию. Ключевой компонент архитектуры Transformer.
# Энтропия (Шеннона)
Мера неопределённости или непредсказуемости случайной величины. В теории информации — математическое ожидание количества информации, которое несёт источник сообщений.
# Информация (по Шеннону)
Мера неожиданности события: I = −log₂(p), где p — вероятность. Чем менее вероятно событие, тем больше информации оно несёт. Измеряется в битах.
# Теория информации Шеннона
Математическая теория (1948), определяющая информацию через вероятность событий. Фундамент для сжатия данных, криптографии, сетевых протоколов и обучения нейросетей.
# Эмбеддинг (вложение)
Представление слова или токена в виде числового вектора в многомерном пространстве, где близкие по смыслу слова находятся рядом. Статические (Word2Vec) фиксированы, контекстные — меняются от окружения.
# RNN (рекуррентная нейронная сеть)
Класс нейросетей, обрабатывающих последовательности пошагово, передавая скрытое состояние от шага к шагу. Страдают от проблемы исчезающего градиента на длинных последовательностях.
# LSTM (Long Short-Term Memory)
Разновидность RNN с механизмом «вентилей» (gates), решающая проблему исчезающего градиента. Была стандартом в NLP до появления Transformer.
# Токен
Базовая единица текста для языковой модели. Может соответствовать слову, части слова или символу. Контекстное окно LLM измеряется в токенах.
# Инференс
Процесс использования обученной модели для получения предсказаний. В контексте LLM — генерация ответа на промпт пользователя.
# N-грамма
Последовательность из n подряд идущих элементов в тексте. N-граммные модели оценивают вероятность следующего элемента на основе нескольких предыдущих — первый подход к моделированию языка.
# Обратное распространение ошибки
Алгоритм обучения нейросетей, вычисляющий градиенты функции потерь по всем весам от выходного слоя к входному. Основа обучения всех современных глубинных моделей.
# RLHF
Reinforcement Learning from Human Feedback — метод дообучения модели на основе оценок качества ответов, данных людьми. Ключевая технология, сделавшая ChatGPT удобным.
# Few-shot learning
Способность модели решать задачу по нескольким примерам в промпте без дополнительного обучения весов. Впервые продемонстрировано в масштабе в GPT-3.
# Multi-Head Attention
Расширение Self-Attention: несколько параллельных «голов» одновременно анализируют текст с разных точек зрения, затем объединяют результаты.
# Softmax
Функция активации, превращающая вектор чисел в распределение вероятностей (все положительные, в сумме единица). Используется в механизме внимания для вычисления весов.
# Cross-entropy loss
Функция потерь, измеряющая расхождение между предсказанным и истинным распределениями вероятностей. Стандартная функция потерь при обучении LLM, напрямую связана с теорией Шеннона.
# KV-кэш
Кэширование ключей (Key) и значений (Value) ранее обработанных токенов при авторегрессивной генерации. Позволяет не пересчитывать внимание к предыдущим токенам на каждом шаге.
# Цепь Маркова
Вероятностная модель, где следующее состояние зависит только от текущего. Впервые применена А. А. Марковым к тексту в 1913 году — первый шаг к моделированию языка.
# Seq2seq
Архитектура нейросети, преобразующая входную последовательность в выходную. Механизм внимания был впервые введён именно в seq2seq-моделях для машинного перевода.
# Квадратичная сложность O(n²)
Вычислительная сложность Self-Attention: при увеличении длины последовательности в n раз вычисления растут в n² раз. Главная причина ограничения контекстного окна.
# Mixture of Experts (MoE)
Архитектурный паттерн: модель состоит из множества «экспертов», а механизм маршрутизации выбирает, какие активировать для каждого токена.
# State Space Models (SSM)
Класс архитектур (например, Mamba), альтернативных Transformer, с линейной сложностью по длине последовательности.
# GPU
Графический процессор с тысячами параллельных ядер — основная платформа для обучения и инференса нейросетей. Революция AlexNet (2012) показала их эффективность.
# Observability (наблюдаемость)
Способность понимать внутреннее состояние системы по внешним проявлениям — логам, метрикам, трейсам. Инструменты: Prometheus, Grafana, Loki.
# Self-hosting
Запуск ПО на собственном оборудовании, а не на облачных платформах. В контексте ИИ — локальный запуск LLM через Ollama, vLLM, LM Studio.
# Открытый индивидуализм
Философская позиция (Д. Колак): существует один субъект опыта, проявляющийся во всех сознательных существах. Границы между «я» и «другими» — информационная иллюзия.
# Закрытый индивидуализм
Интуитивная позиция: у каждого существа своё отдельное «я», изолированное от других. Аналог — изолированный сервер за фаерволом.
# Пустой индивидуализм
Позиция, отрицающая постоянное «я»: есть только дискретные моменты опыта, связанные памятью. Аналог — stateless-сервис.
# Трудная проблема сознания
Проблема (Д. Чалмерс, 1995): почему физические процессы в мозге сопровождаются субъективным опытом. Ни одна теория не даёт общепризнанного ответа.
# Феноменальное сознание
Субъективный опыт — то, «каково это» что-то ощущать. Отличается от функционального доступа к информации.
# Alignment (выравнивание ИИ)
Задача настройки ценностей и поведения ИИ так, чтобы они соответствовали интересам людей. Включает RLHF, constitutional AI и философские вопросы.
# Тьюринг-тест
Тест машинного интеллекта (А. Тьюринг, 1950): человек общается текстом и должен определить, кто из собеседников — машина.
# Word2Vec
Модель (T. Mikolov, Google, 2013), показавшая, что векторы слов улавливают семантику: «король − мужчина + женщина ≈ королева». Кардинально упростила подход к эмбеддингам.