Словарь терминов
Глоссарий терминов AI, LLM, теории информации и философии сознания
$ grep -r "" ./glossary/ | wc -l
35 терминов
#
LLM (Large Language Model)
Большая языковая модель — нейросеть с миллиардами параметров, обученная на огромных корпусах текста для генерации, понимания и преобразования естественного языка.
#
Transformer
Архитектура нейросети, предложенная в 2017 году в статье «Attention Is All You Need». Отказывается от рекуррентных слоёв в пользу механизма самовнимания, что обеспечивает полную параллелизацию вычислений.
#
Self-Attention (самовнимание)
Механизм, позволяющий каждому токену в последовательности «посмотреть» на все остальные токены и собрать контекстную информацию. Ключевой компонент архитектуры Transformer.
#
Энтропия (Шеннона)
Мера неопределённости или непредсказуемости случайной величины. В теории информации — математическое ожидание количества информации, которое несёт источник сообщений.
#
Информация (по Шеннону)
Мера неожиданности события: I = −log₂(p), где p — вероятность. Чем менее вероятно событие, тем больше информации оно несёт. Измеряется в битах.
#
Теория информации Шеннона
Математическая теория (1948), определяющая информацию через вероятность событий. Фундамент для сжатия данных, криптографии, сетевых протоколов и обучения нейросетей.
#
Эмбеддинг (вложение)
Представление слова или токена в виде числового вектора в многомерном пространстве, где близкие по смыслу слова находятся рядом. Статические (Word2Vec) фиксированы, контекстные — меняются от окружения.
#
RNN (рекуррентная нейронная сеть)
Класс нейросетей, обрабатывающих последовательности пошагово, передавая скрытое состояние от шага к шагу. Страдают от проблемы исчезающего градиента на длинных последовательностях.
#
LSTM (Long Short-Term Memory)
Разновидность RNN с механизмом «вентилей» (gates), решающая проблему исчезающего градиента. Была стандартом в NLP до появления Transformer.
#
Токен
Базовая единица текста для языковой модели. Может соответствовать слову, части слова или символу. Контекстное окно LLM измеряется в токенах.
#
Инференс
Процесс использования обученной модели для получения предсказаний. В контексте LLM — генерация ответа на промпт пользователя.
#
N-грамма
Последовательность из n подряд идущих элементов в тексте. N-граммные модели оценивают вероятность следующего элемента на основе нескольких предыдущих — первый подход к моделированию языка.
#
Обратное распространение ошибки
Алгоритм обучения нейросетей, вычисляющий градиенты функции потерь по всем весам от выходного слоя к входному. Основа обучения всех современных глубинных моделей.
#
RLHF
Reinforcement Learning from Human Feedback — метод дообучения модели на основе оценок качества ответов, данных людьми. Ключевая технология, сделавшая ChatGPT удобным.
#
Few-shot learning
Способность модели решать задачу по нескольким примерам в промпте без дополнительного обучения весов. Впервые продемонстрировано в масштабе в GPT-3.
#
Multi-Head Attention
Расширение Self-Attention: несколько параллельных «голов» одновременно анализируют текст с разных точек зрения, затем объединяют результаты.
#
Softmax
Функция активации, превращающая вектор чисел в распределение вероятностей (все положительные, в сумме единица). Используется в механизме внимания для вычисления весов.
#
Cross-entropy loss
Функция потерь, измеряющая расхождение между предсказанным и истинным распределениями вероятностей. Стандартная функция потерь при обучении LLM, напрямую связана с теорией Шеннона.
#
KV-кэш
Кэширование ключей (Key) и значений (Value) ранее обработанных токенов при авторегрессивной генерации. Позволяет не пересчитывать внимание к предыдущим токенам на каждом шаге.
#
Цепь Маркова
Вероятностная модель, где следующее состояние зависит только от текущего. Впервые применена А. А. Марковым к тексту в 1913 году — первый шаг к моделированию языка.
#
Seq2seq
Архитектура нейросети, преобразующая входную последовательность в выходную. Механизм внимания был впервые введён именно в seq2seq-моделях для машинного перевода.
#
Квадратичная сложность O(n²)
Вычислительная сложность Self-Attention: при увеличении длины последовательности в n раз вычисления растут в n² раз. Главная причина ограничения контекстного окна.
#
Mixture of Experts (MoE)
Архитектурный паттерн: модель состоит из множества «экспертов», а механизм маршрутизации выбирает, какие активировать для каждого токена.
#
State Space Models (SSM)
Класс архитектур (например, Mamba), альтернативных Transformer, с линейной сложностью по длине последовательности.
#
GPU
Графический процессор с тысячами параллельных ядер — основная платформа для обучения и инференса нейросетей. Революция AlexNet (2012) показала их эффективность.
#
Observability (наблюдаемость)
Способность понимать внутреннее состояние системы по внешним проявлениям — логам, метрикам, трейсам. Инструменты: Prometheus, Grafana, Loki.
#
Self-hosting
Запуск ПО на собственном оборудовании, а не на облачных платформах. В контексте ИИ — локальный запуск LLM через Ollama, vLLM, LM Studio.
#
Открытый индивидуализм
Философская позиция (Д. Колак): существует один субъект опыта, проявляющийся во всех сознательных существах. Границы между «я» и «другими» — информационная иллюзия.
#
Закрытый индивидуализм
Интуитивная позиция: у каждого существа своё отдельное «я», изолированное от других. Аналог — изолированный сервер за фаерволом.
#
Пустой индивидуализм
Позиция, отрицающая постоянное «я»: есть только дискретные моменты опыта, связанные памятью. Аналог — stateless-сервис.
#
Трудная проблема сознания
Проблема (Д. Чалмерс, 1995): почему физические процессы в мозге сопровождаются субъективным опытом. Ни одна теория не даёт общепризнанного ответа.
#
Феноменальное сознание
Субъективный опыт — то, «каково это» что-то ощущать. Отличается от функционального доступа к информации.
#
Alignment (выравнивание ИИ)
Задача настройки ценностей и поведения ИИ так, чтобы они соответствовали интересам людей. Включает RLHF, constitutional AI и философские вопросы.
#
Тьюринг-тест
Тест машинного интеллекта (А. Тьюринг, 1950): человек общается текстом и должен определить, кто из собеседников — машина.
#
Word2Vec
Модель (T. Mikolov, Google, 2013), показавшая, что векторы слов улавливают семантику: «король − мужчина + женщина ≈ королева». Кардинально упростила подход к эмбеддингам.