История возникновения LLM (Large Language Models — больших языковых моделей)

$ cat toc.txt

История возникновения LLM начинается не с нейросетей 2010-х, а гораздо раньше — с фундаментальной идеи моделирования языка как вероятностной последовательности. Ниже я разберу её шаг за шагом, начиная от самых первых концепций и заканчивая современными LLM, с точными датами и ключевыми людьми.

1. Идея: вероятностное моделирование языка (начало XX века — 1950-е)

1913 год: Русский математик Андрей Марков впервые применил цепи Маркова к анализу текста (поэма Пушкина «Евгений Онегин»). Это заложило основу n-граммных моделей — идея, что вероятность следующего символа/слова зависит от нескольких предыдущих.
1948–1951 годы: Клод Шеннон (основатель теории информации) использовал n-граммы для оценки «предсказуемости» (энтропии) английского языка. Он показал, что даже простые статистические модели могут генерировать осмысленный текст.
1950 год: Алан Тьюринг в статье «Вычислительные машины и интеллект» поставил вопрос о машинном понимании языка (Тьюринг-тест). Это философская основа всей области.

2. Первые практические системы (1950–1960-е)

1954 год: Исследователи IBM и Джорджтаунского университета создали первую систему машинного перевода (русский → английский). Это был чисто правиловый подход (rule-based), без статистики.
1966 год: Джозеф Вейценбаум (MIT) разработал ELIZA — первую программу, имитирующую разговор (психотерапевта). Она работала на простых шаблонах подстановки и стала прародителем чат-ботов.

3. Статистические языковые модели (SLM) и нейронные сети (1980–2000-е)

1986 год: Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс популяризировали алгоритм обратного распространения ошибки (backpropagation) для обучения многослойных нейросетей. Без этого инструмента современные LLM были бы невозможны.
1990 год: Джеффри Элман ввёл Simple Recurrent Network (SRN) — первую рекуррентную нейронную сеть (RNN), способную учитывать последовательность слов во времени.
1997 год: Зепп Хохрайтер и Юрген Шмидхубер изобрели LSTM (Long Short-Term Memory) — улучшенную RNN, которая решала проблему «исчезающего градиента» и могла запоминать длинные зависимости в тексте. LSTM стала стандартом на ближайшие 20 лет.
2003 год: Йошуа Бенжио (с соавторами Режаном Дюшармом, Паскалем Винсентом и Кристианом Жовеном) опубликовал семинальную работу «A Neural Probabilistic Language Model». Это первая нейронная языковая модель: она заменила жесткие таблицы n-грамм на распределённые представления слов (word embeddings), обучая их вместе с сетью. Именно здесь родилась идея, что слова — это векторы в многомерном пространстве.

4. Расцвет эмбеддингов, GPU-революция и внимания (2012–2017)

2012 год: Команда AlexNet (Алекс Крижевский, Илья Суцкевер, Джеффри Хинтон) доказала, что глубокие сверточные нейросети можно эффективно обучать на графических процессорах (GPU). Это открыло дверь для масштабного обучения в NLP.
2013 год: Томас Миколов (с командой Google: Кай Чен, Грег Коррадо, Джеффри Дин) выпустил Word2Vec. Модель кардинально упростила и ускорила подход Бенжио. Она показала, что векторы слов улавливают глубокую семантику (классический пример: «король − мужчина + женщина ≈ королева»).
2014 год: Дмитрий Бахданау, Кёнхён Чо и Йошуа Бенжио ввели механизм внимания (attention) в seq2seq-моделях для машинного перевода. Вместо того чтобы сжимать весь перевод в один вектор, сеть научилась «смотреть» на конкретные важные слова входного текста.

5. Рождение трансформера и эра LLM (2017–настоящее время)

12 июня 2017 года: Команда Google Brain (Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Усцкорейт, Лайонел Джонс, Эйден Гомес, Лукаш Кайзер, Илья Полосухин) выложила на arXiv статью «Attention Is All You Need». Они предложили архитектуру Transformer — полностью отказавшись от медленных рекуррентных слоёв в пользу параллелизуемого механизма внимания. Это стало абсолютным фундаментом всех современных LLM.

С 2018 года начался взрывной рост:

Год	Модель / событие	Авторы / компания	Ключевой вклад	Параметры
2018	BERT	Джейкоб Девлин и др. (Google)	Двунаправленное предобучение (masked language modeling)	340 млн
2018	GPT-1	Алек Радфорд и др. (OpenAI)	Генеративное предобучение (Generative Pre-Training)	117 млн
2019	GPT-2	OpenAI	Масштабирование модели + генерация связного текста	1,5 млрд
2020	GPT-3	OpenAI	Few-shot learning (обучение на примерах в промпте)	175 млрд
2022	ChatGPT (GPT-3.5)	OpenAI	Интеграция RLHF (обучение с подкреплением на основе отзывов людей) — открытие доступа для миллионов	—
2023	GPT-4	OpenAI	Мультимодальность (текст + изображения), rumor-модель на базе архитектуры MoE (Mixture of Experts)	~1,8 трлн (по утечкам/оценкам)

Далее на рынок хлынули открытые весомые модели: LLaMA (Meta, 2023), Mistral, Grok (xAI) и сотни других. К 2024 году LLM окончательно эволюционировали в мультимодальные системы (Gemini 1.5, Claude 3), способные обрабатывать видео и аудио, держать в контексте миллионы токенов, а также выполнять сложное логическое рассуждение (reasoning) и работать в качестве автономных агентов.

Краткий итог эволюции

Идея → вероятностная модель языка (Марков, Шеннон).
Статистика → классические n-граммы (расцвет в 1980–1990-е).
Нейросети → распределённые представления слов (Бенжио 2003, Word2Vec 2013).
Внимание → Transformer (2017) — архитектурная революция масштаба.
Масштабирование (данные + GPU-вычисления + параметры) + RLHF → современные LLM.

Каждый шаг был результатом работы сотен исследователей, но ключевые прорывы всегда происходили тогда, когда кто-то предлагал более простую, параллелизуемую архитектуру и находил вычислительные мощности для её обучения. Сегодня LLM — это не просто «большие модели», а прямое продолжение более чем 70-летней мечты человечества о машине, понимающей наш язык.

← все посты [поделиться] [rss]