История возникновения LLM (Large Language Models — больших языковых моделей)

Tue, 07 Apr 2026 00:00:00 +0000

История возникновения LLM начинается не с нейросетей 2010-х, а гораздо раньше — с фундаментальной идеи моделирования языка как вероятностной последовательности. Ниже я разберу её шаг за шагом, начиная от самых первых концепций и заканчивая современными LLM, с точными датами и ключевыми людьми.

1. Идея: вероятностное моделирование языка (начало XX века — 1950-е)

1913 год: Русский математик Андрей Марков впервые применил цепи Маркова к анализу текста (поэма Пушкина «Евгений Онегин»). Это заложило основу n-граммных моделей — идея, что вероятность следующего символа/слова зависит от нескольких предыдущих.
1948–1951 годы: Клод Шеннон (основатель теории информации) использовал n-граммы для оценки «предсказуемости» (энтропии) английского языка. Он показал, что даже простые статистические модели могут генерировать осмысленный текст.
1950 год: Алан Тьюринг в статье «Вычислительные машины и интеллект» поставил вопрос о машинном понимании языка (Тьюринг-тест). Это философская основа всей области.

2. Первые практические системы (1950–1960-е)

1954 год: Исследователи IBM и Джорджтаунского университета создали первую систему машинного перевода (русский → английский). Это был чисто правиловый подход (rule-based), без статистики.
1966 год: Джозеф Вейценбаум (MIT) разработал ELIZA — первую программу, имитирующую разговор (психотерапевта). Она работала на простых шаблонах подстановки и стала прародителем чат-ботов.

3. Статистические языковые модели (SLM) и нейронные сети (1980–2000-е)

1986 год: Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс популяризировали алгоритм обратного распространения ошибки (backpropagation) для обучения многослойных нейросетей. Без этого инструмента современные LLM были бы невозможны.
1990 год: Джеффри Элман ввёл Simple Recurrent Network (SRN) — первую рекуррентную нейронную сеть (RNN), способную учитывать последовательность слов во времени.
1997 год: Зепп Хохрайтер и Юрген Шмидхубер изобрели LSTM (Long Short-Term Memory) — улучшенную RNN, которая решала проблему «исчезающего градиента» и могла запоминать длинные зависимости в тексте. LSTM стала стандартом на ближайшие 20 лет.
2003 год: Йошуа Бенжио (с соавторами Режаном Дюшармом, Паскалем Винсентом и Кристианом Жовеном) опубликовал семинальную работу «A Neural Probabilistic Language Model». Это первая нейронная языковая модель: она заменила жесткие таблицы n-грамм на распределённые представления слов (word embeddings), обучая их вместе с сетью. Именно здесь родилась идея, что слова — это векторы в многомерном пространстве.

4. Расцвет эмбеддингов, GPU-революция и внимания (2012–2017)

2012 год: Команда AlexNet (Алекс Крижевский, Илья Суцкевер, Джеффри Хинтон) доказала, что глубокие сверточные нейросети можно эффективно обучать на графических процессорах (GPU). Это открыло дверь для масштабного обучения в NLP.
2013 год: Томас Миколов (с командой Google: Кай Чен, Грег Коррадо, Джеффри Дин) выпустил Word2Vec. Модель кардинально упростила и ускорила подход Бенжио. Она показала, что векторы слов улавливают глубокую семантику (классический пример: «король − мужчина + женщина ≈ королева»).
2014 год: Дмитрий Бахданау, Кёнхён Чо и Йошуа Бенжио ввели механизм внимания (attention) в seq2seq-моделях для машинного перевода. Вместо того чтобы сжимать весь перевод в один вектор, сеть научилась «смотреть» на конкретные важные слова входного текста.

5. Рождение трансформера и эра LLM (2017–настоящее время)

12 июня 2017 года: Команда Google Brain (Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Усцкорейт, Лайонел Джонс, Эйден Гомес, Лукаш Кайзер, Илья Полосухин) выложила на arXiv статью «Attention Is All You Need». Они предложили архитектуру Transformer — полностью отказавшись от медленных рекуррентных слоёв в пользу параллелизуемого механизма внимания. Это стало абсолютным фундаментом всех современных LLM.