<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Блог ntdim on ntdim</title><link>https://blog.ppid.ru/</link><description>Recent content in Блог ntdim on ntdim</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Tue, 07 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.ppid.ru/index.xml" rel="self" type="application/rss+xml"/><item><title>История возникновения LLM (Large Language Models — больших языковых моделей)</title><link>https://blog.ppid.ru/blog/history-of-llm/</link><pubDate>Tue, 07 Apr 2026 00:00:00 +0000</pubDate><guid>https://blog.ppid.ru/blog/history-of-llm/</guid><description>&lt;p>История возникновения LLM начинается не с нейросетей 2010-х, а гораздо раньше — с фундаментальной идеи моделирования языка как вероятностной последовательности. Ниже я разберу её шаг за шагом, начиная от самых первых концепций и заканчивая современными LLM, с точными датами и ключевыми людьми.&lt;/p>
&lt;h2 id="1-идея-вероятностное-моделирование-языка-начало-xx-века--1950-е">1. Идея: вероятностное моделирование языка (начало XX века — 1950-е)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>1913 год&lt;/strong>: Русский математик &lt;strong>Андрей Марков&lt;/strong> впервые применил цепи Маркова к анализу текста (поэма Пушкина «Евгений Онегин»). Это заложило основу &lt;strong>n-граммных моделей&lt;/strong> — идея, что вероятность следующего символа/слова зависит от нескольких предыдущих.&lt;/li>
&lt;li>&lt;strong>1948–1951 годы&lt;/strong>: &lt;strong>Клод Шеннон&lt;/strong> (основатель теории информации) использовал n-граммы для оценки «предсказуемости» (энтропии) английского языка. Он показал, что даже простые статистические модели могут генерировать осмысленный текст.&lt;/li>
&lt;li>&lt;strong>1950 год&lt;/strong>: &lt;strong>Алан Тьюринг&lt;/strong> в статье «Вычислительные машины и интеллект» поставил вопрос о машинном понимании языка (Тьюринг-тест). Это философская основа всей области.&lt;/li>
&lt;/ul>
&lt;h2 id="2-первые-практические-системы-19501960-е">2. Первые практические системы (1950–1960-е)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>1954 год&lt;/strong>: Исследователи &lt;strong>IBM&lt;/strong> и Джорджтаунского университета создали первую систему машинного перевода (русский → английский). Это был чисто &lt;strong>правиловый&lt;/strong> подход (rule-based), без статистики.&lt;/li>
&lt;li>&lt;strong>1966 год&lt;/strong>: &lt;strong>Джозеф Вейценбаум&lt;/strong> (MIT) разработал &lt;strong>ELIZA&lt;/strong> — первую программу, имитирующую разговор (психотерапевта). Она работала на простых шаблонах подстановки и стала прародителем чат-ботов.&lt;/li>
&lt;/ul>
&lt;h2 id="3-статистические-языковые-модели-slm-и-нейронные-сети-19802000-е">3. Статистические языковые модели (SLM) и нейронные сети (1980–2000-е)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>1986 год&lt;/strong>: &lt;strong>Дэвид Румельхарт&lt;/strong>, &lt;strong>Джеффри Хинтон&lt;/strong> и Рональд Уильямс популяризировали алгоритм &lt;strong>обратного распространения ошибки (backpropagation)&lt;/strong> для обучения многослойных нейросетей. Без этого инструмента современные LLM были бы невозможны.&lt;/li>
&lt;li>&lt;strong>1990 год&lt;/strong>: &lt;strong>Джеффри Элман&lt;/strong> ввёл &lt;strong>Simple Recurrent Network (SRN)&lt;/strong> — первую рекуррентную нейронную сеть (RNN), способную учитывать последовательность слов во времени.&lt;/li>
&lt;li>&lt;strong>1997 год&lt;/strong>: &lt;strong>Зепп Хохрайтер&lt;/strong> и &lt;strong>Юрген Шмидхубер&lt;/strong> изобрели &lt;strong>LSTM&lt;/strong> (Long Short-Term Memory) — улучшенную RNN, которая решала проблему «исчезающего градиента» и могла запоминать длинные зависимости в тексте. LSTM стала стандартом на ближайшие 20 лет.&lt;/li>
&lt;li>&lt;strong>2003 год&lt;/strong>: &lt;strong>Йошуа Бенжио&lt;/strong> (с соавторами Режаном Дюшармом, Паскалем Винсентом и Кристианом Жовеном) опубликовал семинальную работу &lt;em>«A Neural Probabilistic Language Model»&lt;/em>. Это &lt;strong>первая нейронная языковая модель&lt;/strong>: она заменила жесткие таблицы n-грамм на &lt;strong>распределённые представления слов&lt;/strong> (word embeddings), обучая их вместе с сетью. Именно здесь родилась идея, что слова — это векторы в многомерном пространстве.&lt;/li>
&lt;/ul>
&lt;h2 id="4-расцвет-эмбеддингов-gpu-революция-и-внимания-20122017">4. Расцвет эмбеддингов, GPU-революция и внимания (2012–2017)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>2012 год&lt;/strong>: Команда &lt;strong>AlexNet&lt;/strong> (Алекс Крижевский, Илья Суцкевер, Джеффри Хинтон) доказала, что глубокие сверточные нейросети можно эффективно обучать на графических процессорах (GPU). Это открыло дверь для масштабного обучения в NLP.&lt;/li>
&lt;li>&lt;strong>2013 год&lt;/strong>: &lt;strong>Томас Миколов&lt;/strong> (с командой Google: Кай Чен, Грег Коррадо, Джеффри Дин) выпустил &lt;strong>Word2Vec&lt;/strong>. Модель кардинально упростила и ускорила подход Бенжио. Она показала, что векторы слов улавливают глубокую семантику (классический пример: &lt;em>«король − мужчина + женщина ≈ королева»&lt;/em>).&lt;/li>
&lt;li>&lt;strong>2014 год&lt;/strong>: &lt;strong>Дмитрий Бахданау&lt;/strong>, &lt;strong>Кёнхён Чо&lt;/strong> и &lt;strong>Йошуа Бенжио&lt;/strong> ввели &lt;strong>механизм внимания&lt;/strong> (attention) в seq2seq-моделях для машинного перевода. Вместо того чтобы сжимать весь перевод в один вектор, сеть научилась «смотреть» на конкретные важные слова входного текста.&lt;/li>
&lt;/ul>
&lt;h2 id="5-рождение-трансформера-и-эра-llm-2017настоящее-время">5. Рождение трансформера и эра LLM (2017–настоящее время)&lt;/h2>
&lt;ul>
&lt;li>&lt;strong>12 июня 2017 года&lt;/strong>: Команда Google Brain (&lt;strong>Ашиш Васвани&lt;/strong>, &lt;strong>Ноам Шазир&lt;/strong>, &lt;strong>Ники Пармар&lt;/strong>, &lt;strong>Якоб Усцкорейт&lt;/strong>, &lt;strong>Лайонел Джонс&lt;/strong>, &lt;strong>Эйден Гомес&lt;/strong>, &lt;strong>Лукаш Кайзер&lt;/strong>, &lt;strong>Илья Полосухин&lt;/strong>) выложила на arXiv статью &lt;strong>«Attention Is All You Need»&lt;/strong>. Они предложили &lt;strong>архитектуру Transformer&lt;/strong> — полностью отказавшись от медленных рекуррентных слоёв в пользу параллелизуемого механизма внимания. Это стало абсолютным фундаментом &lt;strong>всех современных LLM&lt;/strong>.&lt;/li>
&lt;/ul>
&lt;p>С 2018 года начался взрывной рост:&lt;/p></description></item></channel></rss>