Фуад Насиров – ИИ-Революция: Руководство по выживанию (страница 2)
И здесь возникает философская ловушка, известная как парадокс «Китайской комнаты».
Представьте, что вас заперли в комнате. Вы ни слова не знаете по-китайски. Но у вас есть гигантская книга инструкций на родном языке. В щель двери вам просовывают записку с иероглифами. Вы открываете книгу, ищете эти символы и читаете правило: «Если увидишь иероглиф А, нарисуй в ответ иероглиф Б». Вы перерисовываете символы и отдаете записку обратно. Для человека снаружи вы кажетесь носителем китайского языка. Ваши ответы идеальны. Вы поддерживаете осмысленную беседу. Но знаете ли вы китайский? Нет. Вы просто бездумно манипулируете символами по инструкции.
Это главный вопрос нашей эпохи: Действительно ли ИИ понимает смысл своих слов? Или это просто невероятно сложная «Китайская комната» – стохастический попугай, который научился имитировать человеческую речь, оставаясь внутри абсолютно пустым?
Ответ может вас испугать: А может быть, это не имеет значения? Если машина диагностирует точнее врача, пишет код быстрее программиста и находит слова утешения лучше психолога – так ли важно, есть у неё «душа» или нет? Результат реален, даже если процесс его создания искусственен.
ГЛАВА 2: ТРАНСФОРМЕРЫ И РАССВЕТ ГЕНЕРАТИВНОГО ИИ
К 2016 году исследователи ИИ чувствовали себя победителями. Они научили компьютер видеть (распознавание образов) и стратегически мыслить (победа AlphaGo). Но оставалась одна последняя крепость, которая упорно отказывалась сдаваться: Язык.
Компьютеры были функционально неграмотны. Да, они могли проверить орфографию в Word или перевести простую фразу вроде «Где библиотека?». Но они не могли поддержать разговор. Они не могли написать рассказ. Они были абсолютно глухи к сарказму, метафорам и юмору.
Проблема крылась в архитектуре. В то время основным способом обработки текста были Рекуррентные нейронные сети (RNN). RNN читали текст так же, как мы читаем телеграфную ленту: слово за словом, строго по порядку, слева направо.
Шаг 1: Прочитать «Мама».
Шаг 2: Прочитать «мыла».
Шаг 3: Прочитать «раму».
У этого метода был фатальный недостаток: Амнезия. К тому моменту, когда RNN добиралась до конца длинного абзаца, она часто забывала, с чего он начинался. Она не могла связать местоимение в последнем предложении («Она») с персонажем, упомянутым в первом («Анна Каренина»). У машины отсутствовала долгосрочная память.
Статья, которая изменила всё (2017) 12 июня 2017 года группа из восьми исследователей Google опубликовала научную статью с дерзким, почти музыкальным названием: «Attention Is All You Need» («Внимание – это всё, что вам нужно»).
Они предложили новую архитектуру под названием Трансформер.
Трансформер (революционная архитектура ИИ, обрабатывающая весь текст одновременно) сделал две радикальные вещи, которые изменили ход истории:
Параллелизм: Он перестал читать слева направо. Он «проглатывал» всё предложение (или абзац) целиком и сразу. Это как смотреть на картину целиком, а не разглядывать её по одному пикселю через лупу.
Механизм Внимания (Self-Attention): Он использовал математический трюк, чтобы взвешивать связь каждого слова с каждым другим словом одновременно.
Представьте, что вы на шумной вечеринке. Вы беседуете с одним человеком, но ваши уши подсознательно сканируют весь зал. Вдруг в другом конце комнаты кто-то произносит ваше имя. Ваше внимание мгновенно переключается на это слово, отсекая весь остальной шум. Трансформер позволяет ИИ делать то же самое. Когда он пишет слово «Коса», он мгновенно оглядывается на весь контекст. Если он видит слово «Девушка» в начале текста, он понимает, что речь о прическе.
Благодаря этому ИИ наконец-то обрел Контекст.
Законы Масштабирования Как только Трансформер был изобретен, ученые обнаружили пугающую закономерность. В прошлом у моделей ИИ всегда был «потолок» – в какой-то момент добавление новых данных переставало делать их умнее. Но у Трансформеров потолка не оказалось.
Удваиваете объем данных? ИИ становится умнее.
Удваиваете мощность компьютера? ИИ становится умнее.
Удваиваете размер «мозга» (параметры)? ИИ становится умнее.
Так началась эра Больших Языковых Моделей (LLM). Гонка перестала быть соревнованием гениальных программистов; она превратилась в битву чековых книжек – кто сможет купить больше видеокарт и скачать больше интернета.
Взрыв (2018–2022) OpenAI, небольшая лаборатория в Сан-Франциско, изначально созданная для защиты человечества от ИИ, решила пойти ва-банк.
GPT-1 (2018): Проба пера. Она могла строить связные предложения, но часто несла чушь.
GPT-2 (2019): Огромный скачок. Она могла писать фейковые новости, которые выглядели пугающе правдоподобно. OpenAI даже задержала её выпуск, заявив, что технология «слишком опасна».
GPT-3 (2020): Правила игры изменились. Модель обучили практически на всем интернете. Она умела писать код, стихи, переводить языки и решать математические задачи.
Момент истины: ChatGPT (2022) 30 ноября 2022 года OpenAI выпустила ChatGPT. По сути, они взяли мощный двигатель GPT-3.5 и упаковали его в простой, дружелюбный чат. Это стало «Моментом Айфона» для искусственного интеллекта. За пять дней сервис набрал 1 миллион пользователей. За два месяца – 100 миллионов. Это стало самым быстрорастущим приложением в истории. Внезапно бабушки начали использовать ИИ для рецептов пирогов, а школьники – для написания сочинений. Абстрактный «Искусственный Интеллект» превратился в бытовую утилиту.
Эра Агентов (2024–2026) В 2024 и 2026 годах технология снова сдвинулась. Мы переходим от Чат-ботов(которые просто говорят) к Агентам (которые умеют делать). Новые модели, такие как o1 от OpenAI, научились «думать, прежде чем говорить». Вместо того чтобы выпаливать ответ мгновенно, они берут паузу, разбивают сложную задачу на шаги, проверяют сами себя и только потом выдают решение.
Мы больше не строим калькулятор. Мы строим цифровой вид жизни.
Чтобы увидеть, как сжимается время, посмотрите на промежутки между прорывами. Мы прошли путь от десятилетий застоя до еженедельных революций.
ПРЕДЫСТОРИЯ (Философы)
1950: Алан Тьюринг публикует статью, предлагая «Игру в имитацию» (Тест Тьюринга).
1956: Дартмутская конференция. Джон Маккарти придумывает термин «Искусственный интеллект». Официальное рождение науки.
ЭРА СИМВОЛОВ (Логические машины)
1966: ЭЛИЗА (ELIZA), первый чат-бот, имитирующий психотерапевта.
1974–1980: Первая «Зима ИИ». Финансирование прекращается из-за отсутствия результатов.
1997: Deep Blue. Суперкомпьютер IBM побеждает чемпиона мира по шахматам Гарри Каспарова грубой вычислительной силой.
ЭРА ОБУЧЕНИЯ (Нейронная революция)
2012: Большой взрыв ImageNet. Нейросеть AlexNet громит конкурентов в распознавании картинок. Глубокое обучение (Deep Learning) захватывает мир.
2016: AlphaGo. ИИ от Google побеждает Ли Седоля в игре Го, демонстрируя «интуицию» и творчество (знаменитый Ход 37).
ЭРА ГЕНЕРАЦИИ (Трансформеры)
2017: Статья о Трансформерах. Google изобретает архитектуру современного ИИ.
2020: GPT-3. OpenAI выпускает первую по-настоящему огромную языковую модель.
2022 (Лето): Midjourney и Stable Diffusion. ИИ-арт становится мейнстримом. Художники в панике.
2022 (Ноябрь): ChatGPT. ИИ входит в каждый дом.
ЭРА РАССУЖДЕНИЯ И АГЕНТОВ (Наши дни)
2023: GPT-4. Первая «мультимодальная» модель (видит картинки и текст). Сдает экзамен на адвоката лучше 90% людей.
2024 (Февраль): Sora. Генерация гиперреалистичного видео. Шок в Голливуде.
2024 (Конец года): Рассуждающие модели (o1). ИИ начинает использовать «Цепочку мыслей» (Chain of Thought) для решения задач уровня PhD по физике.
2025: Восстание Агентов. ИИ начинает автономно управлять компьютерами – двигать курсором, нажимать кнопки и выполнять сложные задачи («Спланируй отпуск и забронируй билеты») без участия человека.
Мы прибыли в сегодняшний день. Машина умеет видеть, слышать, говорить и начинает рассуждать. Но как она это делает физически? Что является топливом для этого двигателя?
Чтобы понять это, нам нужно оторваться от кода и посмотреть на железо.
ГЛАВА 3: ТОПЛИВО И ДВИГАТЕЛЬ
Когда мы говорим об «Искусственном Интеллекте», мы обычно представляем себе что-то эфирное – код, парящий в цифровом облаке. Это иллюзия. ИИ – это не магия. Это тяжелая промышленность. Это миллионы тонн стали, меди, кремния и бетона. Это гудящие заводы, потребляющие столько же электричества, сколько небольшие страны.
Чтобы создать цифровой разум, нужны три физических компонента. Если убрать любой из них, революция остановится.
Двигатель (Вычислительные мощности / Чипы).
Топливо (Данные).
Энергия (Электричество).
Давайте спустимся с небес на землю и посмотрим, как это работает.
В 2024 году компания NVIDIA стала самой дорогой компанией на планете, обогнав Apple и Microsoft. Почему? Потому что они продают единственные в мире лопаты во время золотой лихорадки.
Но почему именно NVIDIA? Почему Intel, король компьютерных чипов на протяжении 30 лет, остался не у дел? Ответ кроется в архитектуре.
CPU против GPU: Феррари против Автобуса В вашем ноутбуке стоит CPU (Центральный процессор). CPU – это Феррари. Он невероятно быстр. Он может перевезти одного пассажира (одну задачу) из точки А в точку Б за рекордное время. Он идеален для запуска Windows, открытия Excel или загрузки веб-страницы.