реклама
Бургер менюБургер меню

Денис Соломатин – Искусственный интеллект от А до Б (страница 22)

18

Хотя завершение – это мощная сила, завершение – это не то же самое, что участие в разговоре. Например, если вы зададите вопрос машине для завершения, она может дополнить то, что вы сказали, добавив еще один вопрос вместо ответа на вопрос.

Языковое моделирование – это лишь один из многих алгоритмов машинного обучения. Также есть модели для обнаружения объектов, тематического моделирования, рекомендательных систем, прогнозирования погоды, прогнозирования цен на акции и т.д. Что особенного в языковых моделях, что сделало их центром подхода к масштабированию, вызвавшего момент ChatGPT?

Ответ заключается в том, что языковые модели можно обучать с помощью самоконтроля, в то время как многие другие модели требуют контроля. Супервизия – это процесс обучения алгоритмов машинного обучения с использованием размеченных данных, получение которых может быть дорогостоящим и медленным. Самоконтроль помогает преодолеть это узкое место в маркировке данных и создать более крупные наборы данных для обучения моделей, что позволяет эффективно масштабировать модели. Вот как это сделать.

При контроле вы помечаете примеры, чтобы показать поведение, которое должна изучить модель, а затем обучаете модель на этих примерах. После обучения модель может быть применена к новым данным. Например, для обучения модели обнаружения мошенничества используются примеры транзакций, каждая из которых помечена как «мошенничество» или «не мошенничество». После того как модель извлечет уроки из этих примеров, ее можно использовать для прогнозирования того, является ли транзакция мошеннической.

Успех моделей ИИ в 2010-х годах заключался в контроле. Модель AlexNet, положившая начало революции в глубоком обучении, была курируемая и обучалась тому, как классифицировать более 1 миллиона изображений в наборе данных ImageNet, в результате классифицировала каждое изображение по одной из 1000 категорий, таких как «автомобиль», «воздушный шар» или «обезьяна».

Недостатком контроля является то, что маркировка данных является дорогостоящей и трудоемкой задачей. Если один человек стоит 5 центов, чтобы пометить одно изображение, то пометить миллион изображений для ImageNet будет стоить 50 000 долларов. Если вы хотите, чтобы два разных человека помечали каждое изображение, чтобы вы могли перепроверить качество этикетки, это будет стоить в два раза дороже. Поскольку мир содержит более 1000 объектов, чтобы расширить возможности моделей по работе с большим количеством объектов, вам потребуется добавить метки большего количества категорий. Чтобы масштабировать до 1 миллиона категорий, стоимость маркировки увеличится до 50 миллионов долларов.

Маркировка предметов повседневного обихода – это то, что большинство людей могут делать без предварительной подготовки. Следовательно, это можно сделать относительно дешево. Однако не все задачи по маркировке так просты. Генерация переводов с латыни для модели с английского на латиницу обходится дороже. Определение того, показывает ли компьютерная томография признаки рака, было бы астрономическим по стоимости.

Самоконтроль помогает преодолеть узкое место в маркировке данных. При самоконтроле вместо того, чтобы требовать явных меток, модель может выводить метки из входных данных. Языковое моделирование является самоконтролируемым, так как каждая входная последовательность предоставляет как метки (маркеры, подлежащие прогнозированию), так и контексты, которые модель может использовать для прогнозирования этих меток. Например, предложение «Я люблю уличную еду» дает шесть обучающих выборок, как показано ниже:

Ввод (контекст) Вывод (следующий токен)

<BOS>я<EOS>

<BOS>я, любовь<EOS>

<BOS>я, люблю, улица<EOS>

<BOS>я, любовь, улица, пища<EOS>

<BOS>я, любовь, улица, еда<EOS>

<BOS>я, люблю, улицу, еду<EOS>

В <BOS> и <EOS> обозначают начало и конец последовательности. Эти маркеры необходимы для работы языковой модели с несколькими последовательностями. Каждый маркер обычно рассматривается моделью как один специальный маркер. Маркер конца последовательности особенно важен, так как он помогает языковым моделям понять, когда следует закончить свои ответы.

Самоконтроль отличается от ненадзора. При самоконтролируемом обучении метки выводятся из входных данных. При обучении без учителя вам вообще не нужны ярлыки.

Самоконтролируемое обучение означает, что языковые модели могут обучаться на основе текстовых последовательностей, не требуя маркировки. Поскольку текстовые последовательности присутствуют повсюду – в книгах, сообщениях в блогах, статьях и комментариях на Reddit – можно создать огромное количество обучающих данных, что позволяет масштабировать языковые модели и превращаться в LLM.

Однако LLM вряд ли является научным термином. Насколько большой должна быть языковая модель, чтобы ее можно было считать большой? То, что сегодня является большим, завтра может считаться крошечным. Размер модели обычно измеряется количеством ее параметров. Параметр – это переменная в модели машинного обучения, которая обновляется в процессе обучения. В целом, хотя это и не всегда верно, чем больше параметров у модели, тем больше ее способность обучаться желаемому поведению.

Когда в июне 2018 года вышла первая генеративная модель предварительно обученного трансформатора (GPT) от OpenAI, она насчитывала 117 миллионов параметров, и это считалось большим. В феврале 2019 года, когда OpenAI представила GPT-2 с 1,5 миллиардами параметров, 117 миллионов были понижены, чтобы считаться небольшими. На момент написания этой книги модель со 100 миллиардами параметров считается большой. Возможно, однажды, такой размер будет считаться маленьким.

Почему же большим моделям нужно больше данных? Более крупные модели обладают большей способностью к обучению, и, следовательно, им потребуется больше обучающих данных для максимизации их производительности. Вы также можете обучить большую модель на небольшом наборе данных, но это будет пустой тратой вычислительных ресурсов. Вы могли бы достичь аналогичных или лучших результатов на этом наборе данных с меньшими моделями.

В то время как языковые модели способны выполнять невероятные задачи, они ограничены текстом. Как люди, мы воспринимаем мир не только через язык, но и через зрение, слух, осязание и многое другое. Возможность обрабатывать данные, выходящие за рамки текста, имеет важное значение для работы ИИ в реальном мире.

По этой причине языковые модели расширяются для включения большего количества модальностей данных. GPT-4V и Claude 3 могут понимать изображения и тексты. Некоторые модели даже понимают видео, 3D-ресурсы, структуры белков и так далее. Включение большего количества модальностей данных в языковые модели делает их еще более эффективными. В 2023 году OpenAI отметила в своей системной карте GPT-4V, что «включение дополнительных модальностей (таких как ввод изображений) в LLM рассматривается некоторыми как ключевой рубеж в исследованиях и разработках в области искусственного интеллекта».

В то время как многие люди до сих пор называют Gemini и GPT-4V LLM, их лучше охарактеризовать как базовые модели. Слово «фундамент» означает как важность этих моделей в приложениях ИИ, так и тот факт, что они могут быть построены для различных потребностей.

Базовые модели знаменуют собой прорыв по сравнению с традиционной структурой исследований в области искусственного интеллекта. В течение долгого времени исследования в области искусственного интеллекта были разделены по модальностям данных. Обработка естественного языка (NLP) имеет дело только с текстом. Компьютерное зрение имеет дело только со зрением. Текстовые модели можно использовать для таких задач, как перевод и обнаружение спама. Модели, содержащие только изображения, могут использоваться для обнаружения объектов и классификации изображений. Модели Audioonly могут обрабатывать распознавание речи (преобразование речи в текст или STT) и синтез речи (преобразование текста в речь или TTS).

Модель, которая может работать с более чем одной модальностью данных, также называется мультимодальной моделью. Генеративная мультимодальная модель также называется большой мультимодальной моделью (LMM). Если языковая модель генерирует следующую лексему, обусловленную только текстовыми лексемами, то мультимодальная модель генерирует следующую лексему, обусловленную как текстовыми, так и графическими лексемами, или любыми другими модальностями, поддерживаемыми моделью.

Как и языковые модели, мультимодальные модели требуют данных для масштабирования. Самоконтроль работает и для мультимодальных моделей. Например, OpenAI использовала вариант самоконтроля, называемый наблюдением за естественным языком, для обучения своей модели языка и изображений CLIP (OpenAI, 2021). Вместо того, чтобы вручную генерировать метки для каждого изображения, они нашли пары (изображение, текст), которые одновременно встречались в Интернете. Они смогли сгенерировать набор данных из 400 миллионов пар (изображения, текст), что в 400 раз больше, чем у ImageNet, без затрат на ручную маркировку. Этот набор данных позволил CLIP стать первой моделью, которая могла обобщать задачи классификации изображений без необходимости дополнительного обучения.