реклама
Бургер менюБургер меню

Денис Соломатин – Искусственный интеллект от А до Б (страница 35)

18

Тем не менее, небольшие изменения производительности, потери при моделировании языка или точности ImageNet могут привести к значительным различиям в качестве последующих приложений. Если вы переключитесь с модели с потерей перекрестной энтропии 3,4 на модель с потерей 2,8, вы заметите разницу.

Производительность модели сильно зависит от значений ее гиперпараметров. При работе с небольшими моделями обычной практикой является многократное обучение модели с разными наборами гиперпараметров и выбор наиболее эффективного. Однако это редко возможно для больших моделей, так как их однократное обучение достаточно истощает ресурсы. Параметр может быть изучен моделью в процессе обучения. Гиперпараметр задается пользователями для настройки модели и управления ее обучением. Гиперпараметры для настройки модели включают количество слоев, размерность модели и размер словаря. Гиперпараметры для управления обучением модели включают размер пакета, количество эпох, скорость обучения, начальную дисперсию для каждого слоя и многое другое.

Это означает, что для многих моделей у вас может быть только один шанс получить правильный набор гиперпараметров. В результате, масштабная экстраполяция (также называемая переносом гиперпараметров) превратилась в исследовательскую подобласть, которая пытается предсказать для больших моделей, какие гиперпараметры обеспечат наилучшую производительность. Текущий подход заключается в изучении влияния гиперпараметров на модели различных размеров, обычно намного меньших, чем размер целевой модели, а затем экстраполируется, как эти гиперпараметры будут работать на размер целевой модели. В документе Microsoft и OpenAI за 2022 год показано, что удалось перенести гиперпараметры из модели 40M в модель 6.7B.

Масштабная экстраполяция пока остается нишевой темой, так как мало кто имеет опыт и ресурсы для изучения обучения больших моделей. Это также сложно сделать из-за огромного количества гиперпараметров и того, как они взаимодействуют друг с другом. Если у вас есть десять гиперпараметров, вам придется изучить 1024 комбинации гиперпараметров. Вам нужно было бы изучить каждый гиперпараметр по отдельности, затем два из них вместе, три вместе и так далее. Кроме того, эмерджентные способности делают экстраполяцию менее точной. Эмерджентные способности относятся к тем, которые присутствуют только в масштабе и могут быть ненаблюдаемы на небольших моделях, обученных на меньших наборах данных.

До сих пор каждый порядок увеличения размера модели приводил к увеличению производительности модели. GPT-2 имеет на порядок больше параметров, чем GPT-1 (1,5 млрд против 117 млн). У GPT-3 на два порядка больше, чем у GPT-2 (175 млрд против 1,5 млрд). Это означает увеличение размеров моделей на три порядка в период с 2018 по 2021 год. На сколько еще порядков могут вырасти размеры моделей? Будет ли момент, когда производительность модели выйдет на плато независимо от ее размера? Хотя ответить на эти вопросы сложно, уже есть два видимых узких места для масштабирования: обучающие данные и электричество.

Базовые модели используют так много данных, что есть реальная опасность, что в ближайшие несколько лет у нас закончатся интернет-данные. Скорость роста размера обучающего набора данных намного выше, чем скорость генерации новых данных (Villalobos с соавторами, 2022). Если вы когда-либо размещали что-либо в Интернете, вы должны предположить, что это уже включено или будет включено в обучающие данные для некоторых языковых моделей, независимо от вашего согласия или нет. Это похоже на то, как если вы публикуете что-то в Интернете, вы должны ожидать, что это будет проиндексировано Google.

Некоторые люди используют этот факт для внедрения нужных им данных в обучающие данные будущих моделей. Они делают это, просто публикуя нужный текст в Интернете, надеясь, что это повлияет на будущие модели, чтобы они генерировали желаемые ответы. Злоумышленники также могут использовать этот подход для атак с быстрым внедрением. Открытым исследовательским вопросом является вопрос о том, как заставить модель забыть конкретную информацию, которую она узнала во время обучения. Представьте, что вы опубликовали запись в блоге, которую в конечном итоге удалили. Если эта запись блога была включена в обучающие данные модели, модель все равно может воспроизвести содержимое записи. В результате люди могут получить доступ к удаленному контенту без вашего согласия.

Кроме того, Интернет быстро заполняется данными, генерируемыми моделями искусственного интеллекта. Если компании продолжат использовать интернет-данные для обучения будущих моделей, эти новые модели будут частично обучены на данных, сгенерированных искусственным интеллектом. В декабре 2023 года Grok, модель, обученная X, была поймана на отказе в запросе, заявив, что это противоречит политике OpenAI в отношении вариантов использования. Это заставило некоторых людей предположить, что Grok обучался с использованием выходных данных ChatGPT. Игорь Бабушкин, основной разработчик Grok, ответил, что это связано с тем, что Grok был обучен на веб-данных, а «веб полон выходных данных ChatGPT».

Некоторые исследователи опасаются, что рекурсивное обучение новых моделей ИИ на данных, созданных ИИ, приводит к тому, что новые модели постепенно забывают исходные шаблоны данных, что со временем ухудшает их производительность. Как только общедоступные данные исчерпаны, наиболее реальными путями для большего количества обучающих данных, созданных человеком, являются собственные данные. Уникальные проприетарные данные – книги, защищенные авторским правом, переводы, контракты, медицинские записи, последовательности генома и так далее – станут конкурентным преимуществом в гонке ИИ. Именно по этой причине OpenAI заключила сделки с издателями и СМИ, включая Axel Springer и Associated Press.

Неудивительно, что в свете ChatGPT многие компании, включая Reddit и Stack Overflow, изменили условия использования данных, чтобы другие компании не могли собирать их данные для своих моделей. В период с 2023 по 2024 год быстрое нарастание ограничений данных из веб-источников привело к тому, что более 28% наиболее важных источников в популярном общедоступном наборе данных C4 были полностью ограничены в использовании. Из-за изменений в Условиях предоставления услуг и ограничений на сканирование теперь ограничены 45% C4.

Другим узким местом, менее очевидным, но более насущным, является электричество. Для работы машин требуется электричество. Центры обработки данных, по разным оценкам, потребляют 1-2% мировой электроэнергии. К 2030 году это число может достигнуть от 4% до 20%. До тех пор, пока мы не найдем способ производить больше энергии, центры обработки данных могут вырасти не более чем в 50 раз, что составляет менее двух порядков. Это вызывает опасения по поводу дефицита электроэнергии в ближайшем будущем, что приведет к росту стоимости электроэнергии.

Теперь, когда мы рассмотрели два ключевых решения по моделированию – архитектуру и масштаб – давайте перейдем к следующему важному набору решений по проектированию: как согласовать модели с предпочтениями человека.

Пост-обучение начинается с предварительно обученной модели. Допустим, вы предварительно обучили модель фундамента с помощью самоконтроля. Из-за того, как сегодня работает предварительное обучение, предварительно обученная модель обычно имеет две проблемы. Во-первых, самоконтроль оптимизирует модель для завершения текста, а не для разговоров. Во-вторых, если модель предварительно обучена на данных, собранных без разбора из Интернета, ее результаты могут быть расистскими, сексистскими, грубыми или просто неправильными. Цель посттренинга состоит в том, чтобы решить обе эти проблемы. Пост-обучение каждой модели отличается. Однако, в целом, пост-тренинг состоит из двух этапов:

1. Контролируемая тонкая настройка (SFT): тонкая настройка предварительно обученной модели на основе высококачественных данных инструкций, чтобы оптимизировать модели для разговоров, а не для завершения.

2. Тонкая настройка предпочтений: дальнейшая тонкая настройка модели для вывода ответов, соответствующих предпочтениям человека. Тонкая настройка предпочтений обычно выполняется с помощью обучения с подкреплением (RL). Методы тонкой настройки предпочтений включают обучение с подкреплением на основе обратной связи с человеком (RLHF) (используется в GPT-3.5 и Llama 2), DPO (оптимизация прямых предпочтений) (используется Llama 3) и обучение с подкреплением на основе обратной связи AI (RLAIF) (потенциально используется Клодом).

Позвольте мне выделить разницу между претренингом и посттренингом еще одним способом. Для базовых моделей на основе языка предварительное обучение оптимизирует качество на уровне маркеров, когда модель обучается точно прогнозировать следующий маркер. Однако пользователей не волнует качество на уровне токенов – их волнует качество всего ответа. Пост-обучение, как правило, оптимизирует модель для генерации ответов, предпочитаемых пользователями. Некоторые люди сравнивают предварительную подготовку с чтением для получения знаний, в то время как посттренировка похожа на обучение тому, как использовать эти знания.