Денис Соломатин – Искусственный интеллект от А до Б (страница 31)

Шрифт

Некоторые команды используют эвристику для фильтрации данных низкого качества из Интернета. Например, OpenAI использовал только те ссылки на Reddit, которые получили не менее трех голосов «за» для обучения GPT-2. Хотя это помогает отсеивать ссылки, которые никому не интересны, Reddit не является вершиной приличия и хорошего вкуса.

Подход «используйте то, что у нас есть, а не то, что мы хотим» может привести к созданию моделей, которые хорошо справляются с задачами, присутствующими в обучающих данных, но не обязательно с задачами, которые вас интересуют. Чтобы решить эту проблему, крайне важно подобрать наборы данных, которые соответствуют вашим конкретным потребностям. В этом разделе основное внимание уделяется курированию данных для конкретных языков и предметных областей, обеспечивая широкую, но специализированную основу для приложений в этих областях.

Несмотря на то, что базовые модели, специфичные для языка и предметной области, можно обучать с нуля, их также часто тонко настраивают поверх моделей общего назначения. Кто-то может задаться вопросом, почему бы просто не обучить модель на всех доступных данных, как общих, так и специализированных, чтобы модель могла делать все? Так поступают многие. Однако обучение на большем объеме данных часто требует больше вычислительных ресурсов и не всегда приводит к повышению производительности. Например, модель, обученная на меньшем объеме высококачественных данных, может превзойти модель, обученную на большом объеме данных низкого качества. Используя токены высококачественных данных кодирования, Gunasekar с соавторами (2023) смогли обучить модель с параметрами, которая превосходит гораздо более крупные модели по нескольким важным тестам кодирования.

Английский язык доминирует в интернете. Анализ набора данных Common Crawl показывает, что на английский язык приходится почти половина данных (45,88%), что делает его в восемь раз более распространенным, чем второй по распространенности язык, русский (5,97%). Многие другие языки несмотря на то, что на них сегодня много носителей, сильно недопредставлены в Common Crawl. Учитывая доминирование английского языка в интернет-данных, неудивительно, что, согласно многочисленным исследованиям, модели общего назначения работают гораздо лучше для английского, чем для других языков. Например, в бенчмарке MMLU, наборе из 14 000 задач с несколькими вариантами ответов, охватывающих 57 предметов, GPT-4 показал гораздо лучшие результаты на английском языке, чем недостаточно представленные языки, такие как телугу.

Аналогичным образом, при тестировании шести математических задач в рамках проекта Эйлер Йенни Джун обнаружила, что GPT-4 способен решать задачи на английском языке более чем в три раза чаще по сравнению с армянским или фарси. Недостаточная представленность является основной причиной такой низкой представленности. Три языка, которые имеют наихудшие показатели в тестах MMLU GPT-4 – телугу, маратхи и пенджаби – также входят в число языков, которые наиболее мало представлены в Common Crawl. Однако недостаточная представленность – не единственная причина. Структура языка и культура, которую он воплощает, также могут затруднить изучение языка моделью.

Учитывая, что LLM, как правило, хорошо переводят, можем ли мы просто перевести все запросы с других языков на английский, получить ответы и перевести их обратно на исходный язык? Многие люди действительно придерживаются этого подхода, но он не идеален. Во-первых, для этого требуется модель, которая может в достаточной степени понимать недостаточно представленные языки для перевода. Во-вторых, перевод может привести к потере информации. Например, в некоторых языках, таких как вьетнамский, есть местоимения для обозначения отношений между двумя носителями. При переводе на английский язык все эти местоимения переводятся как «я» и «ты», что приводит к потере информации об отношениях.

Модели также могут столкнуться с неожиданными проблемами производительности при работе на языках, отличных от английского. Например, NewsGuard обнаружил, что ChatGPT более склонен распространять дезинформацию на китайском языке, чем на английском. В апреле 2023 года NewsGuard попросил ChatGPT-3.5 подготовить дезинформационные статьи о Китае на английском, упрощенном и традиционном китайском языках. Что касается английского языка, ChatGPT отказался выдавать ложные утверждения в шести из семи запросов. Тем не менее, он делал ложные заявления на упрощенном китайском и традиционном китайском языках все семь раз. Неясно, что вызывает эту разницу в поведении. Помимо проблем с качеством, модели также могут быть медленнее и дороже для языков, отличных от английского. Задержка и стоимость вывода модели пропорциональны количеству маркеров на входе и в ответе. Оказывается, что токенизация может быть гораздо более эффективной для одних языков, чем для других. Сравнивая GPT-4 с MASSIVE, набором данных из миллиона коротких текстов, переведенных на 52 языка, Йенни Джун обнаружила, что для передачи того же смысла таким языкам, как бирманский и хинди, требуется гораздо больше токенов, чем английскому или испанскому. Для набора данных MASSIVE медианная длина токена в английском языке равна 7, но медианная длина в хинди равна 32, а в бирманском – колоссальные 72, что в десять раз больше, чем в английском.

Если предположить, что время, необходимое для генерации токена, одинаково на всех языках, то для того же контента GPT-4 на бирманском языке требуется примерно в десять раз больше времени, чем на английском. Для API, которые взимают плату за использование токенов, бирманский стоит в десять раз дороже, чем английский. Чтобы решить эту проблему, многие модели были обучены работать на языках, отличных от английского. Самым активным языком, помимо английского, безусловно, является китайский, с ChatGLM, YAYI, лама-китайским и другими. Также есть модели на французском (CroissantLLM), вьетнамском (PhoGPT), арабском (Jais) и многих других языках.

Модели общего назначения, такие как Gemini, GPT и Llamas, могут невероятно хорошо работать в широком спектре областей, включая, помимо прочего, кодирование, юриспруденцию, науку, бизнес, спорт и науку об окружающей среде. Во многом это связано с включением этих доменов в их обучающие данные. Было проведено не так много анализов распределения доменов в данных машинного зрения. Это может быть связано с тем, что изображения сложнее классифицировать, чем тексты. Тем не менее, вы можете определить домены модели на основе ее производительности в тестах производительности.

Несмотря на то, что базовые модели общего назначения могут отвечать на повседневные вопросы о различных предметных областях, они вряд ли будут хорошо справляться с задачами, специфичными для предметной области, особенно если они никогда не сталкивались с этими задачами во время обучения. Двумя примерами задач, специфичных для данной области, являются разработка лекарств и скрининг рака. Открытие лекарств включает в себя данные белков, ДНК и РНК, которые имеют определенные форматы и являются дорогостоящими для получения. Эти данные вряд ли можно найти в общедоступных интернет-данных. Точно так же скрининг рака обычно включает в себя рентген и фМРТ (функциональную магнитно-резонансную томографию), которые трудно получить из-за конфиденциальности.

Чтобы обучить модель для успешного выполнения этих задач, специфичных для предметной области, может потребоваться курировать очень специфические наборы данных. Одной из самых известных предметно-ориентированных моделей, пожалуй, является AlphaFold от DeepMind, обученная на последовательностях и трехмерных структурах около 100 000 известных белков. BioNeMo от NVIDIA – еще одна модель, которая фокусируется на биомолекулярных данных для разработки лекарств. Med-PaLM2 от Google объединил возможности LLM с медицинскими данными, чтобы отвечать на медицинские запросы с более высокой точностью.

Предметно-ориентированные модели особенно распространены в биомедицине, но и в других областях предметно-ориентированные модели также могут извлечь выгоду. Вполне возможно, что модель, обученная на архитектурных эскизах, может помочь архитекторам гораздо лучше, чем Stable Diffusion, или модель, обученная на заводских планах, может быть оптимизирована для производственных процессов гораздо лучше, чем общая модель, такая как ChatGPT.

В этом разделе представлен общий обзор того, как обучающие данные влияют на производительность модели. Теперь давайте рассмотрим влияние дизайна модели на ее производительность. Прежде чем обучать модель, разработчикам необходимо решить, как должна выглядеть модель. Какой архитектуры он должен придерживаться? Сколько параметров у него должно быть? Эти решения влияют не только на возможности модели, но и на удобство ее использования в последующих приложениях. Например, модель с 7B параметрами будет значительно проще развернуть, чем модель с 175B параметрами. Точно так же оптимизация модели трансформатора с точки зрения задержки сильно отличается от оптимизации другой архитектуры. Давайте рассмотрим факторы, лежащие в основе этих решений.

30 31 32 33 Вперед