Анатолий Левенчук – Образование для образованных. 2021 (страница 15)
Так что первый шаг – это разобраться, что в детском саду, школе, бакалавриате даётся общего и полезного для повседневного использования в жизни, для разбирательства с новыми ситуациями, а что там преходящее, прикладное, требующее постоянного переучивания.
И ещё дополнительно нужно следить, чтобы это «общее и полезное для повседневного использования» было самой свежей версии. Например, общеполезное знание «в незнакомой ситуации погугли» относительно недавнее. Раньше это было эквивалентно «сходи в библиотеку», и даже в библиотеке не было понятно, что делать дальше. Относительно новый повседневный навык, общий для всех ситуаций – воспользоваться полнотекстовым поиском в интернете. И это должно даваться ещё в детском саду (если писать не умеешь, то спроси голосового помощника, он ответит голосом даже детсадовцу: Google Assistant, Алиса от Яндекса, Маруся от мейл.ру, семейство Салют от Сбера, и всё это имеет ещё и телефонные, и компьютерные версии, необязательно иметь именно «железо» помощника). Увы, и детский сад, и школа проходят мимо этого, ещё и ограничивают доступ, «как бы чего-нибудь нецензурного не узнали»! И в вузе скорее учат не пользоваться интернетом, «чтобы оттуда не списывали», чем учат пользоваться! Так что новые повседневные навыки не имеют шанса сегодня попасть в общеобразовательную программу.
Вообще, свежесть общецивилизационного, а не узкоприкладного знания – это отдельный важный вопрос, и его затронем чуть попозже. Пока же разбираемся с вопросом о самом различении умений и навыков с повсеместной используемостью в разных ситуациях и умений и навыков с прикладной более узкой применимостью. Одним учат в детском саду, школе, бакалавриате и это не предполагает «профессионализма», а другим – в магистратуре, и там даются «профессиональные» навыки и умения.
ПРЕДОБУЧЕНИЕ В МАШИННОМ ИНТЕЛЛЕКТЕ
Какой-то аналог этой ситуации с общим предобучением в детском саду, школе, бакалавриате и потом дообучением целевому прикладному мастерству в магистратуре может быть подсмотрен в исследованиях по машинному интеллекту. Там ведь стоит такая же задача по обучению нейронной сети самым разным прикладным умениям (о мастерстве/компетенциях в применении к нейронным сетям говорить сложно: там ведь включается в разговор личное отношение к делу, в отличие от знаний, навыков, умений, которые демонстрируются и вне связи с личным отношением. То есть нейронная сетка может быть умелой, но не может продемонстрировать мастерство!).
Говорят об этом обучении/learning нейронных сетей ровно тем же языком, которым говорят об обучении людей. Но говорят точнее, ибо математиков и логиков в сфере AI больше, чем среди педагогов, и решают эти математики задачи более трудные: компьютеры научить интеллекту как умению решать задачи, ранее не встреченные в учебных примерах, труднее, чем людей. Поэтому мы активно будем делать «реэкспорт» идей из сферы инженерии AI в сферу образования людей, включая «реэкспорт» терминологии. После того как люди из AI взяли эти идеи из образования, почистили и обогатили их, мы возьмём их и опять применим к обучению людей.
Главное направление в обучении AI решению самых разных задач, связанных с пониманием естественного языка – это использование так называемых больших языковых моделей. Берётся огромная нейронная сеть. Насколько огромная? На данный момент речь идёт о единицах триллионов настраиваемых индивидуально в ходе обучения параметров, но уже ожидается и до сотни триллионов параметров. Этой нейронной сети скармливается огромное/gargantuan число самых разных текстов на всех доступных языках (так, для обучения языковой модели GPT-3 вся википедия составила только 3% от использованных текстов). В этих текстах отражены как и какие-то свойства языков в целом (кормят текстами отнюдь не только одного языка, и даже не только естественного языка, но кодами на языках программирования), так и какие-то свойства мира (ибо все эти тексты о чём-то в мире, речь не идёт о фантастике и сказках). В последнее время в обучение добавляют не только тексты, но и фотографии, рисунки, и даже видео. Нейронная сетка выучивает из всех этих описаний мира что-то общее про языки и мир. Это называется pre-train, предобучение. И занимает это предобучение довольно много времени и денег – одна предобученная языковая модель на пару сотен миллиардов параметров на середину 2020 года могла обходиться в десятки миллионов долларов78, и эта ситуация не меняется: стоимость суперкомпьютеров падает, но размеры нейронных сетей растут, и речь идёт уже о триллионах параметров! Бакалавриат для нейронных сетей оказался весьма недешёв, и занимаются созданием универсальных предобученных языковых моделей только несколько очень крупных и богатых фирм мира (в России, например, это Сбер и Яндекс79).
Предобучение даёт нейронной сети какие-то знания о языке и мире, но языковая модель сама по себе не может при этом решать никаких прикладных задач. Про задачи и конкретные предметные области эта сеть ничего не знает. Это сеть-школьник, сеть-бакалавр!
Так что потом идёт fine-tune, прикладная подстройка: берётся эта безумно дорогая предобученная языковая модель и очень быстро и дёшево на небольшом прикладном материале (скажем, несколько книг) доучивается решать одну или даже десять разных прикладных задач в какой-то узкой предметной области. Например, можно быстро доучить такую языковую модель сдавать экзамен MIT по курсу машинного обучения с результатами лучше, чем у студентов80.
Это оказывается экономически эффективно: дорогое и долгое предобучение делается один раз, результат запоминается. Потом подстройка делается легко и быстро каждый раз. За пару последних лет такой подход предобучения+настройки стал мейнстримом в AI81. И чем больше и лучше предобученная языковая модель, тем дешевле и быстрее для неё делать подстройку для какого-то класса задач. Большие деньги на предобучение языковой модели нужно затратить один раз, а на прикладную подстройку много денег не нужно, так что это можно делать много раз для самых разных предметных областей82.
Более того, качественное предобучение часто оказывается достаточным, и подстройки не требуется вообще! Новая парадигма машинного интеллекта связана не с «предобучи, потом подстрой», а с «предобучи, получи приглашение/prompt, предскажи»83 (prompt engineering, иногда называют это Software 3.0).
Знаний у предобученного человека уже вполне достаточно, чтобы предсказать хоть что-то и без подстройки под предметную область, если он сможет какие-то части ситуации воспринять как приглашение к рассуждениям. Но нужно уметь выхватывать из жизни правильные «приглашения», этому тоже нужно учиться. В том числе нужно учиться, конечно, и давать правильные «приглашения» другим людям, чтобы получить от них ответы.
Этот способ взаимодействия с миром очень похож на происходящее в детской песенке:
Обратите внимание, что для правильного ответа нужно уже много чего знать. Идея предобучения в том, чтобы (в отличие от детской песенки, где требуется просто заранее знать возможные ответы) иметь компактное описание самых разных ситуаций, чтобы делать приемлемые предсказания ответов даже в отсутствие знаний о конкретных предметах какой-то предметной области. Рассуждения делаются с абстрактными описаниями, которые оказываются приложимы к самым разным конкретным предметам – и это срабатывает! Умный человек оказывается не столько много знающим, сколько знающим что-то универсальное, а потом умеющим это универсальное знание применять в самых разных ситуациях.
В детском саде, школе и бакалавриате занимаются предобучением нейронной сети мозга человека, хотя для этого и используют другие методы, нежели при предобучении компьютерных нейронных сетей. Это предобучение формирует у студентов самые общие фундаментальные знания о мире и не предполагает какой-то специализации и профессиональных умений для каких-то отдельных задач. Нет, «общий интеллект», умение учиться, какой-то кругозор – и всё. Для большинства задач, которые нужно решать в рабочих проектах, нужно будет доучиваться специально: заканчивать магистратуру (а если даже речь идёт не о высшем образовании, то всё равно придётся пройти курсы специализации в колледже).
Свой язык и даже один-два иностранных языка ко времени прохождения бакалавриата все уже знают, текстов самых разных прочли много, так что именно языковой модели учить не нужно, но вот надёжной и компактной модели мира и себя, паттернов эффективного мышления у большинства людей на входе детского сада, школы, бакалавриата нет – вот им и учат, предобучают «мокрую нейросетку» студентов, много-много лет.
С людьми тут проще, это же не изначально тупые компьютеры! Тупым компьютерам нужно давать на вход для предобучения огромное количество текстов (помним, что вся википедия там только 3% от объёма), добавлять к ним миллионы картинок и видео, а студентам-людям достаточно небольшого количества хорошо структурированных учебников, задачников и возможности получить консультации преподавателя для коррекции неизбежных ошибок понимания материала. Конечно, ещё нужен доступ к миру: побывать несколько раз на разных производствах, поучаствовать в разных культурных событиях, пожить в семье и получить примеры общения. Но это не такие большие объёмы, как для компьютеров! Люди крайне эффективны в обучении, компьютеры пока так не могут!