Сабир Алмасов – Профессии будущего (страница 4)
Название звучит сложно, но суть проста. RLHF – это метод обучения, при котором человек не создаёт данные, а оценивает поведение модели. Вы становитесь тем, кто говорит ИИ: «Так правильно», «Так неправильно». «Этот ответ корректный», «Этот вводит в заблуждение». «Этот ответ безопасен», «Этот опасен». Выстраивая эти оценки, вы постепенно формируете у модели «поведенческий каркас». Нейросеть обучается не только фактам, но и нормам общения. Она понимает, что недостоверная информация недопустима, что нецензурные слова нельзя выдавать даже по просьбе пользователя, что опасные инструкции нужно блокировать, что личные данные нельзя раскрывать ни при каких обстоятельствах. Именно вы задаёте эти правила.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.