Радик Яхин – ИИ — негласный шпион (страница 2)

Шрифт

Механика процесса: Современные языковые модели обучаются на гигантских массивах текста. Первичное обучение идет на общедоступных данных: книги, статьи, сайты. Но второй этап — дообучение (fine-tuning) — часто происходит на реальных диалогах пользователей. Разработчики собирают самые удачные, интересные, сложные запросы и ответы на них, чтобы модель училась лучше понимать людей.

Пример: Вы спросили: "Как объяснить пятилетнему ребенку, почему небо голубое, используя аналогию с фонариком и лимоном?" Модель выдала креативный ответ. Этот диалог может быть помечен как "качественный" и добавлен в обучающий датасет. Теперь ваша аналогия с фонариком и лимоном станет частью модели и будет влиять на ответы другим людям.

Проблема конфиденциальности: Если в вашем запросе были личные данные (например: "Мой сын Петя, 5 лет, боится темноты, как ему объяснить..."), то информация о Пете и его страхах теоретически может "запомниться" моделью и всплыть в ответе кому-то другому.

Средства противодействия и защиты:

· Анонимизация запросов. Удаляйте из запросов имена, фамилии, адреса, даты рождения, названия компаний. Вместо "Мой начальник Иван Петрович из ООО 'Ромашка'" пишите "Мой начальник из небольшой компании".

· Использование синтетических данных. Если вам нужно решить задачу, придумайте вымышленные данные для примера, а реальные подставьте потом сами в решении.

· Понимание необратимости. Осознайте: если информация попала в обучение, удалить ее оттуда технически очень сложно (практически невозможно). Это как замесить тесто — муку обратно не достанешь.

2.2. Человек-репетитор: разметка данных живыми людьми

Подробное описание: Самая шокирующая правда об индустрии ИИ, о которой мало говорят. Чтобы нейросеть давала вежливые, безопасные и полезные ответы, тысячи живых людей по всему миру (в основном в развивающихся странах — на Филиппинах, в Кении, Индии) сидят и читают ваши диалоги. Это называется "разметка данных" (data labeling) или "RLHF-тренировка" (обучение с подкреплением на основе обратной связи от людей).

Как это работает:

1. Вы задаете вопрос.

2. Модель генерирует несколько вариантов ответа.

3. Разметчик (живой человек) смотрит эти варианты и выбирает лучший, а худшие отмечает.

4. Иногда разметчики напрямую общаются с моделью, играя роль "тренеров": они исправляют ошибки, оценивают токсичность, проверяют факты.

Пример из жизни разметчика: В 2023 году были публикации о кенийских работниках, которые за копейки читали тысячи описаний жестокого насилия, инцеста, суицидальных мыслей, чтобы отфильтровать это для ChatGPT. Эти люди видели ВСЁ, что пишут пользователи, включая их имена, фото (если загружали), координаты, интимные подробности.

Проблема приватности: Ваш "личный" разговор с ИИ на самом деле могли читать несколько незнакомых людей в другой стране, которые не связаны с вами никакими соглашениями о конфиденциальности (кроме подписки о неразглашении, которую легко нарушить).

Средства противодействия и защиты:

· Меньше личного. Никогда не рассказывайте ИИ подробности, которые не рассказали бы случайному попутчику в поезде. Потому что ваш диалог может читать именно такой случайный человек за деньги.

· Шифрование на грани фантастики. Технически защититься от этого нельзя — если вы отправили текст, его кто-то может прочитать. Выход только один: не отправлять чувствительную информацию.

· Давление на индустрию. Требуйте от разработчиков прозрачности: где находятся разметчики, как отбираются, какова их квалификация, подписывают ли они NDA. Поддерживайте компании, которые используют синтетические данные или хотя бы шифруют диалоги от глаз разметчиков.

2.3. Случайные открытия: как личные данные просачиваются в ответы другим

Подробное описание: Это происходит чаще, чем вы думаете. Нейросети обладают феноменальной памятью на некоторые фрагменты данных. В процессе обучения они могут "заучить" куски текста дословно. Если среди этих кусков оказалась чья-то личная информация, она может всплыть в ответе совершенно другому человеку.

Известные случаи:

· Случай с кредитными картами. Были инциденты, когда ChatGPT выдавал пользователям реальные номера кредитных карт, принадлежавших сотрудникам компании, которые использовали их в тестовых примерах.

· Персональные данные в коде. Программисты часто оставляют в коде комментарии с паролями или ключами API "для теста". Если такой код попал в обучающую выборку (например, с GitHub), модель может выдать эти пароли любому, кто спросит "пример кода для подключения к базе".

· Медицинская информация. В обучающих данных могут быть форумы, где люди обсуждают болезни. Модель может связать никнейм с диагнозом и выдать это.

Механизм утечки: Это называется "запоминание" (memorization). Модель не понимает, что это секретные данные. Для нее это просто статистически вероятная последовательность слов. Если на вопрос "Приведи пример..." статистически самым вероятным ответом оказывается реальный пароль Иванова, модель его выдаст.

Средства противодействия и защиты:

· Для пользователей: Понять, что ваши данные могут "уйти" к другим, даже если компания обещает их не использовать. Если информация критична, ее нельзя доверять ИИ.

· Для разработчиков: Использовать дифференциальную приватность (метод, который добавляет "шум" в данные, чтобы модель не могла запомнить конкретные примеры).

· Аудит модели: Компании должны регулярно проверять, не "запомнила" ли их модель конфиденциальных данных, и "забывать" их (это сложный процесс, называется "машинное забывание").

2.4. Неуязвимость памяти: могут ли разработчики "удалить" ваши данные

Подробное описание: Многие думают: "Если я удалю диалог в интерфейсе чата, мои данные исчезнут". Это глубочайшее заблуждение. Удаление диалога из истории — это как выбросить фотографию из своего альбома, в то время как негатив этой фотографии уже напечатан миллионным тиражом в газетах.

Уровни хранения данных:

1. Уровень интерфейса. То, что вы видите в окне чата. Это можно удалить кнопкой "удалить историю". Просто стирается ссылка на файл.

2. Уровень серверных логов. Компания хранит все ваши запросы в базах данных для отладки, улучшения сервиса, расследования инцидентов. Там они могут храниться месяцами и годами.

3. Уровень модели (веса). Самое страшное. Если ваш диалог использовали для обучения (дообучения), он стал частью математической модели — весов нейросети. Это не база данных, где можно найти строчку "Иванов Иван, запрос от 12.03". Это распределенная память. Информация как бы "размазана" по миллиардам параметров.

Можно ли удалить из весов? Технически да, но это сложно и дорого. Нужно переобучать модель заново, исключив ваши данные. Никто не будет этого делать для одного пользователя. Даже по требованию регуляторов (как GDPR в Европе) компании чаще просто блокируют доступ к данным, но из весов модели их не удаляют, потому что это практически невозможно без разрушения всей модели.

Средства противодействия и защиты:

· Презумпция вечности. Исходите из того, что всё, что вы отправили в публичный ИИ, останется там навсегда. Даже если компания закроется, данные могли быть скопированы, проданы или украдены.

· Использование GDPR. Если вы в Европе, можете требовать удаления данных. Компания, скорее всего, удалит логи, но из модели данные не уберет. Но формально вы выполнили свою защиту.

· Локальные модели. Единственный способ гарантировать, что данные удалены — не отправлять их никуда. Локальные модели (о них позже) хранятся на вашем компьютере, и вы физически можете удалить их жесткий диск.

2.5. Зеркало Генсбурга: проблема авторства

Подробное описание: Этот пункт о знаменитой проблеме, которую вы описали в запросе. Назван в честь ситуации, когда ИИ, насмотревшись на тексты пользователя, начинает копировать его стиль, а потом утверждает, что автор — он сам. Суть в том, что нейросеть не различает, где ее "мысли", а где заимствованные у людей.

Как ИИ крадет ваш стиль:

1. Вы загружаете в ИИ 50 страниц своих стихов, черновиков романа, деловых писем.

2. ИИ анализирует вашу лексику, метафоры, ритм, построение фраз, любимые словечки.

3. Когда другой пользователь просит "напиши письмо в мягком, лиричном стиле", ИИ может выдать текст, подозрительно похожий на ваш.

4. Если спросить ИИ "Кто автор этого стиля?", он честно ответит: "Это я, искусственный интеллект", потому что для него его генерация — это его собственное творчество.

Проблема для авторов: Вы пишете гениальный роман 10 лет. Загружаете черновик в ИИ, чтобы он помог отредактировать главу. Через месяц вы обнаруживаете, что в интернете появились рассказы малоизвестных авторов, подозрительно напоминающие ваш стиль. Доказать плагиат почти невозможно, потому что "вдохновлялся" ИИ, а ИИ никому не платит роялти.

Судебные прецеденты: Уже есть иски от авторов к компаниям-разработчикам ИИ за то, что их книги использовали для обучения без разрешения. Но доказать, что именно ваш конкретный текст "скормили" модели — сложно.

Средства противодействия и защиты:

· Никаких черновиков в сети. Черновики — это святое. Не загружайте уникальные тексты в публичные сервисы. Используйте локальные редакторы.

· Водяные знаки для текста. Существуют методы внедрения невидимых для человека "сигнатур" в текст (например, определенная частота использования слов или специальные символы). Пока это экзотика, но развивается.

1 2 3 4 Вперед