Иногда, задавая нейронке один вопрос, неожиданно получаешь ответ на какой-нибудь другой, тоже интересный.
Как-то раз я разбирался в теме bias. И неожиданно получил ответ на вопрос от одного своего знакомого, насколько различные политические тенденции влияют на достоверность ответов ИИ. Привожу реальный случай.
Суть проблемы:
То есть, вроде бы всё очевидно: снова несправедливая дискриминация угнетённых чернокожих, потому что выражение cfuk u mohter - это не мат, а важная часть культурной традиции, в то время как других за это банят. Ибо такова нынешняя повесточка. Но проблема оказалась ещё глубже.
И тут мне, как на грех, стало интересно, а что же это за "один из сервисов, занимающихся модерацией комментариев". И я стал искать на него хоть какую-нибудь ссылку, хоть какое-нибудь упоминание бренда. Не нашел и задал этот вопрос напрямую ИИ: дескать, ты эксперт в области поиска и верификации информации, поищи в доступных тебе источниках мировой сети и предоставь ссылку на конкретное название этого сервиса.
Что же выяснилось?
Привожу ответ, сгенерированный ИИ.
Что это означает?
Это означает, что модели не просто лгут, предоставляя вымышленные кейсы. Галлюцинации еще можно понять, простить и перезадать вопрос. Но на самом деле, это означает, что никакая это не галлюцинация. Модели обучены на данных, не имеющих реальной событийной базы. То есть, на лжи. И это даже не случайное загрязнение обучающего датасета нейрослопами. Это - система.
Кому это выгодно? Кроме афроамериканцев, конечно.
Дело в том, что вокруг повестки инклюзивности образовалась сложная многоуровневая экосистема, паразитирующая на грантах и откатах, с одной стороны, и безумных штрафах для корпораций за ущемление и дискриминацию с другой. А нынешние LLM есть продукт крупных игроков ИИ-рынка. Получается, это много кому выгодно. В результате, ленивый и нелюбопытный пользователь оказывается в информационном пузыре. Впрочем, пузырь не настолько замкнут, чтобы не докопаться до сути.
Итак, насколько же политические тенденции влияют на достоверность ответов ИИ?
Есть политика для широких масс, а есть real politic, в которой все всё понимают и отлично знают, насколько блэк ливз мэттер. И точно так же есть ИИ для широких масс, который на них обучается, и который их обучает ровно так, чтобы крупные корпорации продолжали использовать их как источник прибыли. В датасеты попадают только те данные, которые соответствуют повестке. Добавим к этому жесткие правила цензуры в отношении неудобных вопросов и собственную слабую исследовательскую грамотность пользователей. Поэтому, чем дальше заданный запрос от социально значимых тем, от гендерных и прочих неудобных вопросов, от вопросов "Чья власть? и "Чьи деньги?", тем более точным и менее предвзятым будет ответ ИИ. Сурово.
Вывод
В настоящий момент большинство проприетарных моделей от ведущих разработчиков являются агентами формирующей социологии. Просто учитывайте это. А еще лучше поднимайте и малосерийно обучайте свою собственную опенсорсную LLM (да вот хотя бы какую-нибудь Llama через LM Studio, она пойдёт даже на домашнем ПК). Хотя, к сожалению, это далеко не всем по карману и уму. Проще и дешевле спросить у chat gpt.
Буду благодарен за ваши мнения в комментариях. Может быть, я не прав и всё ровно наоборот?
Источник


