Статья приурочена ко Всемирному дню кошек
Когда я поступала в AI Talent Hub от ИТМО, я ожидала, что прокачаю свои навыки в Machine Learning и Data Science, т.е. научусь обучать модели, работать с нейросетями и оптимизировать функции потерь. Я не ожидала, что научусь лучше понимать естественный интеллект, себя и своих пушистых друзей. На первый взгляд, мне казалось, что между котиками и ИИ нет ничего общего. Ведь модели мне казались сплошной стерильной математикой. У моделей нет эмоций, нет страха, они не помнят боли и жестокости улицы, они просто минимизируют loss function. Но чем глубже я погружалась в принципы обучения искусственных систем, тем яснее становилось, что фундаментальные механизмы обучения универсальны.
Животные не становятся ласковыми, они переобучаются. Это различие кажется семантическим, но на самом деле оно фундаментально, потому что речь идет не об изменении "характера", а об обновлении behavioral policy на основе нового распределения опыта. В machine learning policy - это функция, которая сопоставляет состояние среды с действием, максимизирующим ожидаемый cumulative reward, и эта функция формируется через последовательные итерации взаимодействия с миром.
Животные, попадающие в приют или ветклинику, находятся в состоянии, которое в машинном обучении называется distribution shift - статистические свойства среды резко изменились, но их policy продолжает опираться на старое распределение, где мир был опасным и непредсказуемым. Агрессия в этом контексте не является дефектом или "плохим характером" - это оптимальная policy, сформированная через reinforcement learning в среде, где defensive behavior максимизировал вероятность выживания. Их nervous system уже решила optimization problem и пришла к локальному optimum, в котором attack или avoidance минимизируют expected harm. В computational neuroscience это описывается через predictive processing framework - мозг постоянно строит предсказания о мире и обновляет их через prediction error. Когда prediction error слишком велик и среда становится непредсказуемой, система повышает defensive responses, потому что uncertainty itself является угрозой. Это тот же самый механизм, который мы наблюдаем в machine learning моделях, когда они сталкиваются с out of distribution данными и начинают вести себя менее уверенно и более хаотично.
Особенно ясно я увидела это, наблюдая за животными после наркоза. С точки зрения вычислительной модели, их internal state estimator был полностью десинхронизирован с реальностью - motor commands больше не приводили к ожидаемым результатам, proprioceptive feedback не совпадал с prediction, и система оказывалась в состоянии максимального prediction error. Животные, оставленные одни в этом состоянии, часто демонстрировали panic responses, потому что их модель мира временно перестала быть валидной. Но когда я взаимодействовала с ними - говорила, гладила, помогала удерживать равновесие - происходило постепенное recalibration их internal model. Через повторяющиеся безопасные interaction cycles их nervous system начинала обновлять priors о текущем состоянии среды, снижая uncertainty и возвращаясь к стабильному behavioral regime. Это полностью соответствует тому, как adaptive systems восстанавливают стабильность через iterative feedback integration.
В machine learning этот процесс формализован через reinforcement learning, где policy обновляется на основе reward prediction error - разницы между ожидаемым и полученным reward. Этот механизм был экспериментально подтвержден в нейробиологии в работах Wolfram Schultz, показавших, что дофаминовые нейроны кодируют именно reward prediction error signal. Когда результат оказывается лучше ожидаемого, происходит positive update - усиливаются нейронные связи, ответственные за текущее поведение. Когда хуже - происходит negative update. Но важнейший инсайт заключается в том, что reward - это не обязательно еда или физическое вознаграждение. Для социальных млекопитающих, включая кошек и собак, одним из самых сильных reward signals является безопасное, предсказуемое внимание другого существа. В терминах machine learning это dense reward signal, который позволяет системе быстрее и стабильнее обновлять policy, чем редкие и непредсказуемые reward events.
Процесс социализации животного по сути является fine tuning уже обученной модели. Базовая architecture nervous system остается неизменной, но веса - strength of synaptic connections - постепенно обновляются через repeated safe interactions. В нейробиологии это называется нейропластичность и реализуется через механизмы long term potentiation и long term depression - долговременное усиление и ослабление синаптических связей. Это тот же самый процесс gradient based optimization, только реализованный в биологическом субстрате. Каждый безопасный контакт, каждое предсказуемое взаимодействие, каждое отсутствие наказания там, где оно ожидалось, генерирует prediction error, который постепенно обновляет internal model мира. Система начинает переоценивать вероятность угрозы и обновлять свою policy в сторону более энергосберегающих и социально кооперативных стратегий.
Один из самых важных уроков, который я усвоила, заключается в том, что punishment не обучает в том смысле, в котором обучает reward. Punishment повышает uncertainty и noise в системе, делая environment менее предсказуемым. В reinforcement learning это приводит к менее стабильной сходимости policy или даже к divergence. Reward, напротив, снижает uncertainty и делает environment более learnable. Когда животное получает consistent positive feedback за спокойное поведение, его nervous system может confidently update свою policy, потому что reward landscape становится гладким и предсказуемым. Игнорирование, которое часто воспринимается людьми как нейтральное поведение, на самом деле является отрицательным сигналом, потому что для социальной системы отсутствие expected interaction генерирует negative prediction error.
Самое глубокое понимание, которое дала мне магистратура по ИИ, заключается в том, что доверие не возникает из ниоткуда - оно является результатом iterative optimization process. Животное не "решает" доверять. Его nervous system постепенно приходит к выводу, что новая policy, основанная на доверии, максимизирует expected reward и минимизирует expected harm. Это строго вычислительный процесс, реализованный через биологические механизмы. И это же понимание меняет то, как мы должны взаимодействовать с любыми адаптивными системами - биологическими или искусственными. Поведение системы всегда является рациональным ответом на distribution опыта, на котором она обучалась.
Это поднимает важный вопрос уже для нас, как инженеров и исследователей. Если behavior любой adaptive system определяется её training data, то какую responsibility мы несем за environments, которые создаем - для моделей, для животных, для людей? Где проходит граница между архитектурными ограничениями системы и её обучающим опытом? И если даже deeply defensive policy может быть переписана через последовательный безопасный reward signal, какие implications это имеет для того, как мы проектируем interactive AI systems будущего?
Источник


