Привет, Хабр! Конференции серии AAAI — крупнейшие события в области искусственного интеллекта, которые утягивают на себя внимание в начале каждого года. Местом проведения AAAI 2026 стал Сингапур, что позволило мне — директору лаборатории когнитивных систем искусственного интеллекта AIRI и Центра когнитивного моделирования в Институте искусственного интеллекта МФТИ Александру Панову — и многим моим коллегам принять в ней участие.
По ходу конференции я вёл заметки о докладах и событиях, которые были мне интересны, общался с коллегами, подмечал тренды, фотографировал. Посмотреть было на что. Например, AAAI 2026 стала первой в истории экспериментальной площадкой такого уровня по использованию LLM в качестве рецензентов.
Я решил собрать всё в один большой репортаж, чтобы те, кто по какой‑то причине не смог присутствовать, смогли хотя бы прочитать о том, что там происходило. Конечно, обозреть всё на такой огромной конференции невозможно. Но если вам, как и мне, нравятся нейросимвольная интеграция и RL, то вам будет интересно.
Поехали!
AAAI — это одна из ведущих конференций не по узкому направлению (как изначально были, например, NeurIPS или ICML), а всему набору топиков в ИИ — от символьных методов до робототехники и нейросетей. То, что юбилейная 40-я AAAI в этом году проходит в Сингапуре (хотя раньше всегда была в Канаде или США), с одной стороны, удивляет, с другой стороны, логично, так как разнообразие и количество азиатских исследователей, которые принимают участие в AAAI, давно к этому ведёт.
На фото ниже можете оценить пакета участника. Он, как под копирку, взят с других конференций — сумка с лого спонсоров и бутылочка для воды. Из полезного — бирка на чемодан.
Эта конференция одна из самых длинных: программа рассчитана на 8 дней и всё начинается с двух дней туториалов и так называемой программы «мостов» — воркшопов, на которых объединяются каких‑то две очень разных темы, например, ML и исследование операций. В первый день я побывал на двух таких «мостах» и вечером заглянул на туториал.
Начну с «моста» Advancing Large Language Models and Multi‑Agent Systems, так как мультиагентные LLM теперь в тренде. Отметил для себя парочку основных докладчиков:
Yi R. (May) Fung из Гонконга. Рассказывала про основные принципы мультимодальной координации между агентами.
Matthew E. Taylor, известный специалист по агентам и RL из Альберты. Упирал на то, что человек важен в цикле взаимодействия агентов и среды, как минимум чтобы формировать правильную функцию вознаграждения.
Намного лучше была раскрыта тема в «мосте» Logical and Symbolic Reasoning in Language Models. Рассуждающие модели сейчас это вершина развития LLM, поэтому то, как можно усилить эти возможности с помощью логических методов, интересует многих. Как раз один из вариантов моей любимой темы про нейросимвольную интеграцию.
Приглашенных докладчиков оказалось много, поэтому весь «мост» шёл два дня. В первый день я отметил для себя следующих коллег:
Hanmeng Liu, скромный исследователь из курортного Хайнаня. Напомнил всем про логические методы, символьное программирование и типы рассуждений.
Liangming Pan из Пекингского университета. Сделал замечательный доклад, основная мысль которого сводится к тому, что современные LLM ненадежны в своих рассуждениях.
Lan‑Zhe Guo из Нанкина. Основной посыл — символьные методы всё ещё нужны, чтобы повышать надежность LLM моделей в рассуждениях и использовать их как генераторы данных для LLM и как мутаторы, аугментаторы данных.
Haoxuan Li, молодое дарование из Китая. В 15 лет окончил университет, в прошлом году защитил диссертацию и опубликовал суммарно 15 (!) статей на NeurIPS + по 3–4 на ICML и ICLR. Продуктивность зашкаливает! Кстати, среди прочего тоже занимается рассуждающими моделям.
На «мостах» были также обычные постеры и устные доклады, но они, как правило, уровня воркшопов. Также на удивление полезным оказался туториал LLM‑based Multi‑Agent Systems: From Foundations to Frontiers, в котором было много и просто про обучение LLM агентов. Например, Charlie Masters из стартапа DeepFlow рассказывал про то, как правильно (до)обучать LLM агентов c RL.
Еще на туториале обзорно рассказывали про важность и последние реализации мультиагентных систем. Прошлись и по социальным симуляторам типа Simulacra, поговорили про помощника ученого от Gemini и про сеть эволюционирующих агентов AgentNet. Отдельно обсудили коммуникационные протоколы и вообще варианты организации общения агентов.
Второй день конференции продолжился по большей части различными туториалами.
Утро началось с обильного количества формул на туториале по ассоциативной памяти и сетям Хопфилда Modern Methods in Associative Memory. Его вел Dmitry Krotov, выпускник МГУ и соавтор самого Джона Хопфилда. Основная идея здесь была в плотной ассоциативной памяти и интеграции с классическими нейросетями, в первую очередь энергетическими трансформерами и диффузионными моделями. Вообще, туториал был очень качественный, с питоновским кодом, простыми примерами и даже домашним заданием!
Перед обедом заглянул на еще один «мост» — PLAN‑FM: Bridging Planning and Reasoning in Natural Language with Foundational Models. Вот, что из докладов и постеров мне там понравилось:
Очень известный робототехник David Hsu из Сингапурского университета рассказывал про планирование в открытом мире с RL и нейросетевыми CV моделями.
SAMKE: An Open‑Ended Autonomous Foundation‑Model‑Based Agent for Meta‑Knowledge Discovery — монструозная архитектура метаобучения.
Модель с рекуррентным предсказанием токенов в трансформере для построения модели мира — Next‑Latent Prediction Transformers Learn Compact World Models.
Pulkit Verma — про обучение LLM планированию действий. Рассуждают модели иногда неплохо, а вот планируют часто так себе. Поэтому нужны дообучение, логический CoT и верификация.
И завершил я день своей любимой темой на туториале Agentic AI for Scientific Discovery: Benchmarks, Frameworks, and Applications.
Уже не раз мне встречавшийся Chandan Reddy из университета Вирджинии снова провел отличный обзор методов автоматического построения аналитических формул по данным, что является хорошим примером выявления причинно‑следственных связей и их обобщения.
Zonglin Yang из стартапа MiroMind, который разрабатывает агентов для автоматизации химических экспериментов.
Ruochen Li из лаборатории Xinya Du (Техас) — про автоматизацию цикла ML исследований, где всё делать проще, чем в химии.
В общем направление автоматизации исследований идет семимильными шагами. Надо не отставать!
На третий день конференции начался основной трек, и его открыл приветственным словом главный председатель и заодно наш знакомый специалист по MAPF Sven Koenig. Затем программный комитета озвучил основные цифры: почти 31K отправок (очередной рекорд среди всех конференций по ИИ), 26K рецензентов, 2K SPC (Senior Program Committee), 500 area chairs.
Рецензирование проходило в второй фазе; на первой же по 2 рецензиям сразу без ребаттла отсекали много статей. В этом году был эксперимент со справочными LLM‑рецензиями (использовали GPT-5), показали статистику оценки их полезности. Большинство нашли, что такие рецензии всё же хоть как‑то полезны. При этом авторы отклоненных работ хвалили ИИ‑рецензии, а человеческие, наоборот, ругали (но об этом ниже). Такие времена.
Конференция посвящена всем топикам ИИ: от философии до робототехники. Но среди ключевых слов, конечно, преобладают языковые модели, обучение, диффузионные модели. Поразило количество авторов из Китая на «американской» конференции — теперь их в 6(!) раз больше, чем ближайших «преследователей» — США. Ну и неплохо представлен сам Сингапур на домашнем событии.
Общий уровень принятия статей — 17,5%. Наиболее конкурентные области — ML/CV, наименее — теория игр и экономические приложения.
Сразу же объявили лучшие статьи конференции, а также приз за классическую статью (как на ICLR) — награждают наиболее значимые работы 15-летней давности. В этом году это были
Understanding Natural Language Commands for Robotic Navigation and Mobile Manipulation ‑за 10 лет до современных VLA и LLM!
Learning Structured Embeddings of Knowledge Bases — статья от в то время еще не такого известного Yoshua Bengio.
Завершилось открытие награждениями за разные заслуги в AAAI сообществе.
А вот вам немного шоу с открытия
В первый основного трека было два приглашенных докладчика. Первым выступал Peter Stone из Техаса с звучной темой From How to learn to What to learn in Multiagent Systems and Robotics. Он регулярно отмечается на американских конференциях и разных воркшопах, уже лет 20 занимается роботами и RL. В этом году помимо древних слайдов с прошлых времен (как например беспилотный Texplore 2013 года), рассказывал и про свои последние работы. Causal Policy Gradient for Whole‑Body Mobile Manipulation — про обнаружение причинно‑следственных связей при обучении в задачах мобильной манипуляции. ROTATE: Regret‑driven Open‑ended Training for Ad Hoc Teamwork — про обучение в открытом мире объединению в команды. В целом каких‑то интересных обобщений он не предложил, но много хвалил своих коллег.
Вечером выступал Bowen Zhou из Цинхуа о том, как правильно двигаться к AGI. Путь через LLM и RL неправильный. Надо делать специализированный ИИ, при этом самая важная задача — как раз ИИ‑исследователь. Предложил развиваемую его командой архитектуру SAGE — Synergetic Architecture for Generalizable Experts. В ней три слоя — на первом правильная память MemoryDecoder и RL для рассуждений. На втором слое — объединение обобщающей модели и доменной экспертизы с мультиагентной координацией. Наконец, на третьем слое — модели мира и эволюционное самообучение.
Здесь упомянул свою работу SimpleVLA‑RL с правильным масштабированием RL для VLA. В общем, получилась архитектура всё обо всём. И вишенка на торте — Intern‑S1 — ИИ‑исследователь, пример агента общего назначения, который может специализироваться под конкретную задачу. Поверх еще работает агентный фреймворк — Intern Discovery. В общем, дал один из вариантов китайского видения пути к AGI. Со многим можно с ним согласиться, правда связей между компонентами в его большой архитектуре еще очень мало.
Устные доклады 22 январяУстные доклады на AAAI не сильно‑то отличались от постерных, но послушать иногда полезнее, чем смотреть постер. Побывал на нескольких сессиях по RL и робототехнике. Отмечу несколько интересных работ:
LatentVLA: Taming Latent Space for Generalizable and Long‑Horizon Bimanual Manipulation — отметился помимо своей VLA для биманипуляции еще и красивыми сгенерированными схемами.
DexGraspVLA: A Vision‑Language‑Action Framework Towards General Dexterous Grasping — VLA для точной манипуляции сложными объектами с пятипалым схватом.
Multi‑agent In‑context Coordination via Decentralized Memory Retrieval — координация агентов за счет внешней памяти.
Prototype Entropy Alignment: Reinforcing Structured Uncertainty in LLM Reasoning — один из вариантов RL для улучшения рассуждений.
Keep On Going: Learning Robust Humanoid Motion Skills via Selective Adversarial Training — интересная идея использовать «атакующие» стратегии для стабилизации стратегии.
Actor‑Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long‑Horizon Robotic Manipulation with Sparse Reward — комбинация нескольких идей с актором, который обучается только по успешным траекториям и самообучающаяся настройка вознаграждения.
Gentle Manipulation Policy Learning via Demonstrations from VLM Planned Atomic Skills — планирование с VLM и атомарными умениями.
Очень порадовала постерная и демо сессии. Наша команда в тот день представляла демо Wikontic: Constructing Wikidata‑Aligned, Ontology‑Aware Knowledge Graphs with Large Language Models. Строит граф знаний, использую онтологические знания с возможностью этот граф обновлять и расширять. На демо больше всего участникам понравился персонализированный граф. Вводишь имя и тебе выдается граф связей с другими сущностями после поиска в Google. Еще можно объединять и с графами предыдущих поисков. Теперь вот, я, оказывается, онтологически связан с Юргеном Шмидхубером.
Постеры были расположены очень удобно: огромное количество места, удобная кластеризация по темам, нет толкотни и шума. В этом смысле организаторы молодцы.
Утро четвёртого дня конференции началось с комиксов про вселенную и физику частиц! Daniel Whiteson, занимается экспериментом ATLAS в ЦЕРНе, а заодно популяризацией физики на подкастах и своих скетчах. Рассказывал, как ML помогает и зачем нужен теоретикам. Начал с того, что мы о 70% Вселенной не знаем совсем ничего (темная энергия), и это огромный вызов для каждого физика. Поэтому всякие адронные коллайдеры очень нужны, и важно правильно анализировать огромный поток данных по трекингу частиц. Здесь пригождаются и генеративные модели, и графовые нейросети. Добрую часть доклада посвятил шуткам и рекламе своих книг и блога. Запомнился пример, как 12-летняя девочка ему написала письмо, что хочет заниматься физикой, и вернулась через 5 лет уже в качестве потенциального сотрудника. Вот для чего нужны подкасты🙂.
В обед был ещё один нетехнический доклад от Yolanda Gil из Калифорнии. Она занимается организацией коммуникации учёных друг с другом, и её рассказ был посвящён сложностям такой коммуникации. Раньше наука была для одиночек, потом для маленьких групп, а сейчас — для коллабораций из тысяч участников. Чтобы работа шла эффективно, надо правильно друг с другом говорить. Она отметила, что многим с трудом даётся общение в офисе (у кулера с водой), сложно доверять новым методам, легче что‑то переделать, чем разбираться в существующем, сложно понять, с кем нужно вступить в коллаборацию, — и, как следствие, сложно достигать консенсуса с коллегами. Показывала несколько ИИ‑инструментов, которые помогают решать эти проблемы, вроде автоматического тестирования гипотез и шаблонов для поддержания процессов в общих исследованиях. К ИИ‑исследователю, кстати, относится скептически — «мало, кто хочет, чтобы его работу полностью делал ИИ».
Отдельно отмечу великолепную вечернюю лекцию от неизвестной мне ранее Katerina Fragkiadaki из CMU с общим названием Towards Embodied Agents that See, Simulate, and Reason. Основной посыл — нужно активно использовать генеративные модели для симуляции мира и создания систем управления в робототехнике. При этом использовать не такие модели, как генерацию 2D‑картинок, а как минимум работать в 3D, а еще лучше — с обуславливанием на реальную физику и геометрию. Обычная токенизация очень избыточна при работе с видео, поэтому надо добавлять 3D индуктивный байес в VLM и VLA. Отметила свои работы UniVLG и 3D DiffuserActor, в которых как раз реализуется правильное использование 3D информации. Для VLA они это реализовали в виде 3DFlowActor c биманипуляцией и побили pi0 в свое время.
Много говорила про создание симуляторов и сцен в них. Например, что для генерации ассетов и мешей есть целый набор инструментов: G2n3Sim, RoboGen, Hunyuan3D, CAST. У них тоже есть свой инструмент PartCrafter для генерации объектов в сценах с VAE декодером. Важной задачей является и генерация физического взаимодействия объектов и функций вознаграждения, чтобы обучать модели в симуляции. Тут им приходится сочетания MCTS и RL для генерации демонстраций (VLM guided MCTS).
Понравился их бенчмарк для VLA — RoboArena∞ с тестированием real2sim. Похвасталась невероятным по производительности симулятором Genesis, который на порядок быстрее IsaacGym. В целом это был один из лучших докладов на конференции.
Побывал на сессии с докладами старших членов ассоциации AAAI. Полезно послушать обзор или мнение не аспирантов, а уже опытных товарищей.
В докладе Implications for AI Research: Applying Lessons from the Expert Systems Boom and Bust to the Current Large‑Language Model Boom американец Ted Senator поделился воспоминаниями о пузыре экспертных систем. Текущий пузырь точно сдуется с тремя исходами: все запретят, появится AGI, но более реально — LLM станет просто очередным инструментов в наборе наших текущих инструментов.
Stefan Kramer из Германии рассказал про идею нового теста для ИИ — The Tatort Test of Intelligence. Оказывается, есть такое популярное шоу Tator, где нужно играть роль детектива. Модель смотрит 90-минутное видео и должно затем объяснить, что там происходит, какая подоплека, и как развивается интрига. Для текущих моделей пока явно не особо решаемая задача.
Parisa Kordjamshidi из Мичигана рассказывала про рассуждения с нейросимвольным ИИ, обучение с логическими ограничениями и методы композиционной генерализации. Отметила свою работу Neptune про нейропитон.
И в заключении был доклад от лаборатории уже упомянутого выше David Hsu про 10 вызовов перед VLA. Основные — это устойчивые рассуждения и эффективное использование обучаемых данных. Отметил две своих работы Emma‑X про заземленную цепочку рассуждений и Nora 1.5 на JEPA модели с DPO‑дообучением на синтетических данных.
Полезная сессия с более широким видением, чем доклады по очень инкрементальным результатам!
Устные доклады 23 январяНа устных докладах в тот день порадовала сессия по воплощенному ИИ — целый набор разны VLA моделей:
1) SemanticVLA: Semantic‑Aligned Sparsification and Enhancement for Efficient Robotic Manipulation — агрегация геометрических признаков в токены для DINOv2, иерархическое объединение признаков от SigLIP и DINOv2, семантический актор.
2) ReconVLA: Reconstructive Vision‑Language‑Action Model as Effective Robot Perceiver — если помните получила Best Paper Award с простой идеей генерировать специальные токены реконструкции, которые обуславливают диффузионный денойзер для реконструкции изображений.
3) DiTEA: Mixture‑of‑Experts for Vision‑Language‑Action Model in Robotic Manipulation — боролись с забыванием умений в мультизадачной постановке с добавлением смеси экспертов MoE и специального гейт‑механизма выбора экспертов.
4) VLA‑Adapter: An Effective Paradigm for Tiny‑Scale Vision‑Language‑Action Model про то, как нужно правильно организовывать связь между VLM частью и экспертом действий в VLA моделях.
5) Learning Human‑Object Interaction Priors for Robotic Dexterous Manipulation — дизайн вознаграждения для работы с пятипалыми схватами с предсказанием поз руки и объектов.
Наша команда тоже отработала на основном треке конференции🤓. Представили два доклада.
CAMAR: Continuous Actions Multi‑Agent Routing — супербыстрая и гибкая среда для задач мультиагентного поиска пути с непрерывными действиями, которая заполняет важный пробел в средах для более реалистичных робототехнических задач. Работаем с гетерогенными агентами, разными моделями вознаграждения, и централизованный, и децентрализованный сценарии. Протестировали много разных классических и RL алгоритмов. Отмасштабировались до 10К агентов. Ждем звездочки на гитхабе!😉
Коллеги из Петербурга презентовали в том числе на устной сессии MeshA*: Efficient Path Planning With Motion Primitives. Показали, как можно перевести в клеточную постановку примитивы движения и применять там стандартный поисковый алгоритм, заодно поборовшись со сложностью этого поиска.
5 день конференции стартовал с детального разбора уже упомянутого ранее первого в истории конференций по ИИ эксперимента по использованию LLM как дополнительного рецензента. Оказалось, что организаторы подошли к этому вопросу очень серьезно: как в эпоху огромного количества отправляемых статей и LLM‑агентов повысить качество рецензирования? Можно было вообще не давать авторам/рецензентам никаких дополнительных инструментов или полноценно включить LLM в цикл рецензирования. Решили сделать промежуточный вариант — открыть авторам LLM‑рецензию без итоговой оценки, а рецензентам дать LLM‑метаревью, тоже без итоговой оценки для помощи в суммаризации дискуссии.
Рецензии генерировались в результате довольно сложного процесса, при этом использовалась GPT-5 от OpenAI, но никакие данные на их стороне не хранились. Аккуратно работали с изображениями, таблицами и формулами, сам текст переводили в маркдаун. Предварительно анализировали консистентность статьи, добавляли инструмент поиска литературы и самокритика (был целый отдельный опросник для LLM‑проверки рецензии), выборочно SPC смотрели отдельные сгенерированные рецензии.
Сама генерация для всех статей заняла ровно сутки со стоимостью менее доллара за статью (37B токенов всего). Основные сложности, которые возникли: нехватка токенов на статью, ошибки в чтении формул и таблиц. Откровенных галлюцинаций или раскрытия идентификаторов авторов было не так много. Для мета‑рецензентов тоже была помощь в виде генерации списка моментов, в которых рецензенты сошлись по статье, и моментов, по которым у них были разногласия. Как говорится, дальше выводы делайте сами.
Важно, что организаторы также проверили детальное исследование удовлетворенности таким использованием LLM всех участников процесса. Вкратце — многие оказались довольны и их ожидания от результата были превзойдены. Данный эксперимент явно был признан успешным, но отдавать бразды правления LLM явно никто не хочет. Их будут продолжать использовать на конференциях, но скорее пока только как вспомогательный инструмент без возможности выносить какие‑то решения.
На пленарной лекции Ece Kamar из Microsoft говорила про переход от чатботов к полноценным LLM‑агентам для повышения качества пользовательского опыта. Важный акцент сделала на необходимости разработки малых моделей (7B), которые не теряют способности генерировать связный текст и способности рассуждений. В Microsoft есть тоже свой такой агент — Fara 7B который сильно обходит другие модели по соотношению качество‑стоимость вычислений. В будущем докладчица видит целое сообщество агентов, коммуницирующих друг с другом. Но на этом путь есть пробел коллаборации — агенты в нее плохо умеют. Об этом даже выпустили отдельную статью, где показали, что коллаборация важна при решении интересных задач, но еще недостаточно хорошо реализуется с LLM‑агентами.
Вечером с темой AI for Reskilling, Upskilling, and Workforce Development выступал Ashok Goel из Джорджии по случаю его награждения премией Энгельмора. Много говорил про проблемы образования в эпоху ИИ (даже не LLM), особенно для людей 30+. Есть, оказывается, отдельная организация — AI‑ALOE, которая занимается такими вопросами. В Университете Джорджии еще 10 лет назад проводили эксперимент с ИИ‑ассистентом студента, в чем‑то он даже был полезен. Докладчик упирал на важность использования разных инструментов для анализа трека студентов и визуализации того, что происходит с классом, чтобы социальная вовлеченность преподавателей была выше.
Из устных докладов отмечу несколько, с разных сессий:
1) Доклад Mingyu Ding из UNC на сессии New Faculty Highlights (для «восходящих звезд») был в основном про генерацию данных с LLM для обучения робастного схвата. Упомянул свою работу PhyGrasp — схват с использованием описания объекта с LLM, но с проверкой на физику.
2) Counterfactual Planning for Generalizable Agents“ Actions — планирование с явным выводом причинно‑следственный связей задачи и текущего состояния.
3) Perceiving the Knowledge Boundary: Uncertainty‑Guided Exploration and Imagination for World Models — делаем ансамбль предсказаний модели мира на основе Dreamer, считаем дисперсию и используем это как внутренний сигнал вознаграждения.
4) Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Models in Robotic Reinforcement Learning Benchmarks — интересный доклад, про то, что данные в RL‑задачах обладают разреженностью, и бороться с ней обычными моделями типа MLP или RNN не выходит, нужны новые архитектуры. Тут как раз могут пригодиться наши нейроморфные алгоритмы.
5) SAPO: Self‑Adaptive Process Optimization Makes Small Reasoners Stronger — новый вариант оптимизатора для дообучения LLM с детекцией ошибок в цепочках рассуждений.
6) Policy Zooming: Adaptive Discretization‑based Infinite‑Horizon Average‑Reward Reinforcement Learning — одна из немногих теоретических работ по RL с адаптивной дискретизацией.
7) CATAL: Causally Disentangled Task Representation Learning for Offline Meta‑Reinforcement Learning — реконструкций переходов в автономно мета‑RL.
Вот и наступил последний день основной программы, но не последний день конференции.
Утром David Poole вместе с Alan Mackworth, получивший образовательную награду на этой конференции, пересказывал студенческий уровень по содержанию одной из своих книг по агентному подходу к ИИ. Совсем базовые вещи про цикл взаимодействия, Байес и обучение с подкреплением. Кажется, что на конференции такого уровня можно было бы добавить какого анализа про то, что сейчас студентам нужно, а что уже нет, но такого не было.
Кстати, их книга Artificial Intelligence: foundations of computational agents безусловно очень полезная. Раньше сопровождалась кодом на Java, но теперь по понятным причинам все переехало на Python, а темы покрыты очень полезные — про планирование, неопределенность, рассуждения.
Обеденная лекция была проплаченной рекламой одного из спонсоров конференции — Squirrel AI. Основатель без особого опыта выступления перед такой аудиторией рассказывал мало связные вещи про проблему доступности образования, важности индивидуальных треков и так далее. Хвалился огромным набором данных от 50М пользователей, которые подключены к их образовательному ИИ‑ассистенту.
Есть здесь на конференции и такой трек, как представление уже опубликованных результатов из журналов. На одной из таких сессий рассказывали про статьи из известного журнал IEEE Transactions on Robotics (T‑RO). Занимательный рассказ был по статье CineMPC: A fully autonomous drone cinematography system incorporating zoom, focus, pose, and scene composition, в которой товарищи делали систему съёмку видео с коптера кинематографического качества с глубиной и оптическим зумом. Чисто инженерная задача правильного облёта и управления камерой, но очень актуально.
Была и сильно теоретическая работа PRIMP: PRobabilistically‑Informed Motion Primitives for Efficient Affordance Learning From Demonstration про вероятностные модели в группах Ли для построения траекторий движения манипулятора. Сессию завершили статьёй SICNav: Safe and Interactive Crowd Navigation Using Model Predictive Control and Bilevel Optimization — безопасной навигацией в толпе на MPC, но с двухуровневой оптимизацией и с диффузионным восстановлением окружающей сцены.
В очередной раз заглянул на сессию восходящих звезд New Faculty Highlights на соавтора Юргена Шмидхубера по имени Mengyue Yang из Бристоля, которая в 2024 году получила Rising Star in AI award. Рассказывала про каузальные модели мира в докладе Toward Causal Foundation World Models: From Representation to Decision‑Making с правильным посылом, что моделирование мила (корреляции) — это еще не его понимание (причинно‑следственные связи). Используют, конечно, Пирловское представление о каузальности (интервенции и контрфактуальность). Главное — удалить ложные корреляции и галлюцинации модели.
Правда, конкретный пример был только один — Meta Causal World как раз с Шмидхубером в соавторах, показанный на NeurIPS 2025. Строили каузальный граф с дискретизированным VAE и задачу исследования с внутренним вознаграждением интерпретировали как каузальную интервенцию. В будущем предлагает строить более генерализуемые каузальные модели мира.
Устные доклады 25 январяИз устных докладов в тот день я был на NLP и своем любимом RL. Еще раз отмечу, что их выбор не очень коррелирует с оценками рецензий. Выбор скорее случайный от самих же организаторов.
DRIFT: Difference‑Aware Reinforcement Through Iterative Fine‑Tuning for Language Model — про то, как встроить RL дообучением в цикл основного файнтюна и не тратить дополнительные данные.
DeepOR: A Deep Reasoning Foundation Model for Optimization Modeling — фундаментальная модель для исследований операций через построение графового представления траекторий рассуждений решения задач.
W2S‑AlignTree: Weak‑to‑Strong Inference‑Time Alignment for Large Language Models via Monte Carlo Tree Search — очередная реализация правильного MCTS для повышения качества рассуждений во время вывода.
Context‑Sensitive Abstractions for Reinforcement Learning with Parameterized Actions — очень простенькая работа, зато с громким названием об одновременной абстракции действий и состояний с элементарными экспериментами на игрушечных средах.
Do It for HER: First‑Order Logic Reward Specification in Reinforcement Learning — оригинальное название для нейросимвольной модели, где предлагают кодировать вознаграждения через LTL‑логику с проверкой выполнимости формул. Все это добавляют в известный алгоритм внутренней мотивации Hindsight Experience Replay.
Beyond Monotonicity: Revisiting Factorization Principles in Multi‑Agent Q‑Learning — очередная модификация QMIX с правильной факторизацией, которая не обязательно должна быть монотонной.
Не могу не отметить замечательный постер, представленный моими коллегами из AIRI в пику всяким рассуждающим моделям — NoReGeo: Non‑Reasoning Geometry Benchmark.
А ещё в этот день наш постер CAMAR: Continuous Actions Multi‑Agent Routing получил Best Poster Award 🥳
Мы добрались до 7-го дня конференции, когда начались воркшопы. В последнее время меня сильно интересует автоматизация научным исследований, поэтому в тот день я выбрал очень представительный Workshop on AI for Scientific Research.
Peter Clark из AllenAI рассказывал про проект Asta, включающий несколько инструментов автоматизации. Помимо отдельных вспомогательных инструментов типа суммаризатора литературы и анализатор данных DataVoyager показывал варианты реализации автономного исследователя. Если резюмировать его лекцию, пока LLM слабы в автономном поиске гипотез, поэтому ещё есть над чем работать.
Впечатляющий доклад сделал Yue Zhang из китайского университет Westlake — также про целый набор инструментов, собранных на сайте китайского ИИ‑исследователя. Его посыл такой: живем в эпоху огромного количества статей и плохой системы рецензирования, поэтому надо сделать TikTok для статей! Система рекомендаций — их начальный проект, правда уже не такой актуальный при наличии продвигаемого везде scholar‑inbox. Второй шаг — авторецензирование, и здесь у них также есть мультиагентная система с дебатами DeepReview. Следующий шаг — генерация обзорных статей. Думать там особо не надо — главное ничего не упустить и систематизировать. Их AutoSurvey, также в виде итеративной мультиагентной системы, был принят на NeurIPS 2024. Подозреваю, что для своих обзоров он тоже его использовал.
Наконец исследователь полного цикла — CycleResearcher. Собрали датасет из 14К статей из OpenReview, сделали SFT на этом наборе и потом еще провели RL с использованием рецензента на сгенерированных статьях. Кстати, поделился и вспомогательный инструментом AutoFigure для генерации схем к статьям. И вершина их трудов — DeepScientist, который работает с отдельной памятью в бесконечном итеративном цикле последовательного улучшения идей с байесовской оптимизацией. Привел пример, как он за 2 недели сгенерировал несколько последовательно улучшающихся решений и уверенно побил SOTA‑решение.
Также докладчик упоминал китайскую конференцию для ИИ‑исследователей — ICAIS 2025, которая проходила в ноябре 2025 года, где они предложили использовать свою платформу для генерации идей и статей. Более 60 участников и главный вывод — пока эффективность очень низкая, а результат, как я понял, их не очень порадовал. Но прогресс явно на лицо. Такой, что доступ к DeepScientist закрыт во избежание, видимо, вала некачественных, сгенерированных статей.
Во второй части воркшопа были доклады попроще и менее амбициозные.
Chen Zhao из Шанхайского филиала NYU рассказывал, как правильно нужно делать RAG для ИИ‑исследователей на примере их работы TextDiffusion и инструмента для Deep Research от OpenAI.
Молодой Chenglei Si из Стэнфорда рассказывал про то, что генерация идеи ничто, а вот её реализация — это всё, а также про предсказание годности идей. А ещё у них есть свежая интересная работа о поиске (эволюционном) с вознаграждением по выполнению кода идеи.
Завершила воркшоп уже знакомая нам Yi R. (May) Fung из HKU. Делала упор на мультимодальных агентов для поиска литературы и автоматизации исследований. Сделали систему WebWatcher с эффективным механизмом исследования поискового пространства. Поделилась полезным инструментом CiteGuard для устранения галлюцинаций в цитированиях, на чем сейчас в основном и ловят сгенерированные статьи.
По итогу нужно сказать, что область ИИ‑исследователей развивается семимильными шагами. Сгенерированная, особенно в итеративном цикле с человеком, статья, уже вполне солидного качества, и не зря на последних конференциях их отлавливают уже сотнями — порой уже после принятия. Без таких инструментов конкуренцию не выдержать.
Наша группа также отработала на двух воркшопах. На воркшопе Theory of Mind and AI рассказали про нашу модель со знаковой картиной мира и её использование для улучшения взаимодействия человека и робота. На нашем любимом Workshop on Multi‑Agent Path Finding прорекламировали сразу все свои свежие работы: LC‑MAPF, CoRL‑MPPI, CAMAR, MARL‑GPT, а Константин Яковлев выступил с пленарной лекцией и всем доступно объяснил, что будущее MAPF сейчас — это интеграция обучаемых и классических подходов. Ждем, что цитат наших работа должно существенно прибавиться 📈
После обеда с коллегами улучили время и побывали в гостях у известного робототехника David Hsu в его лаборатории в NUS. Посмотрели их Live Studio, роботов, разные демонстрации и обсудили их последние статьи. С самим Дэвидом почти час поговорили про VLA vs модульный подход, про важность использования явных графовых представлений, про сложность работы с разными платформами и про перспективы стартапов в области робототехники. Очень полезный разговор. Сам университет произвел приятное впечатление, очень колоритный и уютный.
В завершающий день воркшопов и всей конференции я переключился на темы биологической правдоподобности и мультиагентности. На воркшопе Multimodal NeuroAI была пара очень интересных докладов.
Andreas Tolias из Стэнфорда рассказывал про фундаментальные модели мозга, которые, с одной стороны, обучаются на большом количестве нейроданных (нейронная активность, генетика, поведение), а с другой — могут решать разные задачи: предсказывать/контролировать активность реальных нейронов, тестировать разные теории, диагностировать заболевания.
Был отличный доклад от Mitya Chklovskii (да, он с русскими корнями) из Flatiron Institute про новый тип активации для классических нейросетей, но на базе биологических принципов. Предлагают так называемый ReSU нелинейную функцию взамен ReLU, в которой строится так называемое CCA — выделение главных компонент с учетом накопления сигнала. Очень многообещающая работа — попробуем что‑то позаимствовать и для себя.
Сами также отметились на воркшопе с работой A Biologically Interpretable Cognitive Architecture for Online Structuring of Episodic Memories into Cognitive Maps, которая развивает нашу прошлую работу по эпизодической памяти на структурированных скрытых марковских моделях, но теперь мы делаем их обобщающими за счёт специального механизма кластеризации. Вот как раз можно его будет сделать на основе CCA, как советовал Митя из Нью‑Йорка🙂.
Побывал также на воркшопе LLM‑based Multi‑Agent Systems: Towards Responsible, Reliable, and Scalable Agentic Systems. Многое ждал от доклада патриарха мультиагентных систем Michael Wooldridge из Оксфорда. Однако было много про историю, с эпохи экспертных систем, и совсем мало каких‑то свежих мыслей.
Зато успешно представили нашу работу CoSMAC: A Benchmark for Evaluating Communication and Coordination in LLM‑Based Agents, где предлагаем тестировать LLM‑агентов в типичной MARL‑среде Starcraft с обменом сообщениями. Оказывается, что даже для рассуждающих моделей это сложно, и надо придумывать привальное RL дообучение. А в этом время коллеги, тоже не тратили зря время и побывали в гостях в лаборатории NUS тоже у известного нашего коллеги — мультиагентщика Guillaume Sartoretti.
На этом пришла пора прощаться с Сингапуром и конференцией. Юбилейная AAAI вышла очень большой и разнообразной, мы с коллегами вынесли оттуда для себя очень много ценного, познакомились с новыми исследователями, подержали руку на пульсе текущих трендов.
Если вам нравятся обзоры различных конференций по ИИ, приглашаю вас к себе в канал Grounding Knowledge.
Источник

