Исследовательское подразделение Tether Data AI (QVAC) объявило о релизе QVAC Genesis II — второго этапа крупнейшего в мире публично доступного синтетического образовательного набора данных для предобучения искусственного интеллекта (ИИ).
Как указано в заявлении, благодаря добавлению 107 млрд новых токенов, общий объем набора данных QVAC Genesis вырос до 148 млрд токенов, охватывая 19 образовательных доменов. Это существенно расширяет масштаб, глубину и качество данных для обучения открытых ИИ-моделей.
QVAC Genesis II развивает наработки первого релиза Genesis I, в рамках которого был представлен тщательно валидированный синтетический набор данных, сосредоточенный на базовых STEM-дисциплинах.
Новая версия добавляет 10 новых направлений, среди которых химия, компьютерные науки, статистика, машинное обучение, астрономия, география, эконометрика и электротехника. Также в рамках обновления полностью перегенерировали университетский курс физики с использованием усовершенствованной методологии.
Вместе Genesis I и II формируют самый полный синтетический образовательный набор данных, когда-либо открыто опубликованный, говорится в сообщении Tether.
Ключевой инновацией релиза стал новый подход к генерации данных — Option-Level Reasoning. Он позволяет извлекать структурированное мышление не только из ошибочных ответов моделей, но и из правильных.
В Tether отметили, что вместо того, чтобы воспринимать корректный ответ как конечный результат, система анализирует каждый вариант ответа в тестовых заданиях, усиливая правильную логику и напрямую работая с типичными ложными представлениями. В результате формируется учебный материал, ориентированный на причинно-следственные связи, принятие решений и объяснимость, а не только на формальную правильность.
Новый метод дополняет оригинальный метод анализа ошибок, впервые примененный в Genesis I. Вместе они образуют двойной метод, который гарантирует, что каждый сгенерированный вопрос имеет реальную образовательную ценность.
Независимые оценки показали, что модели, обученные на данных Genesis II, демонстрируют значительно более высокую точность рассуждений и стабильнее формируют четкие и однозначные ответы по сравнению с предыдущими синтетическими наборами данных.
Tether подчеркнула, что этот запуск — это не просто масштабирование, а изменение подхода к созданию образовательных ИИ-данных. В отличие от распространенной в индустрии практики массового сбора текстов, QVAC делает акцент на обучении моделей мыслить, объяснять и понимать, а не только имитировать речь.
Генеральный директор Tether Паоло Ардоино отметил:
Как и предыдущий релиз, QVAC Genesis II распространяется в открытом доступе для поддержки исследователей, университетов и независимых разработчиков, работающих вне закрытых проприетарных систем. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial (CC-BY-NC 4.0), что подчеркивает ориентацию QVAC на открытые и сообществные исследования в области ИИ.
Релиз также вписывается в более широкую стратегию QVAC по развитию локального и децентрализованного интеллекта, где модели могут обучаться, дообучаться и развертываться без зависимости от централизованных облачных платформ. Усиливая открытую базу обучающих данных, Tether Data стремится снизить структурные барьеры для инноваций и сохранить доступ к качественному ИИ для глобального научного сообщества.
В последние месяцы Tether активно расширяет свою ИИ-экосистему. В частности, компания недавно представила кроссплатформенную систему QVAC-fabric-llm для локального дообучения больших языковых моделей. Решение интегрирует полноценное LoRA-обучение в llama.cpp и работает благодаря Vulkan, Metal и LoRA, позволяя дообучать модели Qwen3 и Gemma3 на любых устройствах — от смартфонов до серверов.
Кроме того, Tether запустила QVAC Health — приватный ИИ-хаб для персональных данных о здоровье. Платформа объединяет информацию с фитнес-часов, смарт-кошельков, биометрических сенсоров и медицинских приложений в зашифрованную, офлайн-совместимую панель, давая пользователям возможность получать полную картину своего состояния без передачи данных крупным технологическим корпорациям.


