Шанхайская лаборатория искусственного интеллекта (Shanghai AI Lab) представила Intern-S1.
Это мультимодальная модель для научных исследований, которая умеет анализировать текст (включая уравнения, химические формулы и аминокислотные последовательности) и изображения (в том числе фотографии микропрепаратов, схемы и диаграммы).
Модель объединяет несколько специализированных компонентов:
• Vision Transformer (ViT) на базе InternViT-6B для анализа изображений (таких как фотографии микропрепаратов и диаграммы);
• Динамический токенизатор для структурированных данных. Обрабатывает молекулярные формулы (SMILES), первичную структуру белка (FASTA) и другие научные нотации. Он сжимает информацию в среднем на 70% эффективнее традиционных методов.
• Энкодер временных рядов для работы с последовательными числовыми данными, например, данными от сенсоров в длительном научном эксперименте.
• Языковая модель на основе Qwen3 для обработки текстов и интеграции всех типов данных.
Intern-S1 использует архитектуру MoE. Модель содержит 241 млрд общих и 28 млрд активных параметров. Такой подход позволяет эффективно распределять вычислительные ресурсы, активируя только необходимые модули для конкретных задач, что снижает энергопотребление.
В процессе дообучения Intern-S1 использовался метод тонкой настройки supervised fine-tuning (SFT) для мультимодальных задач и обучение с подкреплением (reinforcement learning, RL).
Также применялся новый подход Mixture-of-Rewards (MoR), который комбинирует награды за точность, информативность и верифицируемость ответов, ускоряя обучение в несколько раз.
В общей сложности для обучения Intern-S1 использовалось около 5 триллионов токенов, из которых примерно половина — это высококачественные данные из научных статей в формате PDF.
Сейчас Intern-S1 лидирует среди открытых моделей в бенчмарках ChemBench (83,4%), MathVista (81,5%) и MatBench (75,0%). Также она превосходит конкурентов в тестах MicroVQA (63,9%) и MSEarth-MCQ (65,7%).
Разработчики утверждают, что Intern-S1 особенно эффективна в междисциплинарных задачах, требующих анализа данных из разных областей.
Intern-S1 доступна на платформах Hugging Face и GitHub.