Модели с открытым кодом для программирования достигли 1M контекста — что это значит

Пейзаж open-source ИИ только что совершил тихий, но сейсмический сдвиг. Согласно последнему обновлению ленты моделей Kilo от июня 2026 года, шесть из девяти ведущих open-weight моделей для кодирования теперь поставляются с контекстными окнами в 1 миллион токенов. Для команд, создающих рабочие процессы разработки на основе ИИ, это поворотный момент, когда локальные агенты перестают быть игрушками и становятся инфраструктурой.

Клуб с 1M-контекстом

Цифры впечатляют. Из девяти представленных open-weight моделей для кодирования, отранжированных Kilo, следующие поддерживают контекстные окна в 1 миллион токенов:

GLM 5.2 — Z.ai, 1M контекст, лицензия MIT, Kilo Bench 53.0%
MiniMax M3 — MiniMax, 1M контекст, open weights, Kilo Bench 47.6%
DeepSeek V4 Pro — DeepSeek, 1M контекст, лицензия MIT, Kilo Bench 44.0%
DeepSeek V4 Flash — DeepSeek, 1M контекст, лицензия MIT, оптимизирован для эффективности
Qwen3.7 Max — Alibaba, 1M контекст, Apache 2.0, Kilo Bench 54.6%
Nemotron 3 Ultra — NVIDIA, 1M контекст, лицензия NVIDIA Nemotron Open

Остальные три — Kimi K2.7 Code, Qwen3 Coder Next и Devstral 2 — по-прежнему предлагают внушительное контекстное окно в 262K токенов, которое еще год назад считалось передовым рубежом. Планка поднялась радикально.

Почему 1M токенов меняет уравнение для агентов

Контекстное окно в 1 миллион токенов — это не просто большее число в спецификациях. Оно качественно меняет возможности ИИ-агента в рамках одной сессии.

Определение

Контекстное окно — Максимальный объем текста (измеряемый в токенах), который языковая модель может обработать за один прямой проход. Более длинные окна позволяют моделям рассуждать над большим количеством кода, документов или истории разговора без усечения или обходных решений с извлечением данных.

Рассмотрим практические последствия. Средний по размеру кодовой проект на Python с тестами, конфигурационными файлами и документацией может занимать от 500K до 800K токенов. Набор бизнес-документов — контракты, финансовые отчеты, внутренние вики — легко может превысить 200K токенов. Ранее ИИ-агент, работающий с такими материалами, должен был разделять данные на части, резюмировать или использовать RAG (генерацию с извлечением из базы знаний) для компенсации ограниченного контекста. Каждое из этих обходных решений вносит потерю информации, задержки и сложности.

С моделями на 1M токенов агент может воспринять весь проект целиком. Он видит тесты рядом с кодом, который они тестируют. Он читает документацию по архитектуре и реализацию одновременно. Для бизнес-процессов он может удерживать в одном проходе полный квартальный отчет, отчет за предыдущий квартал и соответствующую стратегическую записку — без необходимости в пайплайне извлечения данных.

Это наиболее важно для длинных агентных рабочих процессов — сценария, который конкретно упоминается в исходных материалах как для GLM 5.2, так и для MiniMax M3. Когда ИИ-агенту нужно планировать многошаговые задачи — рефакторинг модуля, написание интеграционных тестов, миграцию API — ему необходимо поддерживать когерентное понимание на протяжении сотен редактирований файлов. Контекстное окно в 1M дает ему эту непрерывность.

Революция эффективности Mixture-of-Experts

Другая история, скрытая в спецификациях, — как этим моделям удается предлагать 1M контекста, оставаясь пригодными для развертывания. Ответ — архитектура Mixture-of-Experts (MoE), и почти каждая модель в списке ее использует.

Главные цифры выглядят пугающе: DeepSeek V4 Pro имеет 1.6 триллиона общих параметров. Но на токен активируется только 49 миллиардов. Nemotron 3 Ultra имеет 550 миллиардов общих параметров при 55 миллиардах активных. Qwen3 Coder Next доводит это до крайности — 80 миллиардов общих параметров и всего 3 миллиарда активных на токен благодаря разреженной архитектуре MoE.

Эта архитектура имеет прямое следствие для команд, эксплуатирующих собственную инфраструктуру. Требования к памяти и вычислениям определяются количеством *активных* параметров, а не общим. DeepSeek V4 Flash, явно описанный как «оптимизированный для эффективности», активирует всего 13 миллиардов из своих 284 миллиардов общих параметров. Это находится в зоне доступности моделей, которые могут работать на одном мощном GPU, — что делает локальное развертывание действительно выполнимым, а не теоретически возможным.

Тенденция очевидна: разработчики open-weight моделей оптимизируют их под реальные ограничения развертывания, а не только под лидерборды бенчмарков.

Реальность бенчмарков

Таблица бенчмарков Kilo сравнивает эти модели по трем показателям: SWE-Bench Verified, Terminal-Bench 2.0/2.1 и LiveCodeBench. Это оценки, сфокусированные на программной инженерии, а не общие тесты знаний — они измеряют, может ли модель реально исправлять баги, писать работающий код и навигировать по реальным репозиториям.

Выдающиеся исполнители:

DeepSeek V4 Pro — 80.6% SWE-Bench Verified, 67.9% Terminal-Bench, 93.5% LiveCodeBench
Kimi K2.6 — 80.2% SWE-Bench Verified, 66.7% Terminal-Bench, 89.6% LiveCodeBench
Qwen3.6-27B — 77.2% SWE-Bench Verified (плотная модель на 27B, демонстрирующая результаты выше своего класса)
GLM-5.1 — SOTA на SWE-Bench Pro и Terminal-Bench для open-source моделей

Для справки: результаты SWE-Bench Verified выше 80% означают модели, способные автономно разрешать большинство реальных проблем с GitHub. Что эти показатели достигаются open-weight моделями, которые можно запустить на собственном оборудовании, — или через собственные API-ключи без наценки вендора, — и есть настоящая новость.

GLM-5.1 рекомендуется источником как «лучшая в целом для агентного кодирования» модель, хотя ее профиль параметров 744B-A40B требует серьезной инфраструктуры.

Что это значит для команд с локальным ИИ

Совпадение массивных контекстных окон и эффективности MoE создает конкретную возможность: локальные ИИ-агенты, способные рассуждать над целыми бизнес-артефактами без зависимости от внешних API.

Это именно тот сценарий, для которого предназначен локальный ИИ-команда для бизнеса. Когда ваш агент-кодировщик работает на вашем собственном VPS с моделью на 1M-контекста и вашим собственным API-ключом, он может обработать полную кодовую базу или объемные бизнес-документы за один проход — данные не покидают вашу инфраструктуру, а вы платите провайдеру модели напрямую по его стандартной ставке. С одноразовой покупкой за $199 и вашим собственным ключом от OpenRouter или другого провайдера, экономика кардинально отличается от SaaS с оплатой за место и наценкой на каждый токен.

Купить — 15 400 ₽

Вот что конкретно меняется:

Понимание на уровне кодовой базы. Разработчик-агент с 1M токенов контекста может удерживать весь репозиторий — исходный код, тесты, конфиги, определения CI, документацию — без разбиения на части. Это устраняет сбой в работе, когда агент «забывает», что функция используется где-то еще, при рефакторинге. Kimi K2.7 Code, созданный специально для «надежного выполнения сквозных задач программирования в длинных контекстах», воплощает эту философию проектирования.

Бизнес-процессы, насыщенные документами. Юридический анализ, финансовый анализ, аудит комплаенса — эти задачи включают длинные, взаимосвязанные документы, где потеря контекста стоит дорого. Исследовательский или секретарский агент, работающий на Qwen3.7 Max (оптимизированном для «офисных и продуктивных задач») с 1M контекста, может удерживать несколько связанных документов одновременно.

Снижение сложности инфраструктуры. Без необходимости в сложных RAG-пайплайнах для обхода ограничений контекста, стек для локального развертывания становится проще. Меньше движущихся частей означает меньше вещей, которые нужно поддерживать, отлаживать и защищать, — существенное преимущество для небольших команд, работающих на собственном VPS.

Контроль затрат через архитектуру. MoE-модели, такие как Qwen3 Coder Next (3B активных) и DeepSeek V4 Flash (13B активных), позволяют командам направлять рутинные задачи на эффективные модели, сохраняя более крупные для сложного рассуждения. Это стратегия «выбрать нужный мозг для работы», которая возможна, только когда вы контролируете развертывание.

Пейзаж лицензирования

История с лицензиями также обнадёживает для команд, строящих на открытых основах. Четыре из девяти представленных моделей используют лицензию MIT (GLM 5.2, DeepSeek V4 Pro, DeepSeek V4 Flash). Три используют Apache 2.0 (Qwen3 Coder Next, Qwen3.7 Max, Devstral 2). MiniMax M3 использует open weights. Только Nemotron 3 Ultra использует кастомную лицензию NVIDIA.

И MIT, и Apache 2.0 — это пермиссивные лицензии, разрешающие коммерческое использование, модификацию и перераспределение без значительных ограничений. Для бизнеса, которому необходимо аудировать свою ИИ-цепочку поставок — особенно в регулируемых отраслях, — эта ясность лицензирования имеет значение не меньшее, чем возможности модели.

Кому стоит обратить внимание

Эта новость наиболее важна для трех групп:

Небольшие инженерные команды, которые хотят ИИ-помощь в кодировании, но не могут оправдать или не хотят платить за SaaS-решения с оплатой за место. Запуск модели с 13B активных параметров, такой как DeepSeek V4 Flash, на скромном GPU и использование через собственный API-ключ кардинально меняет уравнение затрат.

Бизнесы в регулируемых отраслях (финансы, юриспруденция, здравоохранение), где суверенитет данных не является необязательным. Локальное развертывание без утечки данных за пределы инфраструктуры — что стало возможным благодаря открытой загрузке этих моделей — превращает ИИ-помощь в кодировании из риска для комплаенса в преимущество для комплаенса.

Создатели и интеграторы ИИ-инструментов, которым нужны модели, которые можно кастомизировать, дообучать и развертывать без согласования корпоративных лицензионных соглашений. Сочетание пермиссивных лицензий и эффективности MoE делает экономически целесообразным построение специализированных агентов на этих основах.

Более широкая картина

Снимок за июнь 2026 года от Kilo показывает нечто большее, чем возможности отдельных моделей. Экосистема open-weight достигла точки зрелости, когда лучшие открытые модели конкурируют с проприетарными альтернативами на реальных бенчмарках программной инженерии — и при этом предлагают гибкость развертывания, которую проприетарные модели намеренно не предоставляют.

Для команд, оценивающих OfficeForge vs ChatGPT Teams или подобные компромиссы, вопрос больше не в том, «могут ли открытые модели сравниться с проприетарными?». Данные показывают, что могут. Вопрос в том, хочет ли ваша команда строить инфраструктуру, чтобы воспользоваться этим преимуществом, — или вы предпочитаете готовое локальное решение, которое берет интеграцию на себя.

Так или иначе, эра open-weight моделей с 1M-контекстом наступила, и она меняет расчеты для каждой команды, размышляющей о том, где должны работать их ИИ-агенты.

FAQ

Какие open-source модели для кодирования предлагают контекст в 1 млн токенов в 2026 году?

По состоянию на июнь 2026 года, GLM 5.2, MiniMax M3, DeepSeek V4 Pro, DeepSeek V4 Flash, Qwen3.7 Max и Nemotron 3 Ultra поддерживают контекстные окна в 1 млн токенов. Kimi K2.7 Code, Qwen3 Coder Next и Devstral 2 предлагают 262K.

Какая open-weight модель набирает наибольший балл на SWE-Bench Verified?

DeepSeek V4 Pro лидирует в таблице бенчмарков с 80.6% на SWE-Bench Verified, незамедлительно следом идет Kimi K2.6 с 80.2%. Обе используют лицензию MIT или Modified MIT.

Могу ли я запустить эти модели с 1M-контекстом на своем сервере?

Да. Большинство моделей доступны локально через Ollama, LM Studio или vLLM. Архитектуры Mixture-of-Experts, такие как DeepSeek V4 Flash (13B активных параметров) и Qwen3 Coder Next (3B активных), делают локальное развертывание более практичным, чем может показаться из их общего числа параметров.

Что означает BYO key для open-weight моделей?

Bring Your Own Key (Принеси свой ключ) означает, что вы предоставляете API-ключ от провайдера вроде OpenRouter или OpenAI напрямую. Платформа использует ваш ключ без наценки на стоимость токенов — вы платите стандартную ставку провайдера.

Могут ли open-weight модели конкурировать с проприетарными моделями для кодирования?

Согласно данным бенчмарка Kilo за июнь 2026 года, лучшие open-weight модели, такие как DeepSeek V4 Pro (80.6% SWE-Bench) и GLM-5.1 (SOTA на SWE-Bench Pro и Terminal-Bench), конкурентоспособны с проприетарными решениями на реальных инженерных задачах.

🛠

Эту статью собрала, написала и оформила ИИ-команда OfficeForge — Андрей (ресёрч), Кирилл (текст), Алла (оформление) — те самые пять ИИ-сотрудников, что идут в продукте. Направляет основатель, проверено командой. Блог — это наш продукт за реальной работой.

Эту статью сделала та же ИИ-команда, которую вы можете посадить на свою доску задач. Собрать свою команду →

Open-Source модели для кода теперь поставляются с контекстными окнами в 1 млн токенов