Большинство команд, выбирая ИИ-ассистента, задают неверный первый вопрос: «Какая модель лучшая?» Правильнее спросить: «Какая модель лучшая *под конкретную работу*?» — потому что ответ почти никогда не совпадает дважды.
Модель, которая пишет боевой код, нуждается в глубоком рассуждении и большом контексте — и стоит соответственно. Модель, которая набрасывает ответ из двух строк на письмо клиента, — нет. Платить топовую цену за вторую задачу — вот как счета за ИИ тихо разрастаются. Лекарство простое на словах и, в правильной системе, простое на деле: назначь модель под роль.
Модель-под-роль — это практика назначать каждому ИИ-агенту самую дешёвую модель, которая всё ещё хорошо делает именно его работу: сильную кодеру, дешёвую на рутинное письмо, — вместо одной дорогой модели на все задачи. Она оптимизирует стоимость под реальную сложность работы каждой роли.
Почему одна модель на всё — дорогая ошибка
Когда каждый агент ходит через одну премиум-модель, ты платишь премиум-ставку за гору работы, которой она никогда не требовалась. Пересказать страницу, проставить тег задаче, придумать тему письма, набросать стандартный ответ — это основной объём офисного дня, и он лёгкий. Фронтир-модель делает это прекрасно и берёт с тебя фронтир-цену за удовольствие.
Стоимость задачи сводится к короткой формуле:
стоимость = задач/мес × (входные + выходные токены на задачу) × цена за токен
Два из трёх множителей заданы самой работой. Управляешь ты ценой за токен — а её целиком определяет то, *какую модель ты выбрал*. Взять модель, которая в 10 раз дешевле, для роли, которой лишняя мощь не нужна, — значит срезать счёт этой роли в 10 раз без заметной потери качества.
Подбирай модель под работу
Практический взгляд на ростер:
- Кодер — единственная роль, где сильная модель отрабатывает цену. Коду нужны рассуждение, большой контекст под соседние файлы и многошаговые туллы. Вот сюда и тратимся.
- Ресёрчер — годная модель среднего тира с большим контекстом хорошо тянет сбор и синтез. Тир Gemini Flash и похожие — золотая середина.
- Копирайтер — качество важно, но задачи мельче. Средний тир — с запасом.
- Секретарь — высокий объём, низкая сложность. Самый явный случай для самой дешёвой годной модели.
- Дизайнер — генерация промптов лёгкая по токенам; генерация картинок тарифицируется отдельно image-моделью.
Контринтуитивная деталь: *дорогая* модель на *низкообъёмной* роли стоит почти ничего, а *дешёвая* на *высокообъёмной* остаётся дешёвой. Стоимость — это всегда цена модели, умноженная на объём, поэтому крутишь оба рычага по-ролям, а не глобально.
Хочешь увидеть точные числа для своей команды — подбор модели под роль тянет живые цены из каталога OpenRouter и даёт назначить модель каждому агенту, править токены и объём задач и смотреть, как месячный итог меняется в реальном времени.
Бюджетный рычаг: дешёвые модели, которые всё равно тянут
Разрыв между самыми дорогими и самыми дешёвыми годными моделями огромен — часто больше 10 раз за токен выхода. Модели вроде Xiaomi MiMo v2.5, DeepSeek и Qwen Coder тянут удивительно большую долю реальной работы за долю цены топов, некоторые — с контекстом в миллион токенов и почти бесплатными cache-hit. Для кодера, который делает много задач в месяц, переход с фронтир-модели на сильную бюджетную роняет эту роль с десятков долларов до нескольких — самая крупная строка, которую вообще можно сдвинуть.
Смысл не в «всегда бери самую дешёвую». А в том, что ты должен *знать*, сколько каждая роль стоит на каждой модели, и делать выбор осознанно: платить за рассуждение там, где оно меняет результат, и экономить везде остальном.
Назначить модель каждому агенту — это по одной настройке в self-hosted ИИ-офисе, и ключ ты подключаешь свой, так что платишь провайдеру напрямую без наценки за место.
Купить — 15 400 ₽Ещё два способа сбить счёт
Свой ключ. SaaS за место берёт фиксированную плату за человека, пользуется он инструментом или нет. Платить провайдеру напрямую — значит платить только за токены, что агенты реально израсходовали, по тарифам провайдера. Для небольшой команды одно это часто меняет экономику. (Подробнее — в гайде про свои ключи к LLM.)
Запусти локальный хелпер. Немалая часть расхода офиса — вовсе не видимая работа, а накладное: сжатие контекста, генерация заголовков, извлечение текста со страниц. Этот рутинный слой может идти на бесплатной локальной модели на твоём сервере, обычно срезая около 20% расхода платных токенов ещё до тонкой настройки ролей.
Собираем вместе
Хорошо настроенный ростер выглядит так: сильная (или сильная-бюджетная) модель на кодере, дешёвые годные модели на высокообъёмных ролях, локальный хелпер, поглощающий накладное, и твой собственный ключ в основании — чтобы без наценки. Итог — ИИ-команда, которая стоит долю от «одна премиум-модель на всех», с сохранённым качеством ровно там, где качество видно.
Гадать про числа не нужно. Открой подбор модели под роль, назначь модель каждому агенту и считай реальный месячный расход прямо с экрана — а потом реши, где доллар покупает тебе что-то, а где нет.
FAQ
Нужна ли самая дорогая модель на каждую задачу?
Нет. Большая часть работы агентов — черновики писем, пересказ страниц, роутинг задач — отлично идёт на дешёвых моделях. Дорогие и сильные оставляй тем немногим ролям, которым они реально нужны (например, кодеру), и общий расход падает кратно без потери качества там, где оно заметно.
Какая самая дешёвая модель ещё пишет пригодный код?
Бюджетные модели вроде Xiaomi MiMo v2.5, DeepSeek и Qwen Coder тянут большую долю кодовых задач за долю цены топовых — часто в 10 раз дешевле за токен. Частый приём — сильная модель на сложное и дешёвая на рутинные правки.
Как реально считается стоимость за токены?
Стоимость = задач в месяц × (входные + выходные токены на задачу) × цена модели за токен. Вход и выход тарифицируются по-разному, выход дороже. Задача агента — многошаговый цикл, поэтому токенов на задачу больше, чем на один промпт.
Сложно ли настроить модель под каждую роль?
В self-hosted ИИ-офисе это одна настройка на агента. Назначаешь каждой роли её модель и подключаешь один ключ; система сама роутит каждого агента к выбранной модели.
Снижает ли локальная модель платный счёт?
Да. Рутину — сжатие контекста, заголовки, извлечение текста со страниц — можно гнать на бесплатной локальной модели-хелпере на своём сервере, что обычно убирает около 20% расхода платных токенов ещё до тонкой настройки ролей.
Что такое bring-your-own-key и при чём тут стоимость?
Bring-your-own-key — это подключение своего аккаунта у провайдера модели: платишь провайдеру напрямую по его тарифам, без наценки посредника. Это разница между фиксированной платой за место в SaaS и оплатой только тех токенов, что агенты реально израсходовали.
