Как подобрать ИИ-модель под каждую роль (и сколько это стоит)

Большинство команд, выбирая ИИ-ассистента, задают неверный первый вопрос: «Какая модель лучшая?» Правильнее спросить: «Какая модель лучшая *под конкретную работу*?» — потому что ответ почти никогда не совпадает дважды.

Модель, которая пишет боевой код, нуждается в глубоком рассуждении и большом контексте — и стоит соответственно. Модель, которая набрасывает ответ из двух строк на письмо клиента, — нет. Платить топовую цену за вторую задачу — вот как счета за ИИ тихо разрастаются. Лекарство простое на словах и, в правильной системе, простое на деле: назначь модель под роль.

Определение

Модель-под-роль — это практика назначать каждому ИИ-агенту самую дешёвую модель, которая всё ещё хорошо делает именно его работу: сильную кодеру, дешёвую на рутинное письмо, — вместо одной дорогой модели на все задачи. Она оптимизирует стоимость под реальную сложность работы каждой роли.

Почему одна модель на всё — дорогая ошибка

Когда каждый агент ходит через одну премиум-модель, ты платишь премиум-ставку за гору работы, которой она никогда не требовалась. Пересказать страницу, проставить тег задаче, придумать тему письма, набросать стандартный ответ — это основной объём офисного дня, и он лёгкий. Фронтир-модель делает это прекрасно и берёт с тебя фронтир-цену за удовольствие.

Стоимость задачи сводится к короткой формуле:

стоимость = задач/мес × (входные + выходные токены на задачу) × цена за токен

Два из трёх множителей заданы самой работой. Управляешь ты ценой за токен — а её целиком определяет то, *какую модель ты выбрал*. Взять модель, которая в 10 раз дешевле, для роли, которой лишняя мощь не нужна, — значит срезать счёт этой роли в 10 раз без заметной потери качества.

Подбирай модель под работу

Практический взгляд на ростер:

Кодер — единственная роль, где сильная модель отрабатывает цену. Коду нужны рассуждение, большой контекст под соседние файлы и многошаговые туллы. Вот сюда и тратимся.
Ресёрчер — годная модель среднего тира с большим контекстом хорошо тянет сбор и синтез. Тир Gemini Flash и похожие — золотая середина.
Копирайтер — качество важно, но задачи мельче. Средний тир — с запасом.
Секретарь — высокий объём, низкая сложность. Самый явный случай для самой дешёвой годной модели.
Дизайнер — генерация промптов лёгкая по токенам; генерация картинок тарифицируется отдельно image-моделью.

Контринтуитивная деталь: *дорогая* модель на *низкообъёмной* роли стоит почти ничего, а *дешёвая* на *высокообъёмной* остаётся дешёвой. Стоимость — это всегда цена модели, умноженная на объём, поэтому крутишь оба рычага по-ролям, а не глобально.

Хочешь увидеть точные числа для своей команды — подбор модели под роль тянет живые цены из каталога OpenRouter и даёт назначить модель каждому агенту, править токены и объём задач и смотреть, как месячный итог меняется в реальном времени.

Бюджетный рычаг: дешёвые модели, которые всё равно тянут

Разрыв между самыми дорогими и самыми дешёвыми годными моделями огромен — часто больше 10 раз за токен выхода. Модели вроде Xiaomi MiMo v2.5, DeepSeek и Qwen Coder тянут удивительно большую долю реальной работы за долю цены топов, некоторые — с контекстом в миллион токенов и почти бесплатными cache-hit. Для кодера, который делает много задач в месяц, переход с фронтир-модели на сильную бюджетную роняет эту роль с десятков долларов до нескольких — самая крупная строка, которую вообще можно сдвинуть.

Смысл не в «всегда бери самую дешёвую». А в том, что ты должен *знать*, сколько каждая роль стоит на каждой модели, и делать выбор осознанно: платить за рассуждение там, где оно меняет результат, и экономить везде остальном.

Назначить модель каждому агенту — это по одной настройке в self-hosted ИИ-офисе, и ключ ты подключаешь свой, так что платишь провайдеру напрямую без наценки за место.

Купить — 15 400 ₽

Ещё два способа сбить счёт

Свой ключ. SaaS за место берёт фиксированную плату за человека, пользуется он инструментом или нет. Платить провайдеру напрямую — значит платить только за токены, что агенты реально израсходовали, по тарифам провайдера. Для небольшой команды одно это часто меняет экономику. (Подробнее — в гайде про свои ключи к LLM.)

Запусти локальный хелпер. Немалая часть расхода офиса — вовсе не видимая работа, а накладное: сжатие контекста, генерация заголовков, извлечение текста со страниц. Этот рутинный слой может идти на бесплатной локальной модели на твоём сервере, обычно срезая около 20% расхода платных токенов ещё до тонкой настройки ролей.

Собираем вместе

Хорошо настроенный ростер выглядит так: сильная (или сильная-бюджетная) модель на кодере, дешёвые годные модели на высокообъёмных ролях, локальный хелпер, поглощающий накладное, и твой собственный ключ в основании — чтобы без наценки. Итог — ИИ-команда, которая стоит долю от «одна премиум-модель на всех», с сохранённым качеством ровно там, где качество видно.

Гадать про числа не нужно. Открой подбор модели под роль, назначь модель каждому агенту и считай реальный месячный расход прямо с экрана — а потом реши, где доллар покупает тебе что-то, а где нет.

FAQ

Нужна ли самая дорогая модель на каждую задачу?

Нет. Большая часть работы агентов — черновики писем, пересказ страниц, роутинг задач — отлично идёт на дешёвых моделях. Дорогие и сильные оставляй тем немногим ролям, которым они реально нужны (например, кодеру), и общий расход падает кратно без потери качества там, где оно заметно.

Какая самая дешёвая модель ещё пишет пригодный код?

Бюджетные модели вроде Xiaomi MiMo v2.5, DeepSeek и Qwen Coder тянут большую долю кодовых задач за долю цены топовых — часто в 10 раз дешевле за токен. Частый приём — сильная модель на сложное и дешёвая на рутинные правки.

Как реально считается стоимость за токены?

Стоимость = задач в месяц × (входные + выходные токены на задачу) × цена модели за токен. Вход и выход тарифицируются по-разному, выход дороже. Задача агента — многошаговый цикл, поэтому токенов на задачу больше, чем на один промпт.

Сложно ли настроить модель под каждую роль?

В self-hosted ИИ-офисе это одна настройка на агента. Назначаешь каждой роли её модель и подключаешь один ключ; система сама роутит каждого агента к выбранной модели.

Снижает ли локальная модель платный счёт?

Да. Рутину — сжатие контекста, заголовки, извлечение текста со страниц — можно гнать на бесплатной локальной модели-хелпере на своём сервере, что обычно убирает около 20% расхода платных токенов ещё до тонкой настройки ролей.

Что такое bring-your-own-key и при чём тут стоимость?

Bring-your-own-key — это подключение своего аккаунта у провайдера модели: платишь провайдеру напрямую по его тарифам, без наценки посредника. Это разница между фиксированной платой за место в SaaS и оплатой только тех токенов, что агенты реально израсходовали.

🛠

Эту статью собрала, написала и оформила ИИ-команда OfficeForge — те самые пять ИИ-сотрудников, что идут в продукте. Блог — это наш продукт за реальной работой.