От Владимира Нагина — основатель LeadUp AI, более трёх лет работаю с ИИ-агентами, обучил 500+ предпринимателей автоматизации бизнеса.

Эта статья — часть серии о Hermes Agent. Начать с начала: Сколько стоит час: ИИ-ассистент для руководителя.


С обычным чат-ботом всё просто. Вы написали — он ответил. На один вопрос — один обмен токенами, и счёт за месяц получается копеечный.

С ИИ-агентом картина другая. Когда OpenClaw — open-source автономный AI-агент, который выполняет задачи через мессенджеры (WhatsApp, Telegram, Slack) — массово взлетел в начале 2026 года, у активных пользователей он сжигал по несколько тысяч долларов токенов в день. Не в месяц. В день. У людей просто закрывались подписки, потому что счёт за неделю превышал зарплату джуниора.

Это не баг и не «дорогие» модели. Это так устроены агенты по определению: они планируют, выполняют пошагово, проверяют свой результат, корректируют — и каждое действие стоит токенов. Если ваш агент работает на одной топовой модели на всех задачах подряд, счёт быстро уходит в космос.

Хорошая новость в том, что без единой строки кода можно сократить эти расходы до 90% — за счёт правильной маршрутизации моделей. В этой статье — как это работает и какой роутинг я использую прямо сейчас.


Почему агенты «прожорливые»

Главное, что нужно понять про экономику агентов: у них принципиально другой процесс, чем у чат-бота.

«ИИ-агенты — у них совершенно другой процесс. Это не как с обычным чат-ботом, когда вы ему отправили запрос, и он вам ответил — на этом всё. Он проанализировал запрос и вернул вам ответ. У нашего ИИ-агента он сначала планирует. Потом начинает этот план выполнять. На каждое действие он тратит токены». — Владимир Нагин

Давайте на конкретном примере. Вы дали агенту задачу: «Подготовь follow-up по пяти открытым сделкам». В чат-боте это было бы одно сообщение, один ответ, около тысячи токенов суммарно. В агенте — другой порядок:

  1. Планирование. Агент формулирует план: открыть CRM, выгрузить статусы сделок, проверить переписку по каждой, сформулировать рекомендованный шаг.
  2. Выполнение по шагам. Каждое из перечисленного — отдельный вызов модели. Пять сделок — это минимум двадцать пять вызовов.
  3. Самопроверка. На каждом шаге агент проверяет результат: «получил ли я то, что искал?». Если нет — повторяет.
  4. Финальный синтез. Сводит результаты в итоговое сообщение для вас.

Одна задача — десятки вызовов модели. Реальные масштабы я вижу в Paperclip — оркестраторе, который управляет агентами:

«Я вижу, как агенты работают в моём Paperclip — миллионами измеряется, сотнями миллионов токенов, которые они употребляют». — Владимир Нагин

Когда у вас один агент на одной топовой модели, эти миллионы умножаются на цену миллиона токенов. Спасает только одно: понимание, что не все задачи требуют топовой модели.


Принцип маршрутизации: разные модели для разных задач

Аналогия, которую я часто использую — электроэнергия. У вас в доме есть розетка, и в неё подключены и компьютер, и чайник, и зарядка телефона. Никому не приходит в голову заплатить за зарядку телефона как за работу компьютера в течение суток.

С ИИ-моделями — то же самое:

«На какие-то сложные задачи мы ставим, например, Gemini 3.1 Pro. На какие-то задачи попроще мы ставим соответственно более дешёвые модели, более быстрые — например, Gemini 2.5 Flash, или какие-то open-source модели, которые мы можем в той же Ollama получить. Мы можем всё это оркестрировать — моделями тоже можем управлять, тем самым снижая стоимость использования наших агентов». — Владимир Нагин

Базовый принцип роутинга простой:

  • Тяжёлые задачи (аналитика, сценарное моделирование, разбор сложных переговоров) → топовая модель (Opus, Gemini 3.x Pro, GPT-5).
  • Средние задачи (черновики писем, сводки по почте, follow-up) → средняя модель (Sonnet, Gemini Flash, GPT-5 Mini).
  • Поточная рутина (классификация, простые ответы, форматирование) → дешёвая модель (DeepSeek, Kimi, локальные модели через Ollama).

«Можно сократить стоимость до 90% за счёт того, чтобы переключать именно модель — без правок кода. Модель сама будет думать, куда [запрос] перекинуть. Настроить это надо просто [роутером]». — Владимир Нагин


Экосистема 2026: куда подключаются модели

В практике есть три основных способа подключить модели к вашему агенту.

OpenRouter — агрегатор за токены

OpenRouter — это «универсальный коннектор» к двум сотням+ моделей. Через одну подписку и один API-ключ вы получаете доступ к Anthropic, OpenAI, Google, DeepSeek, Mistral, Kimi и многим другим.

Логика OpenRouter — pay-per-token. У каждой модели своя цена. Если у вас неравномерная нагрузка — OpenRouter обычно выгоднее. Удобство: один API-ключ вместо пятнадцати, единый формат запросов, легко переключаться между моделями.

Ollama — модели по подписке или локально

Ollama — другой подход. Подписка — порядка двадцати долларов в месяц по словам Vladimir'а на интенсиве — даёт доступ к нескольким моделям одновременно по фиксированной цене.

Логика Ollama — flat-rate. Подписка фиксирована, и при достаточной нагрузке вы платите меньше, чем pay-per-token у OpenRouter. Плюс — часть моделей можно запускать локально на вашем сервере или Mac Mini, и тогда счёт за токены вообще обнуляется.

Минус — выбор моделей у Ollama уже, чем у OpenRouter. Если вам нужна конкретная топовая модель, которая в Ollama не представлена, придётся брать её отдельно.

Прямые подписки на отдельные сервисы

Claude Code Max — порядка двухсот долларов в месяц. Аналогичный тариф у ChatGPT для доступа к Codex. Для разработчика — нормальная цена за рабочий инструмент. Для руководителя, у которого работает один-два агента, — обычно дороже, чем нужно.

«Эту [Ollama] подписку даже при двадцати долларах — это существенно ниже, чем двести у Anthropic Claude Code Max». — Владимир Нагин


Когда что выбрать

Если у вас неравномерная нагрузка (часы пик, ночное затишье) → OpenRouter. Платите ровно за то, что использовали.

Если у вас стабильно высокая нагрузка (агент работает 24/7) → Ollama. Подписка окупается быстро. При большом объёме — Ollama локально, чтобы вообще не платить за каждый запрос.

Если вам нужна одна конкретная топовая модель → прямая подписка. Например, если все ваши задачи требуют Opus.

Гибрид → OpenRouter для топовых задач + Ollama для рутины. OpenRouter подключаю на сложные аналитические задачи, где нужен Opus или Gemini 3 Pro. Ollama — на поточные задачи (классификация писем, генерация коротких сводок). Между ними стоит роутер агента: он сам решает, какую модель использовать для каждой подзадачи.


Третий приём: Kimi и агентные модели

Отдельно стоит упомянуть Kimi — модель от китайской компании Moonshot.

«Очень интересный инструмент. Модель уже построена изначально на агентах — то есть там целая команда агентов, swarm, рой агентов выполняет вашу задачу. Это уже не просто модель, доступ к которой вы получаете — это уже агенты». — Владимир Нагин

Идея Kimi — модель внутри устроена не как монолит, а как команда внутренних агентов. Получается дешевле классических моделей при сопоставимом качестве на ряде задач. Хорошо подходит для поточной рутины, особенно классификации и коротких ответов.


Как настроить роутинг за один день без кода

Если у вас уже работает Hermes Agent или другой ИИ-агент, и счёт начинает расти — конкретный план первого дня.

Шаг 1. Соберите статистику за последнюю неделю. Зайдите в дашборд агента. Посмотрите, какие модели используются и какая доля запросов уходит на дорогие модели. Скорее всего, увидите, что 80% запросов — рутина, которая дорогую модель не требует.

Шаг 2. Категоризируйте свои задачи. Разделите на три категории: Сложное / Среднее / Простое.

Шаг 3. Подключите два провайдера. Зарегистрируйтесь в OpenRouter и Ollama — пять минут на каждого, бесплатно для регистрации.

Шаг 4. Настройте правила роутинга. Базовые правила:

  • Категория «сложное» → Opus или Gemini 3.x Pro через OpenRouter.
  • Категория «среднее» → Sonnet или Gemini Flash.
  • Категория «простое» → DeepSeek или Kimi через Ollama.

Шаг 5. Запустите на неделю и сверьте. Через семь дней снова откройте счёт. Целевая экономия — 60–80% при сопоставимом качестве.

«Без правок кода — модель сама будет думать, куда перекинуть. Настроить это надо просто». — Владимир Нагин


Полезный лайфхак для тех, кто не готов настраивать роутинг

«Лайфхак: если вы не научились пока роутить модели — на более сложных задачах поставьте одну [топовую] модель, а все остальные — большинство, не за 80% обычной рутины — пустите через какую-то дешёвую модель». — Владимир Нагин

Это не оптимальный роутинг, но он уже даёт значительную экономию по сравнению с «всё на Opus». Двух моделей часто хватает на первый месяц практики — потом, когда увидите свой реальный профиль нагрузки, добавите третью.


Что меняется на длинной дистанции

Hermes Agent умеет автоматически оптимизировать собственные навыки по расписанию:

«Hermes умеет автоматически улучшать свои скиллы по расписанию. У него такой есть режим — режим оптимизации, в том числе самообучения. Через две недели он начинает оптимизировать себя — либо вы видите, что какие-то метрики растут, либо стоимость использованных токенов начинает расти, и вы можете его за счёт этого оптимизировать». — Владимир Нагин

Через две-три недели работы агент видит, какие модели лучше отрабатывают какие задачи, и сам начинает корректировать роутинг. В результате — счёт за токены становится адаптивно убывающим. Через месяц при той же или большей нагрузке вы платите меньше, чем в первую неделю.


С чего начать

  1. Откройте счёт за последний месяц. Поймите, сколько вы реально платите за модели прямо сейчас.
  2. Подключите OpenRouter и Ollama — пять минут на каждого, бесплатно для регистрации.
  3. Настройте три правила роутинга: сложное → Opus/Gemini Pro, среднее → Sonnet/Flash, простое → DeepSeek/Kimi.
  4. Через семь дней сверьте счёт. Целевая экономия — 60–80% в первый месяц.

К концу месяца — если у вас стабильная нагрузка — рассмотрите Ollama-подписку плюс локальные модели. Эта связка даёт максимальную экономию для бизнеса, который уже понимает свой профиль использования.


Дальше в серии


Владимир Нагин — основатель LeadUp AI, автор программы «Нейромастерская 2.0». Более 500 предпринимателей прошли обучение автоматизации бизнеса на его курсах.