От Владимира Нагина — основатель LeadUp AI, более трёх лет работаю с ИИ-агентами, обучил 500+ предпринимателей автоматизации бизнеса.
Эта статья — часть серии о Hermes Agent. Начать с начала: Сколько стоит час: ИИ-ассистент для руководителя.
С обычным чат-ботом всё просто. Вы написали — он ответил. На один вопрос — один обмен токенами, и счёт за месяц получается копеечный.
С ИИ-агентом картина другая. Когда OpenClaw — open-source автономный AI-агент, который выполняет задачи через мессенджеры (WhatsApp, Telegram, Slack) — массово взлетел в начале 2026 года, у активных пользователей он сжигал по несколько тысяч долларов токенов в день. Не в месяц. В день. У людей просто закрывались подписки, потому что счёт за неделю превышал зарплату джуниора.
Это не баг и не «дорогие» модели. Это так устроены агенты по определению: они планируют, выполняют пошагово, проверяют свой результат, корректируют — и каждое действие стоит токенов. Если ваш агент работает на одной топовой модели на всех задачах подряд, счёт быстро уходит в космос.
Хорошая новость в том, что без единой строки кода можно сократить эти расходы до 90% — за счёт правильной маршрутизации моделей. В этой статье — как это работает и какой роутинг я использую прямо сейчас.
Почему агенты «прожорливые»
Главное, что нужно понять про экономику агентов: у них принципиально другой процесс, чем у чат-бота.
«ИИ-агенты — у них совершенно другой процесс. Это не как с обычным чат-ботом, когда вы ему отправили запрос, и он вам ответил — на этом всё. Он проанализировал запрос и вернул вам ответ. У нашего ИИ-агента он сначала планирует. Потом начинает этот план выполнять. На каждое действие он тратит токены». — Владимир Нагин
Давайте на конкретном примере. Вы дали агенту задачу: «Подготовь follow-up по пяти открытым сделкам». В чат-боте это было бы одно сообщение, один ответ, около тысячи токенов суммарно. В агенте — другой порядок:
- Планирование. Агент формулирует план: открыть CRM, выгрузить статусы сделок, проверить переписку по каждой, сформулировать рекомендованный шаг.
- Выполнение по шагам. Каждое из перечисленного — отдельный вызов модели. Пять сделок — это минимум двадцать пять вызовов.
- Самопроверка. На каждом шаге агент проверяет результат: «получил ли я то, что искал?». Если нет — повторяет.
- Финальный синтез. Сводит результаты в итоговое сообщение для вас.
Одна задача — десятки вызовов модели. Реальные масштабы я вижу в Paperclip — оркестраторе, который управляет агентами:
«Я вижу, как агенты работают в моём Paperclip — миллионами измеряется, сотнями миллионов токенов, которые они употребляют». — Владимир Нагин
Когда у вас один агент на одной топовой модели, эти миллионы умножаются на цену миллиона токенов. Спасает только одно: понимание, что не все задачи требуют топовой модели.
Принцип маршрутизации: разные модели для разных задач
Аналогия, которую я часто использую — электроэнергия. У вас в доме есть розетка, и в неё подключены и компьютер, и чайник, и зарядка телефона. Никому не приходит в голову заплатить за зарядку телефона как за работу компьютера в течение суток.
С ИИ-моделями — то же самое:
«На какие-то сложные задачи мы ставим, например, Gemini 3.1 Pro. На какие-то задачи попроще мы ставим соответственно более дешёвые модели, более быстрые — например, Gemini 2.5 Flash, или какие-то open-source модели, которые мы можем в той же Ollama получить. Мы можем всё это оркестрировать — моделями тоже можем управлять, тем самым снижая стоимость использования наших агентов». — Владимир Нагин
Базовый принцип роутинга простой:
- Тяжёлые задачи (аналитика, сценарное моделирование, разбор сложных переговоров) → топовая модель (Opus, Gemini 3.x Pro, GPT-5).
- Средние задачи (черновики писем, сводки по почте, follow-up) → средняя модель (Sonnet, Gemini Flash, GPT-5 Mini).
- Поточная рутина (классификация, простые ответы, форматирование) → дешёвая модель (DeepSeek, Kimi, локальные модели через Ollama).
«Можно сократить стоимость до 90% за счёт того, чтобы переключать именно модель — без правок кода. Модель сама будет думать, куда [запрос] перекинуть. Настроить это надо просто [роутером]». — Владимир Нагин
Экосистема 2026: куда подключаются модели
В практике есть три основных способа подключить модели к вашему агенту.
OpenRouter — агрегатор за токены
OpenRouter — это «универсальный коннектор» к двум сотням+ моделей. Через одну подписку и один API-ключ вы получаете доступ к Anthropic, OpenAI, Google, DeepSeek, Mistral, Kimi и многим другим.
Логика OpenRouter — pay-per-token. У каждой модели своя цена. Если у вас неравномерная нагрузка — OpenRouter обычно выгоднее. Удобство: один API-ключ вместо пятнадцати, единый формат запросов, легко переключаться между моделями.
Ollama — модели по подписке или локально
Ollama — другой подход. Подписка — порядка двадцати долларов в месяц по словам Vladimir'а на интенсиве — даёт доступ к нескольким моделям одновременно по фиксированной цене.
Логика Ollama — flat-rate. Подписка фиксирована, и при достаточной нагрузке вы платите меньше, чем pay-per-token у OpenRouter. Плюс — часть моделей можно запускать локально на вашем сервере или Mac Mini, и тогда счёт за токены вообще обнуляется.
Минус — выбор моделей у Ollama уже, чем у OpenRouter. Если вам нужна конкретная топовая модель, которая в Ollama не представлена, придётся брать её отдельно.
Прямые подписки на отдельные сервисы
Claude Code Max — порядка двухсот долларов в месяц. Аналогичный тариф у ChatGPT для доступа к Codex. Для разработчика — нормальная цена за рабочий инструмент. Для руководителя, у которого работает один-два агента, — обычно дороже, чем нужно.
«Эту [Ollama] подписку даже при двадцати долларах — это существенно ниже, чем двести у Anthropic Claude Code Max». — Владимир Нагин
Когда что выбрать
Если у вас неравномерная нагрузка (часы пик, ночное затишье) → OpenRouter. Платите ровно за то, что использовали.
Если у вас стабильно высокая нагрузка (агент работает 24/7) → Ollama. Подписка окупается быстро. При большом объёме — Ollama локально, чтобы вообще не платить за каждый запрос.
Если вам нужна одна конкретная топовая модель → прямая подписка. Например, если все ваши задачи требуют Opus.
Гибрид → OpenRouter для топовых задач + Ollama для рутины. OpenRouter подключаю на сложные аналитические задачи, где нужен Opus или Gemini 3 Pro. Ollama — на поточные задачи (классификация писем, генерация коротких сводок). Между ними стоит роутер агента: он сам решает, какую модель использовать для каждой подзадачи.
Третий приём: Kimi и агентные модели
Отдельно стоит упомянуть Kimi — модель от китайской компании Moonshot.
«Очень интересный инструмент. Модель уже построена изначально на агентах — то есть там целая команда агентов, swarm, рой агентов выполняет вашу задачу. Это уже не просто модель, доступ к которой вы получаете — это уже агенты». — Владимир Нагин
Идея Kimi — модель внутри устроена не как монолит, а как команда внутренних агентов. Получается дешевле классических моделей при сопоставимом качестве на ряде задач. Хорошо подходит для поточной рутины, особенно классификации и коротких ответов.
Как настроить роутинг за один день без кода
Если у вас уже работает Hermes Agent или другой ИИ-агент, и счёт начинает расти — конкретный план первого дня.
Шаг 1. Соберите статистику за последнюю неделю. Зайдите в дашборд агента. Посмотрите, какие модели используются и какая доля запросов уходит на дорогие модели. Скорее всего, увидите, что 80% запросов — рутина, которая дорогую модель не требует.
Шаг 2. Категоризируйте свои задачи. Разделите на три категории: Сложное / Среднее / Простое.
Шаг 3. Подключите два провайдера. Зарегистрируйтесь в OpenRouter и Ollama — пять минут на каждого, бесплатно для регистрации.
Шаг 4. Настройте правила роутинга. Базовые правила:
- Категория «сложное» → Opus или Gemini 3.x Pro через OpenRouter.
- Категория «среднее» → Sonnet или Gemini Flash.
- Категория «простое» → DeepSeek или Kimi через Ollama.
Шаг 5. Запустите на неделю и сверьте. Через семь дней снова откройте счёт. Целевая экономия — 60–80% при сопоставимом качестве.
«Без правок кода — модель сама будет думать, куда перекинуть. Настроить это надо просто». — Владимир Нагин
Полезный лайфхак для тех, кто не готов настраивать роутинг
«Лайфхак: если вы не научились пока роутить модели — на более сложных задачах поставьте одну [топовую] модель, а все остальные — большинство, не за 80% обычной рутины — пустите через какую-то дешёвую модель». — Владимир Нагин
Это не оптимальный роутинг, но он уже даёт значительную экономию по сравнению с «всё на Opus». Двух моделей часто хватает на первый месяц практики — потом, когда увидите свой реальный профиль нагрузки, добавите третью.
Что меняется на длинной дистанции
Hermes Agent умеет автоматически оптимизировать собственные навыки по расписанию:
«Hermes умеет автоматически улучшать свои скиллы по расписанию. У него такой есть режим — режим оптимизации, в том числе самообучения. Через две недели он начинает оптимизировать себя — либо вы видите, что какие-то метрики растут, либо стоимость использованных токенов начинает расти, и вы можете его за счёт этого оптимизировать». — Владимир Нагин
Через две-три недели работы агент видит, какие модели лучше отрабатывают какие задачи, и сам начинает корректировать роутинг. В результате — счёт за токены становится адаптивно убывающим. Через месяц при той же или большей нагрузке вы платите меньше, чем в первую неделю.
С чего начать
- Откройте счёт за последний месяц. Поймите, сколько вы реально платите за модели прямо сейчас.
- Подключите OpenRouter и Ollama — пять минут на каждого, бесплатно для регистрации.
- Настройте три правила роутинга: сложное → Opus/Gemini Pro, среднее → Sonnet/Flash, простое → DeepSeek/Kimi.
- Через семь дней сверьте счёт. Целевая экономия — 60–80% в первый месяц.
К концу месяца — если у вас стабильная нагрузка — рассмотрите Ollama-подписку плюс локальные модели. Эта связка даёт максимальную экономию для бизнеса, который уже понимает свой профиль использования.
Дальше в серии
- Сколько стоит час: ИИ-ассистент для руководителя — ROI расчёт.
- Hermes Agent: самообучающийся ИИ-ассистент для руководителя — self-reflection loop изнутри.
- LLM-вики Карпатого: корпоративная память для ИИ-агента — три слоя памяти.
- Три уровня зрелости с ИИ: где вы и что делать дальше — реактивный/проактивный/автономный.
Владимир Нагин — основатель LeadUp AI, автор программы «Нейромастерская 2.0». Более 500 предпринимателей прошли обучение автоматизации бизнеса на его курсах.
