Почему ИИ-агенты тратят так много токенов?

Агент не просто отвечает — он планирует (расход токенов), выполняет пошагово (каждое действие = вызов модели), проверяет результат, синтезирует итог. Одна задача «follow-up по 5 сделкам» — это 25+ вызовов модели вместо одного. Один агент на топовой модели на всех задачах быстро генерирует счёт в сотни долларов в месяц.

Что такое маршрутизация моделей (model routing)?

Принцип: разные задачи требуют разных по мощности и стоимости моделей. Тяжёлые задачи (аналитика) → Opus/Gemini Pro. Средние (черновики писем) → Sonnet/Flash. Поточная рутина (классификация) → DeepSeek/Kimi. Правильный роутинг снижает счёт на 60–90% без потери качества.

Что лучше: OpenRouter или Ollama?

OpenRouter — pay-per-token, 200+ моделей через один API-ключ, выгоден при неравномерной нагрузке. Ollama — flat-rate (~$20/мес.), 3 модели, выгоден при стабильно высокой нагрузке, часть моделей можно запускать локально (бесплатно). Оптимальный вариант для большинства: OpenRouter для топовых задач + Ollama для рутины.

Что такое Kimi (Moonshot)?

Kimi — модель от китайской компании Moonshot, построенная как swarm внутренних агентов: команда агентов внутри выполняет вашу задачу. Хорошо подходит для поточной рутины (классификация, короткие ответы). Доступна через OpenRouter или Ollama.

ИИ-агенты

Как не сжечь бюджет на ИИ-агентах: маршрутизация моделей

ИИ-агентыстоимость ИИ-агентовOpenRouter vs Ollamaмаршрутизация моделей ИИ

ИИ-агенты тратят токены на каждое действие. Маршрутизация моделей — Opus на сложное, Flash на рутину — сокращает счёт до 90%. Карта инструментов 2026.

Дальше

Hermes-agent — серия статей

Hermes-agent: ИИ-ассистент, который учится на ваших решениях
LLM-вики Карпатого: как дать ИИ-агенту корпоративную память
Три уровня зрелости с ИИ: где ваш бизнес
Как не сжечь бюджет на ИИ-агентах: маршрутизация моделейВы здесь

На этой странице

Почему агенты «прожорливые»
Принцип маршрутизации: разные модели для разных задач
Экосистема 2026: куда подключаются модели
OpenRouter — агрегатор за токены
Ollama — модели по подписке или локально
Прямые подписки на отдельные сервисы
Когда что выбрать
Третий приём: Kimi и агентные модели
Как настроить роутинг за один день без кода
Полезный лайфхак для тех, кто не готов настраивать роутинг
Что меняется на длинной дистанции
С чего начать
Дальше в серии

Владимир Нагин

LeadUp AI

28 мая 2026 г. · 9 мин чтения

От Владимира Нагина — основатель LeadUp AI, более трёх лет работаю с ИИ-агентами, обучил 500+ предпринимателей автоматизации бизнеса.

Эта статья — часть серии о Hermes Agent. Начать с начала: Сколько стоит час: ИИ-ассистент для руководителя.

С обычным чат-ботом всё просто. Вы написали — он ответил. На один вопрос — один обмен токенами, и счёт за месяц получается копеечный.

С ИИ-агентом картина другая. Когда OpenClaw — open-source автономный AI-агент, который выполняет задачи через мессенджеры (WhatsApp, Telegram, Slack) — массово взлетел в начале 2026 года, у активных пользователей он сжигал по несколько тысяч долларов токенов в день. Не в месяц. В день. У людей просто закрывались подписки, потому что счёт за неделю превышал зарплату джуниора.

Это не баг и не «дорогие» модели. Это так устроены агенты по определению: они планируют, выполняют пошагово, проверяют свой результат, корректируют — и каждое действие стоит токенов. Если ваш агент работает на одной топовой модели на всех задачах подряд, счёт быстро уходит в космос.

Хорошая новость в том, что без единой строки кода можно сократить эти расходы до 90% — за счёт правильной маршрутизации моделей. В этой статье — как это работает и какой роутинг я использую прямо сейчас.

Почему агенты «прожорливые»

Главное, что нужно понять про экономику агентов: у них принципиально другой процесс, чем у чат-бота.

«ИИ-агенты — у них совершенно другой процесс. Это не как с обычным чат-ботом, когда вы ему отправили запрос, и он вам ответил — на этом всё. Он проанализировал запрос и вернул вам ответ. У нашего ИИ-агента он сначала планирует. Потом начинает этот план выполнять. На каждое действие он тратит токены». — Владимир Нагин

Давайте на конкретном примере. Вы дали агенту задачу: «Подготовь follow-up по пяти открытым сделкам». В чат-боте это было бы одно сообщение, один ответ, около тысячи токенов суммарно. В агенте — другой порядок:

Планирование. Агент формулирует план: открыть CRM, выгрузить статусы сделок, проверить переписку по каждой, сформулировать рекомендованный шаг.
Выполнение по шагам. Каждое из перечисленного — отдельный вызов модели. Пять сделок — это минимум двадцать пять вызовов.
Самопроверка. На каждом шаге агент проверяет результат: «получил ли я то, что искал?». Если нет — повторяет.
Финальный синтез. Сводит результаты в итоговое сообщение для вас.

Одна задача — десятки вызовов модели. Реальные масштабы я вижу в Paperclip — оркестраторе, который управляет агентами:

«Я вижу, как агенты работают в моём Paperclip — миллионами измеряется, сотнями миллионов токенов, которые они употребляют». — Владимир Нагин

Когда у вас один агент на одной топовой модели, эти миллионы умножаются на цену миллиона токенов. Спасает только одно: понимание, что не все задачи требуют топовой модели.

Принцип маршрутизации: разные модели для разных задач

Дерево маршрутизации: входящий запрос агента попадает в роутер, который оценивает сложность задачи и направляет её в одну из трёх моделей — топовую ($$$), среднюю ($$) или дешёвую ($). Для каждой ветви указаны типы задач и относительная стоимость токенов. — Fig 1.Маршрутизация запроса по сложности: топовая, средняя и дешёвая модели с относительной стоимостью токенов.

Аналогия, которую я часто использую — электроэнергия. У вас в доме есть розетка, и в неё подключены и компьютер, и чайник, и зарядка телефона. Никому не приходит в голову заплатить за зарядку телефона как за работу компьютера в течение суток.

С ИИ-моделями — то же самое:

«На какие-то сложные задачи мы ставим, например, Gemini 3.1 Pro. На какие-то задачи попроще мы ставим соответственно более дешёвые модели, более быстрые — например, Gemini 2.5 Flash, или какие-то open-source модели, которые мы можем в той же Ollama получить. Мы можем всё это оркестрировать — моделями тоже можем управлять, тем самым снижая стоимость использования наших агентов». — Владимир Нагин

Базовый принцип роутинга простой:

Тяжёлые задачи (аналитика, сценарное моделирование, разбор сложных переговоров) → топовая модель (Opus, Gemini 3.x Pro, GPT-5).
Средние задачи (черновики писем, сводки по почте, follow-up) → средняя модель (Sonnet, Gemini Flash, GPT-5 Mini).
Поточная рутина (классификация, простые ответы, форматирование) → дешёвая модель (DeepSeek, Kimi, локальные модели через Ollama).

«Можно сократить стоимость до 90% за счёт того, чтобы переключать именно модель — без правок кода. Модель сама будет думать, куда [запрос] перекинуть. Настроить это надо просто [роутером]». — Владимир Нагин

Экосистема 2026: куда подключаются модели

В практике есть три основных способа подключить модели к вашему агенту.

OpenRouter — агрегатор за токены

OpenRouter — это «универсальный коннектор» к двум сотням+ моделей. Через одну подписку и один API-ключ вы получаете доступ к Anthropic, OpenAI, Google, DeepSeek, Mistral, Kimi и многим другим.

Логика OpenRouter — pay-per-token. У каждой модели своя цена. Если у вас неравномерная нагрузка — OpenRouter обычно выгоднее. Удобство: один API-ключ вместо пятнадцати, единый формат запросов, легко переключаться между моделями.

Ollama — модели по подписке или локально

Ollama — другой подход. Подписка — порядка двадцати долларов в месяц по словам Vladimir'а на интенсиве — даёт доступ к нескольким моделям одновременно по фиксированной цене.

Логика Ollama — flat-rate. Подписка фиксирована, и при достаточной нагрузке вы платите меньше, чем pay-per-token у OpenRouter. Плюс — часть моделей можно запускать локально на вашем сервере или Mac Mini, и тогда счёт за токены вообще обнуляется.

Минус — выбор моделей у Ollama уже, чем у OpenRouter. Если вам нужна конкретная топовая модель, которая в Ollama не представлена, придётся брать её отдельно.

Прямые подписки на отдельные сервисы

Claude Code Max — порядка двухсот долларов в месяц. Аналогичный тариф у ChatGPT для доступа к Codex. Для разработчика — нормальная цена за рабочий инструмент. Для руководителя, у которого работает один-два агента, — обычно дороже, чем нужно.

«Эту [Ollama] подписку даже при двадцати долларах — это существенно ниже, чем двести у Anthropic Claude Code Max». — Владимир Нагин

PDF

Бесплатная диагностика

Готова ли ваша компания к AI — за 15 минут

PDF на 8 страниц: 7 признаков AI-готовности и шаблон AI-сотрудника. На выходе — где запускать пилот.

Скачать диагностику →

Когда что выбрать

Если у вас неравномерная нагрузка (часы пик, ночное затишье) → OpenRouter. Платите ровно за то, что использовали.

Если у вас стабильно высокая нагрузка (агент работает 24/7) → Ollama. Подписка окупается быстро. При большом объёме — Ollama локально, чтобы вообще не платить за каждый запрос.

Если вам нужна одна конкретная топовая модель → прямая подписка. Например, если все ваши задачи требуют Opus.

Гибрид → OpenRouter для топовых задач + Ollama для рутины. OpenRouter подключаю на сложные аналитические задачи, где нужен Opus или Gemini 3 Pro. Ollama — на поточные задачи (классификация писем, генерация коротких сводок). Между ними стоит роутер агента: он сам решает, какую модель использовать для каждой подзадачи.

Третий приём: Kimi и агентные модели

Отдельно стоит упомянуть Kimi — модель от китайской компании Moonshot.

«Очень интересный инструмент. Модель уже построена изначально на агентах — то есть там целая команда агентов, swarm, рой агентов выполняет вашу задачу. Это уже не просто модель, доступ к которой вы получаете — это уже агенты». — Владимир Нагин

Идея Kimi — модель внутри устроена не как монолит, а как команда внутренних агентов. Получается дешевле классических моделей при сопоставимом качестве на ряде задач. Хорошо подходит для поточной рутины, особенно классификации и коротких ответов.

Как настроить роутинг за один день без кода

Если у вас уже работает Hermes Agent или другой ИИ-агент, и счёт начинает расти — конкретный план первого дня.

Шаг 1. Соберите статистику за последнюю неделю. Зайдите в дашборд агента. Посмотрите, какие модели используются и какая доля запросов уходит на дорогие модели. Скорее всего, увидите, что 80% запросов — рутина, которая дорогую модель не требует.

Шаг 2. Категоризируйте свои задачи. Разделите на три категории: Сложное / Среднее / Простое.

Шаг 3. Подключите два провайдера. Зарегистрируйтесь в OpenRouter и Ollama — пять минут на каждого, бесплатно для регистрации.

Шаг 4. Настройте правила роутинга. Базовые правила:

Категория «сложное» → Opus или Gemini 3.x Pro через OpenRouter.
Категория «среднее» → Sonnet или Gemini Flash.
Категория «простое» → DeepSeek или Kimi через Ollama.

Шаг 5. Запустите на неделю и сверьте. Через семь дней снова откройте счёт. Целевая экономия — 60–80% при сопоставимом качестве.

«Без правок кода — модель сама будет думать, куда перекинуть. Настроить это надо просто». — Владимир Нагин

Полезный лайфхак для тех, кто не готов настраивать роутинг

«Лайфхак: если вы не научились пока роутить модели — на более сложных задачах поставьте одну [топовую] модель, а все остальные — большинство, не за 80% обычной рутины — пустите через какую-то дешёвую модель». — Владимир Нагин

Это не оптимальный роутинг, но он уже даёт значительную экономию по сравнению с «всё на Opus». Двух моделей часто хватает на первый месяц практики — потом, когда увидите свой реальный профиль нагрузки, добавите третью.

Что меняется на длинной дистанции

Hermes Agent умеет автоматически оптимизировать собственные навыки по расписанию:

«Hermes умеет автоматически улучшать свои скиллы по расписанию. У него такой есть режим — режим оптимизации, в том числе самообучения. Через две недели он начинает оптимизировать себя — либо вы видите, что какие-то метрики растут, либо стоимость использованных токенов начинает расти, и вы можете его за счёт этого оптимизировать». — Владимир Нагин

Через две-три недели работы агент видит, какие модели лучше отрабатывают какие задачи, и сам начинает корректировать роутинг. В результате — счёт за токены становится адаптивно убывающим. Через месяц при той же или большей нагрузке вы платите меньше, чем в первую неделю.

С чего начать

Откройте счёт за последний месяц. Поймите, сколько вы реально платите за модели прямо сейчас.
Подключите OpenRouter и Ollama — пять минут на каждого, бесплатно для регистрации.
Настройте три правила роутинга: сложное → Opus/Gemini Pro, среднее → Sonnet/Flash, простое → DeepSeek/Kimi.
Через семь дней сверьте счёт. Целевая экономия — 60–80% в первый месяц.

К концу месяца — если у вас стабильная нагрузка — рассмотрите Ollama-подписку плюс локальные модели. Эта связка даёт максимальную экономию для бизнеса, который уже понимает свой профиль использования.

Дальше в серии

Сколько стоит час: ИИ-ассистент для руководителя — ROI расчёт.
Hermes Agent: самообучающийся ИИ-ассистент для руководителя — self-reflection loop изнутри.
LLM-вики Карпатого: корпоративная память для ИИ-агента — три слоя памяти.
Три уровня зрелости с ИИ: где вы и что делать дальше — реактивный/проактивный/автономный.

Владимир Нагин — основатель LeadUp AI, автор программы «Нейромастерская 2.0». Более 500 предпринимателей прошли обучение автоматизации бизнеса на его курсах.

стоимость ИИ-агентовOpenRouter vs Ollamaмаршрутизация моделей ИИкак сэкономить на ChatGPThermes-series

Владимир Нагин

CEO, LeadUp AI

Основатель LeadUp AI. Инженер AI-агентов и нейросотрудников, автор Нейромастерской 2.0, спикер по AI-first компаниям. Ведёт RU и EN рынок: от стартапов до корпоративных программ.

Об авторе →Команда

FAQ

Часто задаваемые вопросы

Почему ИИ-агенты тратят так много токенов?: Агент не просто отвечает — он планирует (расход токенов), выполняет пошагово (каждое действие = вызов модели), проверяет результат, синтезирует итог. Одна задача «follow-up по 5 сделкам» — это 25+ вызовов модели вместо одного. Один агент на топовой модели на всех задачах быстро генерирует счёт в сотни долларов в месяц.
Что такое маршрутизация моделей (model routing)?: Принцип: разные задачи требуют разных по мощности и стоимости моделей. Тяжёлые задачи (аналитика) → Opus/Gemini Pro. Средние (черновики писем) → Sonnet/Flash. Поточная рутина (классификация) → DeepSeek/Kimi. Правильный роутинг снижает счёт на 60–90% без потери качества.
Что лучше: OpenRouter или Ollama?: OpenRouter — pay-per-token, 200+ моделей через один API-ключ, выгоден при неравномерной нагрузке. Ollama — flat-rate (~$20/мес.), 3 модели, выгоден при стабильно высокой нагрузке, часть моделей можно запускать локально (бесплатно). Оптимальный вариант для большинства: OpenRouter для топовых задач + Ollama для рутины.
Что такое Kimi (Moonshot)?: Kimi — модель от китайской компании Moonshot, построенная как swarm внутренних агентов: команда агентов внутри выполняет вашу задачу. Хорошо подходит для поточной рутины (классификация, короткие ответы). Доступна через OpenRouter или Ollama.

PDF

Бесплатный чек-лист

30 процессов, которые AI-агент закроет за 1 неделю

PDF + Notion-шаблон для CEO/COO. Готовые сценарии делегирования — от лидов до отчётности.

Скачать чек-лист →

Newsletter

AI Operator Weekly

Раз в неделю — практический разбор одного AI-внедрения и один готовый n8n-шаблон. Без воды.