AI cost-per-task — гайд щотижневого моніторингу | AI Advisory Board

Якщо ви COO, який відкриває місячний invoice AI-вендора, і єдиний рядок, що чіпляє око — це total, ви пропускаєте метрику, яка три тижні тому сказала б вам, що щось зламалось. Місячні токени — це бухгалтерська цифра. Cost-per-task — операційний сигнал.

Чому місячні token-звіти занадто грубі?

Бо коли приходить місячний invoice — проблема вже працює три тижні. Класичний патерн: правка prompt на день 5 подвоює середню довжину входу. Cost-per-task тихо зростає з €0,31 до €0,62. Invoice приходить день 35, CFO пише COO, чому AI-витрати +90%, і COO витрачає день, з'ясовуючи, який workflow регресував.

Щотижневий моніторинг зловив би це у день 7.

Definition: AI cost-per-task — all-in inference вартість (input tokens + output tokens + tool calls + retry overhead) поділена на кількість завершених задач визначеного типу, виміряна за фіксоване вікно.

Gartner прямо казав про це — CIO прораховують AI-інфраструктуру до 1000%, бо місячні агрегати приховують unit economics. Для SMB-впроваджень — та сама динаміка на менших абсолютних витратах, але пропорційно більших сюрпризах.

Що рахується "задачею"?

Метрика настільки хороша, наскільки чітке визначення задачі. Неохайні визначення — це рухомі цілі.

Хороше визначення задачі прив'язане до workflow, не до API. "Один support тикет від першого повідомлення до зміни статусу" — це задача. "Один LLM-виклик" — ні. "Одна sales-пропозиція згенерована end-to-end з retrieval і human review" — задача. "One prompt completion" — ні.

Три правила визначення задач:

Workflow boundary. Задача починається з реального бізнес-тригера (тикет, CV, інвойс) і закінчується реальним outcome (статус, score, апрув).
Cost envelope. Задача включає всі токени для workflow — retries, tool calls, RAG, валідацію. Не лише "основний" виклик.
Одне число на workflow. Топ 3-5 workflows. Не 30. Cost-per-task як alarm-метрика втрачає функцію після ~п'яти tracked workflows.

Definition: Workflow boundary — операційні точки старту і завершення, що визначають один екземпляр задачі, незалежно від кількості LLM-викликів всередині.

Як рахувати?

Арифметика проста. Дисципліна — у зборі даних.

Cost-per-task (CPT) для workflow W у тижні N:

CPT(W, N) = total_inference_spend(W, N) / completed_tasks(W, N)

Де:
- total_inference_spend = сума (input_tokens × price_in + output_tokens × price_out)
  по всіх API-викликах з workflow_id = W у тижні N
- completed_tasks = кількість distinct workflow_runs, що досягли стану "done" у тижні N

Вимога тегування:
- Кожен API-виклик ОБОВ'ЯЗКОВО містить metadata: { workflow_id: W, run_id: R }
- run_id групує всі виклики для одного workflow instance (initial + retries + tool calls)
- workflow_id — один із ваших 3-5 tracked workflows

Baseline:
- CPT щотижня перших 4 тижні стабільної роботи.
- Baseline = медіана цих 4 тижнів.
- Alert thresholds: CPT > 1.3 × baseline = розслідуйте, CPT > 1.5 × baseline = кидайте все.

OpenAI, Anthropic, Azure OpenAI і більшість провайдерів підтримують metadata на запитах. Якщо ваш вендор ні — логуйте workflow_id у застосунку до виклику і звіряйте з billing CSV провайдера в кінці тижня.

Що каже спайк?

Cost-per-task спайк має малий набір ймовірних причин. У порядку ймовірності:

Prompt drift. Хтось додав секцію до system prompt. Середні input tokens виросли. Збільшення компаундує по кожному виклику. (Найтиповіша причина — вирішується prompt version control.)

Dataset growth. Ваш RAG-корпус виріс, retrieval тягне 8 chunks замість 4, довжина входу подвоїлась. (Cap на retrieval-count + оновлення relevance ranking.)

Model swap. Вендор поміняв модель за замовчуванням. Нова дорожча за токен, або видає довші outputs, або обидва. (Саме для цього існує procurement question #11 — model-change notification.)

Tool-call recursion. Агент кличе tools частіше, ніж очікувано, можливо в retry-петлях. (Max-tool-call cap per workflow run.)

Справжній зсув обсягу/складності. Ваш task mix змінився — складніші запити, довші повідомлення, більші документи. (Легітимно; перерахуйте baseline.)

Definition: Cost-per-task alarm — визначений тижневий threshold (зазвичай 30-50% над baseline), при якому хтось розслідує workflow, не чекаючи місячного інвойсу.

Порядок діагностики важливий. Спершу історія prompts (найдешевший фікс), потім retrieval-логи, потім vendor change notifications, потім tool-call traces, і лише потім приймати новий baseline.

Як це виглядає на практиці?

Простий щотижневий review-патерн, що вміщається в існуючу ops-зустріч:

Weekly AI Cost-Per-Task Review — 15 хвилин.

По кожному з 3-5 tracked workflows:
1. CPT цього тижня: €X,XX
2. Baseline: €Y,YY
3. Variance: +/- Z%
4. Якщо |Z| > 30% — розслідувати до наступної зустрічі.

Checklist розслідування (в порядку):
- Зміни prompt цього тижня? Rollback, перевиміряти.
- Зміни retrieval count чи corpus? Cap, перевиміряти.
- Vendor change notifications отримано? Підтвердити identity моделі.
- Tool-call traces нормальні? Cap retry-петлі.
- Справжній зсув workload? Документувати, переглянути baseline.

Owner: ops lead. Escalation: CFO, якщо variance тримається 2 тижні.

Працює на SMB-масштабі 30 і 500 осіб. Математика не змінюється; кількість tracked workflows може.

Tool tip (Course for Business): Cost-per-task моніторинг тримається на практиці, бо має named internal owner — а AI Champions (1:15-20) ratio — це те, як цей owner будується без найму "Head of AI Ops". Наша 6-week program включає модуль unit-economics саме щоб Champion міг налаштувати workflow tagging, порахувати baselines і запустити weekly review без залучення finance-team. Augment, don't replace тут теж: Champion робить data-роботу, ops lead приймає рішення. Дивіться curriculum: https://course.aiadvisoryboard.me/business.

Team scan (what AI champions report after week 1)

Більшість SMB, які ми аудитимо, мають нуль workflow-level тегування — летять на місячних totals
Перший тиждень CPT-трекінгу виявляє хоча б один workflow, вартість якого 2-3× від припущення лідерства
Prompt drift — найтиповіша причина спайку; зʼявляється у ~50-60% розслідуваних спайків
30%/50% threshold корисніший за абсолютні alarms (які не переживають зростання)
Перша high-leverage перемога: ловля одного prompt-drift спайку економить €200-€800/місяць на SMB-масштабі
Перше тертя: вендори без metadata fields змушують tagging на стороні застосунку
Champions кажуть, що метрику найлегше захищати перед фінансово-скептичним CFO
Перше governance-питання: "Хто редагує production prompt?" — майже завжди забагато людей
Індикатор адаптації: тижневий CPT review в ops-календарі до тижня 2
Індикатор економії часу: діагностика вартості падає з 1 дня на спайк до 30 хв після інтерналізації checklist

Micro-case (what changes after 7-14 days)

Services-фірма на 150 осіб запустила щотижневий cost-per-task трекінг на трьох найвищих за обсягом workflows у тиждень 1. За п'ять днів CPT customer support triage стрибнув з €0,18 до €0,41 — спайк 130%. Champion провів checklist розслідування, знайшов, що marketing-comms додав параграф "будь більш empathic" до system prompt три дні тому, і відкатив; CPT повернувся до €0,19 до дня 10. CPT marketing copy workflow повзав +35% за два тижні, що простежилось до dataset growth (новий каталог потроїв retrieval chunks); закапили retrieval на top-5, CPT влаштувався на €0,22 — трохи вище baseline, але виправдано більшим контекстом. Річна економія від двох інтервенцій: близько €9,000. Місячний invoice ще не прийшов, коли обидва зловили.

Note on this case: This example is illustrative — based on typical patterns we observe with companies of 30-500 employees, not a single named client. Specific numbers are rounded approximations of common ranges, not guarantees.

Tool tip (Course for Business): Shoulder-to-Shoulder hot seat у нашій 6-week program збудований саме під такі операційні метрики — Champion сидить з ops lead годину, налаштовує workflow tagging у vendor SDK, рахує перший baseline і конфігурує alert threshold. Augment, don't replace означає, що cost-per-task розслідування лишаються з Champion і ops lead, не аутсорсяться вендорам, які не мають стимулу знижувати ваші витрати. Забронюйте 30-хв дзвінок: https://course.aiadvisoryboard.me/business.

FAQ

Чи потрібна окрема analytics-платформа? Ні. На SMB-масштабі shared spreadsheet, що тягне з vendor usage CSV, плюс workflow_id у застосунку — досить. Спеціалізовані AI-observability платформи мають сенс, коли трекаєте >10 workflows або мультипровайдерні впровадження.

Що, якщо вендор тарифікує per call, не per token? Та сама метрика, інший знаменник. Per-call pricing насправді спрощує: тижневий total ÷ tasks = CPT. Причини спайків ті самі.

Чи ділитися cost-per-task із командою, що будує агентів? Так, з застереженням. Зробити видимим, не роблячи performance-метрикою для індивідів. Мета — швидка діагностика, не звинувачення. Champions, які володіють метрикою, самі пропонують діагноз, як побачать дані.

Як це поєднується з board-defense AI-бюджету? Cost-per-task — це unit-economics цифра, яка живить board-level payback period і total-spend слайд. Без неї ваш захист — просто місячні totals поділені на tasks, що Gartner називає прорахунком на 1000%.

Висновок

Місячний invoice — підтвердження рішень, що вже прийняті. Тижневий cost-per-task review — саме рішення. Команди, чиї AI-витрати лишаються передбачуваними — це ті, чиї Champions володіють метрикою, тригерять спайк і відкатують prompt до того, як CFO побачить рядок.

Виберіть три найбільш об'ємні AI workflows. Затегайте. Порахуйте 4-тижневий baseline. Запустіть 15-хвилинний weekly review з наступного понеділка.

Якщо хочете, щоб кожен співробітник запустив свою першу AI-автоматизацію за п'ять днів — забронюйте 30-хв дзвінок: https://course.aiadvisoryboard.me/business.

AI cost-per-task: операційна метрика для щотижневого моніторингу

Коротко

Чому місячні token-звіти занадто грубі?

Що рахується "задачею"?

Як рахувати?

Що каже спайк?

Як це виглядає на практиці?

Team scan (what AI champions report after week 1)

Micro-case (what changes after 7-14 days)

FAQ

Висновок

Часті питання

Перші 3 AI-автоматизації у вашій компанії — за 2 тижні

Нові розбори впровадження AI — вам на пошту

Читайте також

Multi-team scheduling з AI: кінець календарного Tetris

Фінальний етап впровадження ШІ (дні 61–90): Стандартизувати або зупинити

Перші 30 днів впровадження ШІ: Спринт закладання фундаменту