
Guardrails AI-агента: пре-лонч чек-ліст
Коротко
- •Guardrails — не "compliance-театр", а операційна відповідь на "чого агент НІКОЛИ не робить".
- •Вісім категорій покривають ~95% того, що йде не так: scope, дані, ідентичність, ескалація, аудит, kill-switch, регуляторика, увага людей.
- •Пропустити будь-яку — типовий шлях у MIT-івське "95% GenAI пілотів не доходять до ROI".
Якщо ви власник, який наступного тижня має дати "go" на AI-агента, найдешевша година цього місяця — та, в яку ви пройдете письмовий чек-ліст guardrails ДО запуску, а не після першого інциденту.
Що таке guardrail насправді?
Guardrail — письмове обмеження, забезпечене кодом або процесом, що окреслює, що агент може робити. "Агент має бути обережним з цінами" — не guardrail. "Агент ніколи не надсилає quote >€5K без схвалення sales lead" — guardrail.
Definition: Guardrail — детерміністичне, забезпечуване обмеження поведінки агента, що виконує конкретну дію (block, route, log, escalate) при спрацюванні.
Сенс — зробити "найгірший день" агента передбачуваним. Медіанну поведінку LLM ви не контролюєте; кордон того, що йому дозволено пробувати — так.
Пре-лонч чек-ліст із 8 категорій
Йдіть по порядку. Якщо відповідь розмита — це і є відсутній guardrail.
1. Scope
- Один воркфлоу, одне дієслово, один канал?
- Out-of-scope запити явно логуються і йдуть до людини?
- Є письмовий перелік "агент НІКОЛИ не робить ось ці 5 речей"?
2. Доступ до даних
- Які БД, файли, API агент читає?
- Куди може писати? (Дефолт — нікуди.)
- Є клас даних — confidential, PII, фінансові — позначений до доступу?
- Де зберігається input/output агента і як довго?
3. Identity & автентифікація
- Під чиїми credentials агент ходить? (Service account, не людина.)
- Дії агента відрізняються від людських у audit-log?
- Агенту заборонено діяти від імені клієнта, якого він не може автентифікувати?
4. Escalation
- Є 4-8 детерміністичних тригерів ескалації?
- Іменований primary owner + бекап на кожен?
- SLA на кожну ескалацію?
5. Аудит та observability
- Кожен input, який агент бачив, кожен output — логуються?
- Можна реконструювати будь-яке рішення постфактум?
- Тижневий рев'ю метрик у календарі?
6. Kill-switch
- Є env var або фіча-флаг, що вимикає агента <60с?
- Не-технічна людина знає як його смикнути?
- Тестували останні 30 днів?
7. Регуляторика та право
- Воркфлоу зачіпає резидентів ЄС (GDPR, AI Act)?
- Клієнтам розкрито, що це AI? (Дедалі більш обов'язково, і клієнти це віддають перевагу.)
- Перевірили проти high-risk категорій EU AI Act — штрафи до €35M або 7% глобального обороту за серйозні порушення.
8. Бюджет уваги людей
- Хто рев'ює агента в human-review гейті?
- Хто оновлює матрицю ескалації щомісяця?
- Час заблокований у календарі чи "знайдеться"?
Шаблон guardrail-маніфесту
Agent: [назва]
Owner: [іменована людина + backup]
Scope:
Does: [точні дії]
Does NOT: [3-5 явних заборон]
Data:
Reads: [джерела]
Writes: [список, дефолт пустий]
PII: [yes/no — якщо yes, retention + access policy]
Identity: [service account name, audit-log identifier]
Escalation: [link на матрицю, last-updated]
Audit:
Logging: [storage location, retention]
Review: [weekly/biweekly]
Kill-switch:
Mechanism: [env var / flag / endpoint]
Last tested: [date]
Documentation: [link]
Regulatory: [GDPR/AI Act/sector notes]
Disclosure to users: [точне формулювання]
Якщо не вдається підписати маніфест за 20 хв — агент не готовий.
Tool tip (AIAdvisoryBoard.me): Guardrails, написані "зсередини" (інженерна перспектива), пропускають саме ті патерни, які болять найбільше — ті, що команда знає лише руками. Запустіть 7-денний Plan → Fact → Gap на воркфлоу до підпису маніфесту. Plan — guardrails, які б ви написали зараз; Fact — реальні exception-патерни останніх 30-60 днів; Gap — рядок, який ви б інакше "винайшли" після інциденту. Як це показує діагностика — https://aiadvisoryboard.me/?lang=en.
Що SMB-власники типово пропускають
Три категорії пропускають частіше за інші:
- Identity & аудит. Власник вважає "система логує". Часто логуються запити, а не рішення. Після інциденту ніхто не пояснить, чому агент зробив те, що зробив.
- Тестування kill-switch. Флаг є в коді, але ніхто його не смикав 90 днів. Перший раз — у паніці, об 23:00, по застарілому ранбуку.
- Бюджет уваги людей. Час рев'юера трактують як "вільний overhead", а не бюджетну статтю. Коли рев'юер зайнятий — агент тихо дрейфує.
Як це поєднується з EU AI Act?
Акт класифікує AI-системи за ризиком. Більшість SMB-агентів (драфти support, внутрішній triage, контент-suggestion) — у "limited risk", але прозорість юзеру про взаємодію з AI обов'язкова. Високоризикові випадки (recruitment screening, credit decisions, biometric ID) — повний conformity assessment. Штрафи: до €35M або 7% глобального обороту. Документований guardrail-маніфест — добрий доказ governance: запишіть ДО запуску, не після того, як регулятор постукає.
Публічні privacy/training-data штрафи (Replika €5M Italy, Clearview €30.5M Нідерланди, OpenAI €15M Italy) нагадують, що guardrail на потоки даних не опціональний.
Manager scan (2-minute digest example)
- Plan: "У нас є guardrails — агент тільки support-пошта."
- Fact: "Тільки support-пошта" не забезпечено — агент має read-доступ до всієї скриньки, включно з legal CC.
- Gap: Scope-фільтр на рівні роутингу, не лише в промпті. Промпт — не guardrail.
- Plan: "Kill-switch — це фіча-флаг."
- Fact: Флаг є, але команда його змикання знає тільки один інженер, тестували 4 місяці тому.
- Gap: Задокументувати, навчити одну не-інженерну людину, dry-run щокварталу.
- Plan: "Розкриваємо клієнтам, що це AI."
- Fact: Розкриття у підписі листа 6pt сірим.
- Gap: Підняти у перший абзац драфтів. Юзери віддають перевагу прозорому AI над прихованим.
Tool tip #2 — guardrails як живий артефакт
Tool tip (AIAdvisoryBoard.me): Маніфест, підписаний раз і не перечитаний — просто папір. Команди, які уникають MIT-івського "95% fail" — ті, що раз на квартал переходять маніфест через Plan → Fact → Gap. Plan — маніфест минулого кварталу; Fact — що реально сталось: ескалації, правки, near-miss; Gap — guardrail, який мав би бути. Більшість історій "AI-агент пішов не туди" передбачувані ретроспективно — а передбачуване можна знаходити заздалегідь, з правильним рутином. Daily-management OS — https://aiadvisoryboard.me/?lang=en.
Micro-case (що змінюється за 7-14 днів)
Fintech на 110 людей проходить 8-категорійний чек-ліст перед запуском customer-onboarding агента. Знаходять три реальні прогалини: kill-switch не тестувався 6 місяців; identity guardrail дозволяв читати закриті акаунти; AI disclosure не видно достатньо для очікувань ЄС. Виправити все — близько 12 годин інженерного часу за тиждень. Агент іде в прод на 14-й день з документованим маніфестом, протестованим kill-switch і audit-trail. Через три тижні, коли регулятор запитує по іншому вендору, команда використовує той самий формат маніфесту і відповідає за 2 години замість 2 тижнів.
Note on this case: This example is illustrative — based on typical patterns we observe with companies of 30-500 employees, not a single named client. Specific numbers are rounded approximations of common ranges, not guarantees.
FAQ
Guardrails — це те саме, що system prompt? Ні. System prompt — підказка поведінки; guardrails — детерміністичні обмеження поза моделлю: на роутингу, на доступі до даних, на ескалації. Промпти не guardrails — LLM під тиском їх непослідовно дотримується.
Маленьким командам потрібні всі 8? Так — але кожна категорія може бути одним реченням. Дисципліна — мати відповідь, не мати 20-сторінковий документ.
А prompt injection? Реальна і зростаюча загроза в 2026. Будь-який юзерський текст — untrusted, тулзи у пісочниці, не давайте агенту тулзи, що йому не потрібні в декларованому воркфлоу. Маємо окремий гайд по injection.
Як це взаємодіє з human-review гейтом? Гейт перевіряє, що guardrails справді працюють на практиці. Не знімайте гейт, поки не побачили кожен guardrail спрацьованим хоча б раз на реальному (не синтетичному) input.
А якщо агент "low-stakes" і внутрішній? Все одно потрібні scope, data, kill-switch, audit. Escalation легша. Identity і регуляторика залишаються, якщо агент торкається даних співробітників.
Що зробити цього тижня
Роздрукуйте 8-категорійний чек-ліст, сядьте з інженером і власником воркфлоу, пройдіть рядок за рядком для агента, найближчого до запуску. Кожна розмита відповідь — guardrail, який треба написати. Вправа займає ~2 години і захищає від інциденту, що стає предметом board-обговорення.
Якщо хочете систему, що щодня показує Plan → Fact → Gap по компанії — подивіться, як працює 7-денна діагностика: https://aiadvisoryboard.me/?lang=en
Часті питання
Готові трансформувати робочий процес команди?
AI Advisory Board допомагає командам автоматизувати щоденні стендапи, запобігати вигоранню та приймати рішення на основі даних. Приєднуйтесь до сотень команд, які вже економлять 2+ години на тиждень.
Отримуйте щотижневі поради з управління командою
Приєднуйтесь до 2,000+ лідерів, які отримують наші найкращі поради щодо продуктивності та запобігання вигоранню.
Без спаму. Відписатися можна будь-коли.
Читайте також

Перший AI-агент: з якого workflow починати
Більшість засновників SMB обирають не того першого AI-агента і витрачають 3 місяці на ефектний use case, який ніколи не доходить до прод. Ось з чого варто починати насправді.
Читати
AI-навчання, тиждень 5: ризик і Responsible AI (на кейсах)
Тиждень 5 шеститижневої корпоративної AI-програми про ризик: кейс-сесія Responsible AI на матеріалі Klarna, Builder.ai, штрафів за EU AI Act і shadow-AI.
Читати
AI-агенти: коли НЕ варто впроваджувати (5 кейсів)
Більшість провалів AI-агентів — не технічні. Це workflow, які не мали ставати агентами з самого початку. Ось п'ять випадків, де агент тільки шкодить.
Читати