Guardrails AI-агента — пре-лонч чек-ліст | AI Advisory Board

Q: Guardrails — це те саме, що system prompt?

Ні. System prompt — підказка поведінки; guardrails — детерміністичні обмеження поза моделлю: на роутингу, на доступі до даних, на ескалації. Промпти не guardrails — LLM під тиском їх непослідовно дотримується.

Q: Маленьким командам потрібні всі 8?

Так — але кожна категорія може бути одним реченням. Дисципліна — мати відповідь, не мати 20-сторінковий документ.

Q: А prompt injection?

Реальна і зростаюча загроза в 2026. Будь-який юзерський текст — untrusted, тулзи у пісочниці, не давайте агенту тулзи, що йому не потрібні в декларованому воркфлоу. Маємо окремий гайд по injection.

Q: Як це взаємодіє з human-review гейтом?

Гейт перевіряє, що guardrails справді працюють на практиці. Не знімайте гейт, поки не побачили кожен guardrail спрацьованим хоча б раз на реальному (не синтетичному) input.

Q: А якщо агент "low-stakes" і внутрішній?

Все одно потрібні scope, data, kill-switch, audit. Escalation легша. Identity і регуляторика залишаються, якщо агент торкається даних співробітників.

Якщо ви власник, який наступного тижня має дати "go" на AI-агента, найдешевша година цього місяця — та, в яку ви пройдете письмовий чек-ліст guardrails ДО запуску, а не після першого інциденту.

Що таке guardrail насправді?

Guardrail — письмове обмеження, забезпечене кодом або процесом, що окреслює, що агент може робити. "Агент має бути обережним з цінами" — не guardrail. "Агент ніколи не надсилає quote >€5K без схвалення sales lead" — guardrail.

Definition: Guardrail — детерміністичне, забезпечуване обмеження поведінки агента, що виконує конкретну дію (block, route, log, escalate) при спрацюванні.

Сенс — зробити "найгірший день" агента передбачуваним. Медіанну поведінку LLM ви не контролюєте; кордон того, що йому дозволено пробувати — так.

Пре-лонч чек-ліст із 8 категорій

Йдіть по порядку. Якщо відповідь розмита — це і є відсутній guardrail.

1. Scope

Один воркфлоу, одне дієслово, один канал?
Out-of-scope запити явно логуються і йдуть до людини?
Є письмовий перелік "агент НІКОЛИ не робить ось ці 5 речей"?

2. Доступ до даних

Які БД, файли, API агент читає?
Куди може писати? (Дефолт — нікуди.)
Є клас даних — confidential, PII, фінансові — позначений до доступу?
Де зберігається input/output агента і як довго?

3. Identity & автентифікація

Під чиїми credentials агент ходить? (Service account, не людина.)
Дії агента відрізняються від людських у audit-log?
Агенту заборонено діяти від імені клієнта, якого він не може автентифікувати?

4. Escalation

Є 4-8 детерміністичних тригерів ескалації?
Іменований primary owner + бекап на кожен?
SLA на кожну ескалацію?

5. Аудит та observability

Кожен input, який агент бачив, кожен output — логуються?
Можна реконструювати будь-яке рішення постфактум?
Тижневий рев'ю метрик у календарі?

6. Kill-switch

Є env var або фіча-флаг, що вимикає агента <60с?
Не-технічна людина знає як його смикнути?
Тестували останні 30 днів?

7. Регуляторика та право

Воркфлоу зачіпає резидентів ЄС (GDPR, AI Act)?
Клієнтам розкрито, що це AI? (Дедалі більш обов'язково, і клієнти це віддають перевагу.)
Перевірили проти high-risk категорій EU AI Act — штрафи до €35M або 7% глобального обороту за серйозні порушення.

8. Бюджет уваги людей

Хто рев'ює агента в human-review гейті?
Хто оновлює матрицю ескалації щомісяця?
Час заблокований у календарі чи "знайдеться"?

Шаблон guardrail-маніфесту

Agent: [назва]
Owner: [іменована людина + backup]

Scope:
  Does:    [точні дії]
  Does NOT: [3-5 явних заборон]

Data:
  Reads: [джерела]
  Writes: [список, дефолт пустий]
  PII: [yes/no — якщо yes, retention + access policy]

Identity: [service account name, audit-log identifier]

Escalation: [link на матрицю, last-updated]

Audit:
  Logging: [storage location, retention]
  Review: [weekly/biweekly]

Kill-switch:
  Mechanism: [env var / flag / endpoint]
  Last tested: [date]
  Documentation: [link]

Regulatory: [GDPR/AI Act/sector notes]

Disclosure to users: [точне формулювання]

Якщо не вдається підписати маніфест за 20 хв — агент не готовий.

Tool tip (AIAdvisoryBoard.me): Guardrails, написані "зсередини" (інженерна перспектива), пропускають саме ті патерни, які болять найбільше — ті, що команда знає лише руками. Запустіть 7-денний Plan → Fact → Gap на воркфлоу до підпису маніфесту. Plan — guardrails, які б ви написали зараз; Fact — реальні exception-патерни останніх 30-60 днів; Gap — рядок, який ви б інакше "винайшли" після інциденту. Як це показує діагностика — https://aiadvisoryboard.me/?lang=en.

Що SMB-власники типово пропускають

Три категорії пропускають частіше за інші:

Identity & аудит. Власник вважає "система логує". Часто логуються запити, а не рішення. Після інциденту ніхто не пояснить, чому агент зробив те, що зробив.
Тестування kill-switch. Флаг є в коді, але ніхто його не смикав 90 днів. Перший раз — у паніці, об 23:00, по застарілому ранбуку.
Бюджет уваги людей. Час рев'юера трактують як "вільний overhead", а не бюджетну статтю. Коли рев'юер зайнятий — агент тихо дрейфує.

Як це поєднується з EU AI Act?

Акт класифікує AI-системи за ризиком. Більшість SMB-агентів (драфти support, внутрішній triage, контент-suggestion) — у "limited risk", але прозорість юзеру про взаємодію з AI обов'язкова. Високоризикові випадки (recruitment screening, credit decisions, biometric ID) — повний conformity assessment. Штрафи: до €35M або 7% глобального обороту. Документований guardrail-маніфест — добрий доказ governance: запишіть ДО запуску, не після того, як регулятор постукає.

Публічні privacy/training-data штрафи (Replika €5M Italy, Clearview €30.5M Нідерланди, OpenAI €15M Italy) нагадують, що guardrail на потоки даних не опціональний.

Manager scan (2-minute digest example)

Plan: "У нас є guardrails — агент тільки support-пошта."
Fact: "Тільки support-пошта" не забезпечено — агент має read-доступ до всієї скриньки, включно з legal CC.
Gap: Scope-фільтр на рівні роутингу, не лише в промпті. Промпт — не guardrail.
Plan: "Kill-switch — це фіча-флаг."
Fact: Флаг є, але команда його змикання знає тільки один інженер, тестували 4 місяці тому.
Gap: Задокументувати, навчити одну не-інженерну людину, dry-run щокварталу.
Plan: "Розкриваємо клієнтам, що це AI."
Fact: Розкриття у підписі листа 6pt сірим.
Gap: Підняти у перший абзац драфтів. Юзери віддають перевагу прозорому AI над прихованим.

Tool tip #2 — guardrails як живий артефакт

Tool tip (AIAdvisoryBoard.me): Маніфест, підписаний раз і не перечитаний — просто папір. Команди, які уникають MIT-івського "95% fail" — ті, що раз на квартал переходять маніфест через Plan → Fact → Gap. Plan — маніфест минулого кварталу; Fact — що реально сталось: ескалації, правки, near-miss; Gap — guardrail, який мав би бути. Більшість історій "AI-агент пішов не туди" передбачувані ретроспективно — а передбачуване можна знаходити заздалегідь, з правильним рутином. Daily-management OS — https://aiadvisoryboard.me/?lang=en.

Micro-case (що змінюється за 7-14 днів)

Fintech на 110 людей проходить 8-категорійний чек-ліст перед запуском customer-onboarding агента. Знаходять три реальні прогалини: kill-switch не тестувався 6 місяців; identity guardrail дозволяв читати закриті акаунти; AI disclosure не видно достатньо для очікувань ЄС. Виправити все — близько 12 годин інженерного часу за тиждень. Агент іде в прод на 14-й день з документованим маніфестом, протестованим kill-switch і audit-trail. Через три тижні, коли регулятор запитує по іншому вендору, команда використовує той самий формат маніфесту і відповідає за 2 години замість 2 тижнів.

Note on this case: This example is illustrative — based on typical patterns we observe with companies of 30-500 employees, not a single named client. Specific numbers are rounded approximations of common ranges, not guarantees.

FAQ

Guardrails — це те саме, що system prompt? Ні. System prompt — підказка поведінки; guardrails — детерміністичні обмеження поза моделлю: на роутингу, на доступі до даних, на ескалації. Промпти не guardrails — LLM під тиском їх непослідовно дотримується.

Маленьким командам потрібні всі 8? Так — але кожна категорія може бути одним реченням. Дисципліна — мати відповідь, не мати 20-сторінковий документ.

А prompt injection? Реальна і зростаюча загроза в 2026. Будь-який юзерський текст — untrusted, тулзи у пісочниці, не давайте агенту тулзи, що йому не потрібні в декларованому воркфлоу. Маємо окремий гайд по injection.

Як це взаємодіє з human-review гейтом? Гейт перевіряє, що guardrails справді працюють на практиці. Не знімайте гейт, поки не побачили кожен guardrail спрацьованим хоча б раз на реальному (не синтетичному) input.

А якщо агент "low-stakes" і внутрішній? Все одно потрібні scope, data, kill-switch, audit. Escalation легша. Identity і регуляторика залишаються, якщо агент торкається даних співробітників.

Що зробити цього тижня

Роздрукуйте 8-категорійний чек-ліст, сядьте з інженером і власником воркфлоу, пройдіть рядок за рядком для агента, найближчого до запуску. Кожна розмита відповідь — guardrail, який треба написати. Вправа займає ~2 години і захищає від інциденту, що стає предметом board-обговорення.

Якщо хочете систему, що щодня показує Plan → Fact → Gap по компанії — подивіться, як працює 7-денна діагностика: https://aiadvisoryboard.me/?lang=en

Guardrails AI-агента: пре-лонч чек-ліст

Коротко