Як оцінювати AI-тренінг: 4 метрики реального skill-transfer

Як оцінювати AI-тренінг: 4 метрики реального skill-transfer

29.05.20264 переглядів8 хв читання

Коротко

  • Completion-відсотки доводять відвідуваність, а не скіл. Це vanity-метрики тренінгових програм.
  • Реальна оцінка потребує чотирьох метрик: pre/post практика, 30-day usage, peer-review output, manager-observed behavior change.
  • Якщо ви не можете виміряти всі чотири — ви не можете претендувати на ROI з training-витрат.

Коли COO логістичної компанії на 200 людей надіслала мені звіт про AI-тренінг із 94% completion, я задав одне питання: скільки з цих людей відкривали ChatGPT за останні сім днів? Вона не знала. Це вся проблема того, як SMB зараз оцінюють AI-тренінг.

Чому completion-відсоток здається метрикою?

Бо його легко звітувати і він робить усім приємно. Вендор поставив. L&D має цифру для board'у. CEO бачить 94% і припускає, що workforce тепер "AI-enabled". Через три тижні ніхто не може пояснити, чому в бізнесі нічого не змінилось.

Definition: Vanity metric — цифра, яку легко наростити і яка виглядає вражаюче, але не корелює з outcome'ом, який вам реально потрібен. Completion-відсоток — класичний приклад.

BCG 2025 AI Radar показує, що ~78% організацій задеплоїли AI, але тільки ~25% бачать meaningful value. Розрив між "ми навчили людей" і "бізнес змінився" — це невиміряна зона. Закрити її — потребує реальної оцінки.

Що нам каже Microsoft rollout Copilot на 300 000 співробітників?

Що тренінг без зміни поведінки гірший за відсутність тренінгу. Внутрішні дані Microsoft показали, що використання Copilot впало більш ніж на 80% за три тижні після rollout'у, коли тренінг був treatment-light. Completion був чудовий. Поведінкові цифри — катастрофа.

Definition: Skill transfer — реальна зміна в on-the-job поведінці, спричинена тренінгом. Відрізняється від learning (знаю, що робити) і completion (відвідав). Skill transfer — єдина річ, що дає бізнес-результати.

Чотири метрики нижче зроблені так, щоб skill transfer був вимірюваним. Жодна з них не потребує enterprise-софту. Усі працюють для 50 і 500 людей.

4 метрики реальної оцінки

Метрика 1 — Pre/post практичний task score

До тренінгу: кожен учасник здає один deliverable релевантний ролі, без AI. Після тренінгу: той самий учасник робить інший deliverable еквівалентної складності, з AI. Два рев'юери (один peer, один менеджер) оцінюють обидва наосліп по 5-criterion rubric.

Output: середня delta скору на учасника, по ролі, по когорті. Meaningful програма дає delta не менше 1.5 пункту на 10-бальній шкалі. Менше — тренінг не зрушив справу.

Метрика 2 — 30-day usage data

Через 30 днів після тренінгу витягнути tool-usage з кожної approved AI-платформи. Active users (5+ сесій/тиждень з мінімум одним substantive промптом) проти enrolled users. Робоча програма в 60-75%. Failed — нижче 30%.

Definition: Active user threshold — мінімальний usage-патерн, що показує, що інструмент став частиною workflow. Для AI 5+ сесій/тиждень з substantive prompts — defensible threshold.

Дані GitHub по Copilot показують, що при правильно структурованому тренінгу same-day activation досягає до ~96%. Activation без sustained usage — нічого не значить, тому міряємо на 30-й день, не на 1-й.

Метрика 3 — Peer-review output quality

Через 6 тижнів після тренінгу — sample 10 AI-assisted deliverables на когорту (random, не cherry-picked). Два рев'юери з іншої команди скорять кожен по 5-criterion rubric: correctness, clarity, fit for purpose, originality, time-to-finish.

Робоча програма дає output quality на рівні pre-training baseline або вище для тієї самої задачі. Failed — видно гірший output, який просто був зроблений швидше. Це найгірший можливий результат.

Метрика 4 — Manager-observed behavior change

Через 60 днів після тренінгу кожен лінійний менеджер заповнює 5-хвилинну observation-форму про кожного direct report: чи змінив ця людина свій підхід до [common task] за останні два місяці? Три варіанти: visible change, no change, unclear.

Цю метрику найлегше відкинути як soft — і вона найкраще передбачає довгостроковий ROI. Behavior change, спостережувана уважним менеджером, — найближче, що можна до реального skill transfer без інструментування кожного keystroke.

Tool tip (Course for Business): На 6-week програмі всі чотири метрики оцінки вбудовані by design — не додаються post-factum. Pre/post практика — у тижні 1 і 5. AI Champions (1:15-20) збирають 30-day usage зі своїх pod'ів. Peer-review sample — артефакт group retro в тижні 6. Shoulder-to-Shoulder час з менеджерами в тижні 4 готує 60-day observation-форму. Augment, don't replace формує і rubric: ми міряємо, чи AI допоміг людині зробити кращу роботу, а не чи AI зробив роботу за людину. Програма: https://course.aiadvisoryboard.me/business.

Copy/paste шаблон evaluation rubric

Це 5-criterion rubric, який ми використовуємо для pre/post і peer-review. Замініть task description і критерії стають переусовуваними.

AI TRAINING EVALUATION RUBRIC v1.0

Опис задачі: [напр., "Скласти customer-facing weekly status-email
для акаунту з risk of churn, з контекстом у вкладенні."]
Учасник: [анонімізовано]
Рев'юер: [ім'я]
Фаза: [ ] Pre-training  [ ] Post-training  [ ] 6-week peer review

КРИТЕРІЇ (score 0-2 кожен):

1. CORRECTNESS — Чи правильні факти, цифри, claims?
   0 = багато фактичних помилок
   1 = дрібні помилки
   2 = немає фактичних помилок

2. CLARITY — Чи writing структурований і легко читається?
   0 = плутана структура
   1 = в основному ясно
   2 = ясно і добре структуровано

3. FIT FOR PURPOSE — Чи дійсно виконує задачу для intended reader?
   0 = повз ціль
   1 = частково
   2 = напряму закриває потребу

4. ORIGINALITY — Domain context чи generic boilerplate?
   0 = очевидний AI-boilerplate
   1 = трохи context-specific
   2 = сильне domain-specific reasoning

5. TIME-TO-FINISH — Скільки часу зайняло?
   0 = довше за baseline
   1 = як baseline
   2 = значно швидше

TOTAL SCORE: __ / 10
ОДНЕ-РЕЧЕННЕВА ЗАУВАГА:

Два рев'юери. Не знають, pre це чи post. Розбіжності >1 пункту тригерять третього.

Хороші vs погані evaluation-ходи

Погано: "У нас 94% completion." Добре: "Pre/post score delta = +2.1 на 10-pt rubric, 68% active usage на 30-й день."

Погано: Один post-training опитник "Наскільки впевнено себе почуваєте з AI?" Добре: 60-day manager-observation, прив'язана до конкретної задачі.

Погано: Вибрати 3 success-stories для board-деки. Добре: Random sample 10 deliverables, blind-review.

Принцип: міряти те, що реально треба знати, а не те, що легше зібрати.

Team scan (what AI champions report after week 1)

  • ~90% training-програм оцінювали лише completion до введення 4-metric системи
  • Pre/post delta нижче +1.0 сильно корелює з 30-day usage нижче 30%
  • Один чемпіон на ~17 співробітників може координувати evaluation logistics для свого pod'у без burnout
  • Перший виграш: pre-training baseline показує, які задачі реально болючі — формує use-case пріоритети
  • Перший friction: менеджери спочатку опираються 60-day observation-формі — вирішено 5-хвилинним форматом
  • Найвища адопція в ролях, де pre/post delta найвидніша: маркетинг копі, sales email, customer support
  • Топ причина failed transfer (коли вимірюємо): немає protected time для AI-практики між тренінгом і metric-1 post-test
  • Перша governance-цінність: rubric стає company-wide стандартом "що таке добра робота"
  • Use case #1 у L&D-leads retro: "Нарешті цифра, яку можу захистити перед CFO"
  • Зекономлений час на pod з дій на metric-2 дані: ~6-8 годин/тиждень, sustained з 5-го тижня

Micro-case (what changes after 7-14 days)

Professional services фірма на 220 людей провела свою першу 6-week AI-програму в Q2. L&D раніше звітували 88% completion на 3-годинному онлайн-модулі від вендора. Коли нову програму оцінили по 4-метричній системі: pre/post delta в середньому +2.3 на 10-pt rubric, 30-day active usage 71%, peer-reviewed output quality на рівні чи вище pre-training baseline у 8 з 10 sample, і 52% менеджерів повідомили visible behavior change на 60-й день. CFO, що був скептичним до training-витрат після вендорського модуля без бізнес-impact'у, погодив другу когорту на основі metric-2 і metric-4 цифр.

Note on this case: This example is illustrative — based on typical patterns we observe with companies of 30-500 employees, not a single named client. Specific numbers are rounded approximations of common ranges, not guarantees.

Tool tip (Course for Business): Найважча частина 4-metric системи — дисципліна дочекатись 30 і 60 днів для метрик 2 і 4, перш ніж оголошувати успіх. У нашій 6-week програмі когорта не отримує graduation-сертифікат — вона отримує 60-day report card. Augment, don't replace формує коучинг менеджерів на observation-формі: ми просимо їх шукати моменти, де AI допоміг людині прийняти краще рішення, а не де AI прийняв рішення замість людини. AI Champions (1:15-20) — collection-шар метрик, тож L&D не тоне в admin-роботі. Mapping-дзвінок: https://course.aiadvisoryboard.me/business.

FAQ

А 30-day usage — це просто "чи залогінились"? Ні — тому active-user threshold (5+ сесій/тиждень з substantive prompts) важливий. Поодинокі логіни нічого не доводять. Sustained substantive use — leading indicator skill retention.

А якщо менеджери не можуть сказати, чи поведінка змінилась? "Unclear" варіант — це теж дані. Якщо 30%+ менеджерів не можуть сказати — це означає, що зміна недостатньо видима в daily workflow, що саме по собі finding. Або тренінг цілив не в ту задачу, або робоче середовище не виявляє зміну.

Як це пов'язано з BCG 10-20-70 правилом? BCG research показує, що AI value — це ~10% algorithms, 20% data/infra, 70% people/process. 4-metric система — це як ви міряєте 70%. Перші три метрики чіпляються за skill і behavior; четверта — за process change.

Чи можна оцінювати AI-training output за допомогою AI? Обережно. Використовувати frontier model як second-pass рев'юера для scaling peer-review — ок, але rubric scores мають ставити люди, і AI не має розв'язувати tie. Інакше оцінка стає self-referential.

А Kirkpatrick's 4 levels? 4-metric система чисто мапиться: pre/post практика = Level 2 (Learning), 30-day usage = Level 3 (Behavior), peer-review + manager observation = Level 3 і 4 (Results). Переклад в основному термінологічний; дисципліна та сама.

Висновок

Completion-відсоток — це театр. Він каже, хто прийшов на тренінг, а не хто може робити роботу після. 4-метрична система (pre/post практика, 30-day usage, peer-review output, manager-observed change) — мінімальний набір вимірювань, що реально доводить skill transfer.

Виберіть наступну когорту. Зафіксуйте pre-training baseline у тижні-один. Виміряйте всі чотири. Захистіть бюджет цифрами. Заріжте вендора, який провалив 30-day тест.

Якщо хочете, щоб кожен співробітник зашипив своє перше AI-автоматизування за п'ять днів — і поміряти, чи скіл залишився через 30 і 60 днів — забронюйте 30-хвилинний дзвінок, і ми зробимо мапу першого тижня вашої команди: https://course.aiadvisoryboard.me/business.

Часті питання

AI-рішення

Готові трансформувати робочий процес команди?

AI Advisory Board допомагає командам автоматизувати щоденні стендапи, запобігати вигоранню та приймати рішення на основі даних. Приєднуйтесь до сотень команд, які вже економлять 2+ години на тиждень.

Економія 2+ годин на тиждень
Покращення морального стану команди
Аналітика на основі даних
Newsletter

Отримуйте щотижневі поради з управління командою

Приєднуйтесь до 2,000+ лідерів, які отримують наші найкращі поради щодо продуктивності та запобігання вигоранню.

Без спаму. Відписатися можна будь-коли.