AI-навчання, тиждень 3: Copilot vs ChatGPT vs Claude

Найбільша помилка, яку я бачу у власників SMB на тижні 3, — дозволити IT-відділу обрати AI-інструмент. Поки IT обирає, use case, які команда зафіксувала на тижні 2, уже охолонули, і інструмент формується під procurement-смаки, а не під роботу.

Чому tool deep-dive має бути саме на тижні 3

Раніше за тиждень 3 команда ще не має реальних use case для бенчмарку — будете тестувати на іграшкових промптах. Пізніше за тиждень 3 — звички з випадково обраним інструментом уже сформовані, і вартість переходу різко росте.

Stanford "77% rule" показав, що більшість AI-роботи в організаціях — невидима, неофіційна, на особистих акаунтах. До тижня 3 ваші співробітники з великою ймовірністю вже неофіційно користуються одним інструментом. Структурована лабораторія — найменш конфліктний спосіб витягти цю реальність на світло і конвертувати в обґрунтовану стандартизацію. Альтернатива — IT випускає memo — дає compliance-театр і подальший shadow-use. Близько 46% співробітників за останніми опитуваннями зізнавалися, що вставляли конфіденційні дані у публічні AI. Тиждень 3 — це шанс полагодити це за згодою, а не загрозами.

Визначення: Tool deep-dive — структуроване порівняння 2-4 AI-інструментів на одних і тих самих промптах, оцінене за якістю output, латентністю, інтеграцією і ризиком для ваших конкретних воркфлоу.

Що насправді має містити тиждень 3

Робоча структура:

Понеділок — 60-хвилинний кікоф лабораторії. Recap беклогу тижня 2. Видача lab-пакету (промпти + рубрика).
Вівторок/середа — асинхронний час лабораторії (90 хв на людину). Прогнати ті самі 3-5 промптів у Copilot, ChatGPT і Claude. Зафіксувати output.
Четвер — 90-хвилинний рольовий debrief. Кожен role-track звіряє нотатки і обирає основний інструмент + резервний.
Пʼятниця — 45-хвилинний readout по компанії. Чемпіони презентують рольові рекомендації. Засновник схвалює або вето.

Три інструменти — правильна кількість. Два — занадто вузько; чотири перетворює тиждень на турнір.

Визначення: Скоринг-рубрика — фіксований набір осей (якість output, легкість редагування, інтеграція з існуючими системами, придатність для роботи з даними), за якими порівнюють інструменти, не сперечаючись на емоціях.

Lab-пакет (бери і використовуй)

Це рубрика, яку я даю засновникам, які проводять тиждень 3 особисто.

Для кожного промпту прогнати у Copilot, ChatGPT і Claude.
Оцінити по 1-5 за кожною віссю. Одне речення про "чому".

Вісь 1 — Якість output (1=непридатно, 5=ship-ready з першої спроби)
Вісь 2 — Легкість редагування (1=б'ється з кожним правом, 5=добре приймає правки)
Вісь 3 — Інтеграція (1=тільки copy-paste, 5=живе всередині мого воркфлоу)
Вісь 4 — Дані (1=не можу використовувати для своєї роботи, 5=повністю санкціонований)
Вісь 5 — Швидкість (1=>30с, 5=менше 5с)

Сума = total. Більше — кращий fit ДЛЯ ЦЬОГО ПРОМПТУ, ДЛЯ ВАШОЇ РОЛІ.
Інша роль = інший переможець. У цьому суть.

Пʼять промптів на role-track. Чемпіони пишуть промпти заздалегідь, спираючись на committed use case з тижня 2. Не давайте співробітникам писати промпти у моменті — це вносить занадто багато шуму у порівняння.

Tool tip (Course for Business): Це працює тому, що Augment, don't replace живе на рівні промпту, а не на рівні інструменту. "Хороший" інструмент для маркетингового копірайту може бути жахливим для variance-аналізу. Сенс тижня 3 не у коронації одного інструменту — а у тому, щоб дати кожному role-track судження вибирати правильний інструмент під задачу. 6-week program на https://course.aiadvisoryboard.me/business тримає тиждень 3 саме як пʼять рольових промптів × три інструменти, бо немає одного відповіді для всієї компанії. (Course for Business)

Що зазвичай витягує deep-dive

Патерни, які повторюються в когортах компаній 30-500 людей:

Copilot перемагає, коли use case закріплений в Office (variance в Excel, redlines у Word, drafts відповідей в Outlook) — глибина інтеграції б'є чисту якість output.
ChatGPT перемагає для загального drafting, brainstorming і одноразових research-завдань — широке охоплення, велика екосистема, швидка ітерація.
Claude перемагає для синтезу довгих документів, обережного reasoning і клієнт-facing-копірайту, де важить тон, — output зазвичай потребує менше правок.

Це не закони. Це стартові гіпотези, які ваша лабораторія підтвердить або зламає.

Хороші vs погані результати тижня 3

Поганий результат: "Ми обрали ChatGPT Enterprise, бо в IT був контракт." Хороший результат: "Sales — ChatGPT для outbound, Finance — Copilot для variance, CS — Claude для перших відповідей. Чемпіони володіють обґрунтуванням по своїй ролі."

Поганий результат: "60-сторінкова tooling-оцінка без рішень." Хороший результат: "Двосторінкове memo на трек: основний інструмент, fallback, три приклади промптів, відповідальний."

Хороші версії дають рішення під роль, а не загальний стандарт.

Team scan (що чемпіони доповідають після тижня 3)

У більшості когорт жоден інструмент не перемагає у всіх пʼяти треках; ~3-4 треки діляться між двома, один — outlier на третьому.
Найбільший сюрприз — наскільки добре Copilot працює на Office-anchored воркфлоу, де ChatGPT без плагінів програє.
Privacy/data-handling вбиває більше кандидатів у тижні 3, ніж якість output. Якщо інструмент не санкціонований для ваших даних — він поза грою.
Завдання довгих документів (50+ сторінок) — там Claude видимо вривається наперед у більшості когорт.
Латентність важить менше, ніж люди прогнозували до лабораторії — лише один трек зазвичай обирає інструмент A над B через швидкість.
Інтеграція ("чи живе всередині воркфлоу?") виявляється віссю з найбільшою фактичною вагою, як би ви її не зважували у понеділок.
Чемпіони повідомляють: формат лабораторії конвертує shadow-AI-користувачів у чемпіонів санкціонованого інструменту швидше за будь-яке policy-memo.
Близько 1 з 4 співробітників міняє свій улюблений інструмент після лабораторії — зазвичай тому, що виявляє: воркфлоу — Office-anchored, а вони були не на тому інструменті.
Лабораторія також витягує 1-2 інструменти, яких ніхто не розглядав (Perplexity для research, Gemini для Workspace) — фіксуйте, але не додавайте у scope.
Ціна за seat майже ніколи не вирішує; перемагають якість output і інтеграція.

Micro-case (що змінюється за 7-14 днів)

Сервісна фірма на 240 людей провела тиждень 3 у пʼятьох треках. Прийшли з припущенням "стандартизуємось на ChatGPT Enterprise". Лабораторія зламала припущення: Finance і HR з великим відривом обрали Copilot для своїх воркфлоу; Marketing і CS — Claude для tone-sensitive drafts; Sales залишився на ChatGPT через швидкість outbound. Підписали два контракти (ChatGPT + Copilot) замість одного — але кожен трек мав чіткий чемпіон-обґрунтований вибір, і shadow-tool-use впав за два тижні. До дня 14 head of IT, який лобіював single-tool, визнав, що per-role розділ був правильним рішенням. Для контрасту — peer-фірма зверху накинула single-tool-стандарт: за 7 місяців внутрішні опитування показали, що приблизно 40% співробітників все ще вставляють роботу у інший інструмент неофіційно.

Note on this case: This example is illustrative — based on typical patterns we observe with companies of 30-500 employees, not a single named client. Specific numbers are rounded approximations of common ranges, not guarantees.

Tool tip (Course for Business): Найменш використана частина тижня 3 — Shoulder-to-Shoulder debrief: парування співробітника, який поставив A найвище, з тим, хто поставив B найвище, і спостереження, як вони захищають свій вибір. Пʼять хвилин такої дискусії передають більше судження, ніж будь-яка tooling-матриця. 6-week program на https://course.aiadvisoryboard.me/business вбудовує цю дискусію у четверговий рольовий розбір — за дизайном. (Course for Business)

FAQ

Чи додавати Gemini, Perplexity або спеціалізовані інструменти? Зафіксуйте, не додавайте. Три інструменти — це те, що поміщається в тиждень без розбавлення лабораторії. Спеціалізовані (Perplexity для research, Harvey для legal) — фокус-side-track на тиждень 5 або 6.

Що, якщо IT уже підписала контракт з одним провайдером? Все одно проведіть лабораторію. Підсумок — рольові рекомендації. Якщо 4 з 5 треків обирають контрактний інструмент — контракт валідовано. Якщо 4 з 5 — інший — у вас leverage і докази для перемов.

Чи потрібні формальні MSA/DPA до того, як співробітники тестують? Для тестів по даним — так, реальні дані бачать тільки санкціоновані інструменти. Для нечутливих промптів — sandboxed-акаунти ок. Чемпіони слідкують за цим у lab-пакеті.

Що, якщо трек не може домовитися? Розрив у скорі менше 10%? Обираємо за інтеграцією (вісь 3). Це вісь, що накопичується у тижнях 4-6. (У нас окремо є advisory-продукт для щоденного менеджменту розкатки, але це інша розмова.)

Який failure mode тижня 3? Дозволити лабораторії стати tooling-дебатом замість рішення по use case. Чемпіони мають перемикати: "що твій промпт згенерував, у твоєму інструменті, на твоєму воркфлоу?" — не "який інструмент кращий взагалі".

Висновок

Тиждень 3 — тиждень калібрування. Команда вчить, що правильний AI-інструмент — функція ролі, воркфлоу і даних, а не загальнокомпанійний стандарт. Пʼять промптів, три інструменти, чесний скоринг. Чемпіони володіють memo на роль. Output — судження, а не procurement.

Наступний крок: зафіксувати lab-пакет (5 промптів × 5 осей на трек) до понеділкового кікофу.

Якщо хочете, щоб кожен співробітник запустив свою першу AI-автоматизацію за пʼять днів, — забронюйте 30-хвилинний дзвінок, і ми спланувели перший тиждень для вашої команди: https://course.aiadvisoryboard.me/business

AI-навчання, тиждень 3: глибокий розбір інструментів (лабораторія Copilot/ChatGPT/Claude)

Коротко

Чому tool deep-dive має бути саме на тижні 3

Що насправді має містити тиждень 3

Lab-пакет (бери і використовуй)

Що зазвичай витягує deep-dive

Хороші vs погані результати тижня 3

Team scan (що чемпіони доповідають після тижня 3)

Micro-case (що змінюється за 7-14 днів)

FAQ

Висновок

Часті питання

Готові трансформувати робочий процес команди?

Отримуйте щотижневі поради з управління командою

Читайте також

JCB досяг 83% місячного adoption Copilot — що вони зробили інакше

Huber+Suhner вийшов на 99% adoption AI-пілоту — playbook

AI-навчання, тиждень 6: чемпіони та фінальні проєкти