2025 HARVARD BUSINESS REVIEW РОССИЯ · АПРЕЛЬ

ИИ в клиентском сервисе: от пилота к масштабированию

Авторы В. Шадринцев, А. Ринц

Раздел Цифровая трансформация

Формат Практический разбор

Объём 14 стр.

По нашим данным, около 70% пилотов искусственного интеллекта в клиентском сервисе российских компаний показывают сильные результаты — и только 18% доходят до production-внедрения с сохранением экономики. Разрыв возникает не на уровне модели, а на уровне процесса, данных и организации. В статье мы разбираем пять типов задач, где ИИ даёт измеримый эффект, четыре причины провала масштабирования и чек-лист готовности компании.

«Мы показали в пилоте сокращение времени обработки на 42%, а через год после внедрения метрика выросла на 6%. Что мы сделали неправильно?» — этот вопрос мы слышим в разных вариантах от руководителей служб клиентского сервиса в банках, телекоме, ритейле и государственных сервисах. Парадокс настолько распространён, что приобрёл собственное имя — «pilot-to-production gap».

В этой статье мы опираемся на 13 проектов внедрения ИИ в клиентский сервис, которые наша команда сопровождала или аудировала за 2022–2024 годы — в банках (3), телекоме (2), B2C e-commerce (4), государственных МФЦ (2) и промышленности (2). Цель — дать практическое руководство для CTO, директоров по операциям и руководителей CX, которые хотят перевести ИИ из состояния «успешный пилот» в состояние «работающая инфраструктура».

Где ИИ уже работает: пять типов задач

За последние три года в клиентском сервисе российских компаний выкристаллизовался узкий, но надёжный список задач, где ИИ даёт устойчивый положительный результат. Перечислим их по убыванию зрелости.

Маршрутизация обращений. Классификация входящего обращения по тематике и приоритету, направление в нужный канал/команду. Зрелая задача, точность 88–94% в production. Сокращает первичное время реакции на 30–45%.
Ответы на типовые вопросы (FAQ‑агенты). Чат-бот, отвечающий на вопросы из ограниченного домена (баланс, статус заказа, условия тарифа). Контейнерные или LLM-системы. При правильной настройке закрывают 35–60% обращений без участия оператора.
Сопроводительная помощь оператору (agent assist / copilot). Подсказки в реальном времени: формулировка ответа, выдержки из документов, рекомендованные действия. Снижают среднее время обработки (AHT) на 15–25% без изменения CSAT.
Анализ настроения и эскалация. Детектирование риска оттока или жалобы во время разговора, своевременная передача супервайзеру. Снижает долю клиентов, поднимающих обращение в официальные жалобы, на 20–35%.
Голосовые агенты. Полностью автоматизированные исходящие/входящие голосовые звонки для типовых сценариев (напоминание, опрос, простая транзакция). Зрелость ниже — только в узких и тщательно подготовленных доменах. CSAT голосовых ботов всё ещё на 15–20% ниже, чем у живых операторов в аналогичных сценариях.

Российский рынок впереди многих европейских по применению ИИ в клиентском сервисе. По данным «Сбера», 86% обращений в «СберАссистент» в 2024 г. закрывались автоматически или частично автоматически [1]. «Тинькофф» сообщает, что 80% обращений первой линии обрабатывает «Олег» без участия оператора. У «Яндекс Маркета» доля автоматизированных ответов в поддержке выросла с 26% в 2022 г. до 65% в 2024 г. [2]

«Хорошая модель — это 20% результата. Остальные 80% — это данные, процесс, метрики и готовность команды». — ИЗ НАШЕЙ ВНУТРЕННЕЙ МЕТОДИЧКИ ПО AI-ВНЕДРЕНИЮ

Почему пилоты не масштабируются: четыре системных причины

1. Фрагментация данных

Пилот обычно проводится на тщательно подготовленной выборке: 5 000–20 000 размеченных обращений из одного канала, за один период, с консистентной меткой. На этом наборе модель показывает 92% точности.

В production система получает данные из 5–7 каналов (звонок, веб-чат, мобильный чат, email, мессенджеры, голосовой ассистент в приложении), у каждого — своя структура полей, разный уровень предобработки, разная исторически принятая разметка. Точность в production падает до 73–81%. Чтобы вернуть её к уровню пилота, требуется централизованное хранилище обращений с единой схемой — а это инфраструктурная инвестиция, которая часто не была заложена.

2. Разрыв между моделью и операционным процессом

Пилот часто запускается «параллельно» — модель выдаёт рекомендации, но решение принимает оператор по-прежнему вручную. Это создаёт впечатление работающей модели, потому что метрики измеряются на её выходе, а не на конечном результате обращения.

В production модель встроена в операционный процесс: её вывод определяет действия дальше. Если процесс не адаптирован — ошибки модели приводят к потерянным обращениям, неверной маршрутизации, недовольным клиентам. Это требует пересмотра не только модели, но и каждого следующего шага: SLA, скриптов операторов, эскалационных процедур.

3. Change management в линии поддержки

Операторы, чья работа меняется, реагируют закономерно: либо саботируют (систематически кликают «не помогло» на подсказки модели, чтобы метрики ухудшились), либо паникуют (видят в ИИ угрозу увольнения). В трёх из тринадцати наших проектов ключевым риском был не технический, а человеческий.

Лучшие практики, которые мы наблюдали:

Прозрачное объявление: «ИИ не заменит вас, но возьмёт самые рутинные задачи. Это позволит вам заниматься тем, что требует человека».
Включение операторов в команду размечающих и валидаторов модели — с дополнительной оплатой за это.
Прозрачные KPI: подсчёт того, сколько обращений было успешно закрыто оператором с помощью copilot, и вознаграждение за это.

4. Несостыковка KPI

Классический пример: пилот замеряет AHT (среднее время обработки) и показывает снижение на 30%. Но в production главным KPI остаётся CSAT (удовлетворённость клиента). Падение AHT за счёт чрезмерно лаконичных ответов модели приводит к падению CSAT, и через 2–3 месяца руководство откатывает решение.

Внедрение ИИ всегда сдвигает баланс KPI — это нужно проектировать заранее. Хороший подход: ввести композитный KPI «Customer Effort Score × Resolution Rate / AHT», который не позволит оптимизировать одну метрику в ущерб другим.

Пилот всегда показывает лучше, чем production. Не потому что модель плохая — потому что пилот замеряет другую систему.

Четыре принципа удачного масштабирования

Принцип 1. Готовить инфраструктуру до модели

Самый сильный предиктор успеха в нашей выборке — наличие в компании единого хранилища обращений с консистентной схемой до начала пилота. Если такого хранилища нет — первый этап работы не модель, а оно. Стоимость инфраструктуры обычно сопоставима со стоимостью самой модели, но окупается она быстрее.

Принцип 2. Запускать в тонком слайсе production, не в песочнице

Лучше пилотировать на 3–5% реального трафика production с полной интеграцией в процесс, чем на 100% синтетического трафика в песочнице. Тонкий production-слайс выявляет интеграционные проблемы, которые в песочнице не видны. Постепенное расширение охвата (3% → 10% → 30% → 100%) с контролем метрик на каждом шаге снижает риск отката в разы.

Принцип 3. Отделять обучение модели от её работы

Production-модель не должна обучаться на production-данных в реальном времени — это рецепт быстрой деградации. Цикл должен быть: production-данные собираются, классифицируются специально нанятыми разметчиками или агентами, регулярно (раз в 1–4 недели) производится обновлённая версия модели, она проходит регрессионное тестирование, развёртывается. Это требует MLOps-инфраструктуры, которую часто недооценивают на этапе планирования.

Принцип 4. Включать human-in-the-loop там, где цена ошибки высока

Даже самая точная модель ошибается. В части задач (например, отмена транзакции, эскалация жалобы) цена ошибки настолько высока, что полная автоматизация недопустима. Архитектурно это означает: уверенность модели выше N% → автоматическое действие; от M% до N% — рекомендация оператору; ниже M% — обязательная эскалация. Пороги настраиваются по экономике риска, а не по умолчаниям.

Кейс: банк X (анонимизировано)

Банк среднего размера (~3,5 млн активных клиентов) запустил пилот FAQ‑агента в Q1 2023. Пилот на ограниченном наборе тематик показал автоматическое закрытие 47% обращений. Через 9 месяцев после раскатки на всю поддержку первой линии метрика составила 18%. CSAT не изменился, но NPS поддержки упал на 7 пунктов. Решение откатили.

Аудит выявил три причины:

Операторы получали оплату по числу закрытых обращений. Если бот закрывал обращение — это считалось «закрытым ботом», но операторы научились задавать клиенту дополнительные уточняющие вопросы, переводя обращение в «сложное», которое бот не брал.
Контент-команда добавляла новые тематики (новые продукты, акции) в FAQ медленнее, чем продуктовая команда выпускала продукты. Бот отказывал клиенту по вопросам новых продуктов.
В пилоте использовалась модель v3.2, в production через 9 месяцев — v3.4 с отзеркаленной от v3.2 логикой обработки уточняющих вопросов. Регрессионное тестирование при апгрейде не проводилось.

В Q4 2024 банк перезапустил инициативу с тремя изменениями: (1) ввёл композитный KPI «Effort × Resolution» с премией за него, (2) включил FAQ-команду в спринты продуктовых команд, (3) построил MLOps-цикл с еженедельным регрессионным тестированием. Через 6 месяцев после перезапуска: автоматическое закрытие 38%, CSAT +2 пункта, NPS поддержки +5 пунктов.

Главный вывод — технология не поменялась. Поменялись организационные обвязки.

Метрики, на которые имеет смысл смотреть

Таблица 1. KPI для оценки ИИ-внедрения в клиентский сервис

Метрика	Что показывает	Целевой диапазон
Containment Rate	Доля обращений, закрытых без оператора	35–65%
First Contact Resolution	Доля обращений, закрытых с первого касания	> 70%
CSAT (бот vs человек)	Удовлетворённость по каналу обработки	Δ ≤ −0,3
NPS поддержки	Вероятность рекомендации сервиса	Не падает
Customer Effort Score	Усилия клиента для решения	2,0 и ниже
Точность маршрутизации	Доля обращений в нужный канал с первого раза	> 85%
Деградация модели	Падение точности за 30 дней	< 1,5 п.п.

Целевые значения — на основе медианы по нашей выборке проектов с успешным масштабированием.

Минимальный набор для управленческого мониторинга — Containment Rate, CSAT по каналу, NPS поддержки, деградация модели. Без последней метрики компания узнаёт о деградации от клиентов — это поздно.

Риски, которые нужно проектировать с первого дня

Галлюцинации. LLM-агенты могут уверенно сообщать клиенту неверную информацию. В банке это — репутационный риск. Защита: ограничение домена, обязательное цитирование источников, человеко-валидированный набор «безопасных» ответов на высокочастотные запросы.
Систематические смещения. Модель обучена на исторических данных, в которых были смещения по географии, языку, демографии. Без аудита эти смещения переносятся в production. Защита: регулярный аудит распределений отказов и эскалаций по демографическим срезам.
Прайвеси. Передача персональных данных клиента во внешние LLM-сервисы запрещена законодательством. Защита: локальные модели в контролируемом контуре или строгая deidentification на входе.
Подсказка-инъекция. Злонамеренный клиент может попытаться «уговорить» бота нарушить правила. Защита: валидация входных запросов, ограничение возможностей бота на уровне действий, мониторинг аномальных диалогов.

Чек-лист готовности компании

Прежде чем запускать пилот, мы рекомендуем пройти девять вопросов. Ответ «нет» на три или более — основание отложить пилот и сначала закрыть пробел.

Есть ли у нас единое хранилище обращений с единой схемой за последние 24 месяца?
Размечена ли часть обращений по тематике с согласованным набором меток?
Есть ли команда, которая будет отвечать за работу модели в production (не только её первый запуск)?
Согласованы ли KPI: что мы считаем успехом (containment, CSAT, NPS, ELS) и что считаем провалом?
Есть ли план change-management для операторов: как сообщаем, как мотивируем, что меняем в их работе?
Готова ли продуктовая команда добавлять новые тематики FAQ синхронно с запуском продуктов?
Есть ли MLOps-инфраструктура для регрессионного тестирования и контроля деградации?
Спроектирована ли логика human-in-the-loop с явными порогами уверенности?
Заложен ли бюджет на поддержку (а не только на запуск) на ближайшие 12–18 месяцев?

Удачное внедрение ИИ в клиентский сервис — это не про лучший алгоритм. Это про лучшую обвязку: данные, процесс, KPI, организацию. Команда, которая держит эту обвязку в голове до того, как нанимает первого ML-инженера, проходит pilot-to-production gap. Команда, которая нанимает ML-инженера и ждёт чуда — нет.

Источники

ПАО Сбербанк. Годовой отчёт 2024: технологии и клиентский опыт. М., 2025.
Яндекс. Маркетплейс: статистика обращений в поддержку, отчёт за 2024 год. М., 2025.
Тинькофф (TCS Group). Годовой отчёт 2024. Никосия, 2025.
McKinsey & Company. The state of AI in customer service: Russia and EMEA, 2024. McKinsey Insights, 2024.
Davenport T., Mittal N. All-in on AI: How Smart Companies Win Big with Artificial Intelligence. Harvard Business Review Press, 2023.
Microsoft, IDC. AI in Customer Engagement Benchmark, 2024. Доступ: microsoft.com/ai.
ВЦИОМ. Отношение россиян к чат-ботам и голосовым ассистентам. Аналитический обзор № 5612. М., 2024.
OECD. AI in service of citizens: deployment patterns and outcomes, 2024.
Закон № 152-ФЗ «О персональных данных» в ред. от 2024 года.
Анонимизированный кейс «Банк X» — из внутренней практики Ринц Консалтинг, 2023–2024 гг.