Big Data

Андрей Вушев (БПС-Сбербанк): Big Data заставляют по-другому посмотреть на причинно-следственные связи

Источник: Office Life
Одним из спикеров второго бизнес-форума по управлению большими данными в розничной торговле Retail Big Data 2020 станет Андрей Вушев, член правления и исполнительный директор БПС-Сбербанка. В качестве куратора направления по работе с данными в банке он поделится с участниками конференции опытом построения корпоративного хранилища данных — важнейшего элемента системы работы с большими данными (БД). Office Life пообщался с экспертом накануне — мы говорили о Big Data (причем не только в философском ключе, но и применимо к конкретным белорусским реалиям), а также о том, как все это может работать в торговле.
Андрей Вушев
Андрей Вушев

— Большие данные с точки зрения управления это просто элемент статистики? Или нечто большее — статистика, которая вышла на новый уровень?

— Если человеческий мозг позволяет держать в голове несколько гипотез одновременно и отрабатывать логику взаимосвязей 3-5 факторов, то в БД с использованием алгоритмов можно учитывать взаимосвязи бесконечного числа факторов. И любые решения, связанные с применением линейной регрессии, дерева решений, моделей классификаций, — это все математическо-статистические методы обработки информации. Это алгоритмы, которые работают в промышленных масштабах. Это своеобразные фабрики со своим набором неких «станков» в виде программных комплексов или уникальных кодов. Важно то, что здесь можно проследить историчность данных, ведь большую часть своих прогнозов мы строим на основе схожести ситуаций в более ранних периодах. Мы предсказываем, делаем какие-то допущения и гипотезы: если это было с определенной вероятностью раньше, то оно произойдет с определенной вероятностью в будущем. Уровень вероятности также имеет свою шкалу оценки: чем выше — тем более качественная модель. И когда качественная модель начинает проседать, мы понимаем, что  какой-то фактор — возможно, новый, возможно, какой-то из уже существующих — ведет себя по-другому. Когда таких факторов десятки, человеку практически невозможно их отследить.

— Вы затронули проблему интерпретации больших данных. Кто этим занимается, какие квалификации и компетенции должны быть у таких специалистов?

— Не могу утверждать, что это должны быть непременно узкие специалисты. И да и нет. При помощи схожего алгоритма можно решать задачи в разных областях. Вещательная сетка телеканала, розничный бизнес банка и статистика по выявлению заболевания — три разные задачи в разных областях, но все они могут быть решены с помощью схожих алгоритмов. И когда мы говорим, кто может быть этим специалистом и насколько корректно он готов интерпретировать данные, то сам специалист, который знает, как с помощью математическо-статистических методов решить задачу, на практике с ней не справится. Всегда в паре должен быть тот человек, который корректно поставит задачу и в дальнейшем выступит экспертом. И если мы в одном лице имеем профессионала по компетенциям в какой-то отрасли и одновременно этот человек является компетентным в IT, то это уникальный специалист, я бы отнес его к гениям-самоучкам. Но чаще всего это пара: эксперт в предметной области плюс математик.

— Насколько это времяемкий процесс — вхождение в сферу использования больших данных?

— Сюда можно входить довольно быстро, но для этого нужно иметь хорошие данные. Мы начали работать с ними в 2016-м, когда сформировали хранилище. И нам понадобился определенный период времени, чтобы привести хранилище к желаемому уровню стандарта содержащейся там информации. Сначала данные надо получить, накопить их минимум за полтора-два года, чтобы дальше можно было строить работу эффективно.

Данных было много, они лежали в разрозненных таблицах, какие-то между собой были связаны, какие-то нет. Было много рутинной работы, направленной на то, чтобы связать их вместе. Сейчас у нас промышленное решение для хранилища, технология Terradata. На ней мы создали клиентоцентричную модель: в центре — клиент, а вокруг — все обезличенные атрибуты, которые его характеризуют, начиная от половозрастных характеристик и заканчивая его финансовыми транзакциями, данными геолокации или сведениями об имуществе.

Terradata

Запустив хранилище, мы начали формировать специализированное подразделение. Создали команду примерно из полутора десятков специалистов — бизнес-аналитиков, дата-инженеров, дата-сайентистов. Свои дата-сайентисты также появились в розничном и корпоративном бизнесе.

— Как у вас организованы бизнес-процессы по использованию БД?

— Есть департамент управления корпоративными данными. Он отвечает за философию, политику работы с данными, выстраивает все регламенты, которые связаны с механикой: откуда взять информацию, как ее трансформировать, как ее хранить и т. д. В банке появилась служба, которая отвечает за то, что: а) данные есть, б) доступ к ним обеспечен, в) технологический стек присутствует (включая различные технологии по хранению, трансформации и обезличиванию данных). Вторая часть работы — обеспечить доступ к информации бизнес-подразделениям банка: нам важно, чтобы у коллег были свои дата-компетенции. Они глубже знают продукты, внутренние процессы, запросы клиентов, быстрее реагируют. Третья часть работы — применение технологий машинного обучения (ML) и искусственного интеллекта (AI) для решения задач банка.

— Насколько БД — это сегодня история для больших компаний? Можно ли их внедрять и в среднем бизнесе?

— Сам по себе термин «большие данные» предполагает, что их много. Важна стабильность и историчность данных. Есть пример компании из малого бизнеса, которая имеет в розничном ретейле клиентскую базу в 1-1,5 тыс. человек. Но эта компания умеет собирать данные о своих клиентах и даже на этой базе делает интересные вещи. Причем их практика показала, что решения необязательно должны быть дорогими — можно пригласить специалиста, который будет использовать уже готовые решения. Это могут быть решения, которые как-то классифицируют клиентов, связывают их в группы и т. п. Поэтому в некотором смысле можно сказать, что БД — это не только для крупных компаний.

Сложнее собирать информацию, и если внутренняя система не настроена на сбор, то именно тут нужны первоочередные инвестиции и корректировки в процесс. На мой взгляд, работа с данными может быть эффективной, если информация накапливалась на протяжении минимум 12 месяцев, а также обеспечена необходимая глубина данных, которые описывали бы бизнес-модель компании, для корректного определения и прогнозирования/предсказывания важных для развития бизнеса трендов.

— Какую основную мысль вы хотели бы донести до участников Retail Big Data 2020, связанную с большими данными?

— Мы хотим показать на примере БПС-Сбербанка, как можно использовать имеющуюся информацию с акцентом на результат. И поскольку мы уже взаимодействуем с отдельными компаниями ретейла, то хотим показать, каким может быть синергетический эффект от такого сотрудничества. Причем мы всегда подчеркиваем, что очень трепетно относимся к клиентским данным, используя исключительно обезличенную информацию.

— Какие неочевидные проблемы можно решать с помощью БД в ретейле?

— Отток клиентов — серьезная проблема для бизнеса. Всем известно, что вернуть клиента гораздо сложнее, чем его удержать. Агрегируя на протяжении нескольких лет данные по крупному продуктовому ретейлеру, было предложено построить портрет их постоянного клиента. Исследование показало, что примерно 20% покупок клиенты делают не по месту постоянного жительства, а на другом конце Минска. И это логично: люди там работают, ездят к родителям и т. п. Одновременно было продемонстрировано, что клиенты делают значительный объем закупок в магазинах, расположенных в нескольких сотнях метров от их торговых объектов. И как раз здесь можно задуматься над тем, как повлиять на клиента и сформировать у него максимальную лояльность . Таким образом, БД заставляют вас по-другому посмотреть на причинно-следственные связи. Также при помощи алгоритмов и моделей ML/AI можно «будить» клиентов, мотивировать на отдельные активности, проводить кампании вторичных продаж, кросс-продаж.

— Верно ли утверждать, что сегодня фокус БД для ретейла — это именно поведенческие модели потребителей?

— Любой ретейл ориентирован на привлечение и удержание клиента, поэтому такое утверждение близко к истине. Но наши данные для одной из сетей показывают, что, например, до 10% ее клиентов делают покупки раз в неделю в других, более дорогих сетях с высоким средним чеком. Причем все месячные затраты в «основной» сети всего в 1,5 раза превышают стоимость четырех покупок в «чужих» сетях. Это повод задуматься, лучше изучить своих клиентов, их мотивацию и, безусловно, изучить конкурентов. Мы как банк можем рассказать только о суммах, географии и времени совершения покупок. При этом ретейлеру может быть достоверно известна конфигурация каждой покупки. Возникает вопрос: как собирается эта информацию? Например, в прошлом году, работая с одной из компаний, мы увидели, что карта лояльности выдается просто так, без идентификации клиента . Объяснение было такое: «Если в день у нас покупают, условно, 10 тонн мяса, то какая разница, кто его берет?» Можно, конечно, вести бизнес и в таких реалиях. Но можно иначе. В будущем мы будем заводить, например, гипотезы влияния погоды на активность покупателей для ретейла, для более тонкой настройки выкладки.

Андрей Вушев (Chief Data Officer БПС-Сбербанка): Big Data заставляют по-другому посмотреть на причинно-следственные связи

— Расскажите о роли БД в развитии скоринговых систем. Готовы ли банки к выдаче мгновенных кредитов потенциальным покупателям непосредственно у кассы.

— В скоринге мы уже прошли важные этапы: сотрудников потеснили автоматизированные решения. Раньше для оценки клиента и последующего принятия решения необходимо было запросить «вагон» информации. Сейчас же появляется все больше эффективных инструментов сбора и анализа необходимых данных, мы с каждым годом сокращаем в кредитных заявках количество полей для заполнения, чтобы упростить процесс и ускорить время принятия решения. Если в ближайшем будущем нам будет достаточно знать ваш номер мобильного телефона и Ф.И.О., чтобы принять решение о выделении кредита, то, думаю, это будет удобно всем.

— Давайте представим такую картину. Покупатель рассчитывается за покупку банковской картой, терминал сигнализирует о нехватке средств на счете, банк в режиме real time предлагает увеличить лимит по овердрафту на недостающую сумму — и покупка все-таки осуществляется. Это реально?

— В БПС-Сбербанке схожие решения начинают применяться уже сейчас в рамках предодобренного кредитования, и время ожидания для клиента в такой ситуации может быть минимальным. Здесь важен вопрос технологий. При расчете карточкой отработка транзакции происходит за доли секунды. Столь же мгновенным должен быть отклик банка с предложением воспользоваться заемными ресурсами для данной покупки, IT-архитектура должна моментально обрабатывать дополнительную информацию. Это не так просто, кредитная заявка связана с важными элементами системы. Например, необходимо согласие на получение информации о кредитной истории в кредитном бюро. Очевидно движение в этом направлении, и мы реализуем решения, в которых хотим быть полезны в режиме онлайн.

— В каких точках образуются синергетические эффекты между финансовыми институтами и торговыми бизнесами?

— Синергия — это один из важных и перспективных аспектов взаимодействия. Банк может кредитовать ретейл, может кредитовать физическое лицо, а может кредитовать и тех, и других одновременно под одну и ту же покупку в режиме, близком к онлайну. Кроме того, банк обладает огромными массивами информации, которые при соблюдении условий соглашений об уровне сервиса (SLA) могут использоваться для привлечения клиентов, организации кампаний по кросс-продажам, рекламному информированию.

— Насколько решения, которые реализованы в вашем банке в сфере БД, могут быть применимы в других областях, включая ретейл?

— Может, это прозвучит несколько нескромно, но я скажу так: запросто. У нас абсолютно сопоставимая логика в работе с клиентом. В классическом ретейле контакт с конечным покупателем или в HoReCa с гостем достаточно частый — от нескольких раз в день до нескольких раз в месяц. Банковский продукт продается реже. Но, например, те же банковские карты обеспечивают для клиента возможность и удобство проведения расчетов с любыми объектами торговли и сервиса. То есть банк и ретейл обслуживают одного и того же клиента одновременно. Соответственно, у нас есть модель оттока клиентов и модель, предсказывающая наилучшее следующее предложение для клиента, которые могут выступить прототипами для аналогичных задач в ретейле. Повторюсь, одними и теми же инструментами машинного обучения можно решать разные задачи в разных отраслях. Это очень близко, но, безусловно, со своей спецификой. Таким образом, на любых уровнях взаимодействия мы всегда рядом. А если мы рядом, значит, взаимно дополняем друг друга.


Курс бел. рубля 02.12.2020
Нал. (банки Минска)
покупкапродажа
$12.58802.5900
13.09503.1020
p1003.39703.4050
Б/нал. (НБРБ)
$12.5905
13.1000
p1003.3986