Разделы

Lifehack (Old)

Фокус с кроликом: как очистить данные

С проблемой приведения данных в единый формат сталкиваются многие компании, консолидирующие их из разных источников. Сотрудникам предприятий, имеющих разветвленную дистрибьюторскую сеть и большое количество поставщиков, зачастую приходится тратить огромное количество времени для того, чтобы сделать информацию пригодной для анализа. Справиться с данными любого объема помогает решение компании Navicon, работающее в облаке Microsoft Azure. Количество контрагентов может быть любым, как и их география.

Задача приведения данных в единый формат на языке ИТ-специалистов называется очисткой данных. Это одна из функций ETL-систем, которые извлекают данные из внешних источников, трансформируют их и загружают в хранилище. «Название одной позиции в отчетах, предоставляемых, например, разными магазинами, может звучать по-разному. Кто-то напишет «Чай Ромашка», кто-то – «Ромашка – чайный набор» или «Чайный набор Ромашка». Чтобы составить единый отчет по продажам и обработать данные, аналитикам приходится сопоставлять их вручную, тратя время, предназначенное для другой работы. Альтернативный путь – нанимать специализированные компании, но их услуги стоят недешево и далеко не всегда удовлетворяют заказчиков по качеству и срокам. Третий вариант – создание «самописного» ПО, возможность пользоваться которым часто заканчивается с уходом конкретного программиста», – рассказывает Иван Капцов, руководитель продукта ETL Rabbit, Navicon.

ETL Rabbit позволяет обрабатывать данные автоматически, привязывая их к словарю эталонных значений. В результате все варианты написания позиции будут восприниматься системой как одна. «Словарь создается вручную либо выгрузкой из Microsoft NAV, 1C или любой другой корпоративной системы», – объясняет Иван Капцов. Если единого справочника у компании нет, первое сопоставление данных осуществляет оператор. Система запоминает «связку», с каждым разом словарь наполняется, работа оператора все больше перекладывается на программу, а ручных операций становится меньше и меньше. «В конце концов, производительность и качество данных увеличиваются в разы», – говорит Иван. Для лучшего понимания того, как работает система, он использует образ конструктора, который интегрируется в ИТ-систему заказчика, «разбирает» все полученные файлы, а потом собирает их вновь в соответствии с заданными правилами.

Как кролик из шляпы

ETL Rabbit работает с форматом данных, используемых в Excel, а также с форматами CSV (таблицы в текстовых файлах) и DBF (применяется в СУБД и электронных таблицах). «Для многих из наших заказчиков проблемы создавала необходимость загрузки большого количества файлов Excel, полученных из разных источников», – рассказывает эксперт.

Понять, актуально ли подобное решение для конкретной организации, по мнению Капцова, просто – достаточно подсчитать трудозатраты на обработку данных. «Мы сталкивались с ситуацией, когда чуть ли не целый отдел предприятия занимался консолидацией отчетов Excel, необходимых для анализа вторичных продаж. Опыт внедрения ETL Rabbit, показал, что такой отдел можно заменить одним или двумя сотрудниками. Если на обработку, загрузку и форматирование данных раньше уходило около двух часов, то теперь весь процесс занимает 10–15 секунд», – говорит он. Выяснить, сколько часов тратится на подобные рутинные операции, и сопоставить их с окладами сотрудников несложно. Статистика клиентов Navicon, внедривших ETL Rabbit, показывает сокращение затрат на 30–50%.

Впрочем, в России поговорка «Пока гром не грянет, мужик не перекрестится» не теряет актуальности. «Зачастую компания работает по инерции, пока не требуется внедрить новые ИТ-системы или не меняются форматы данных. Кто-то обращается в процессе реорганизации бизнеса. Был случай, когда из компании ушел программист, и разработанное им решение умерло», – рассказывает Иван Капцов.

По его оценкам, на данный момент ETL Rabbit не имеет аналогов и позволяет решить актуальную для многих компаний проблему за небольшие деньги. Его основная целевая аудитория – предприятия малого и среднего бизнеса. Преобразование данных может быть «промежуточным этапом» для целого ряда других задач, являющихся частью глобальных проектов, реализующихся в крупном бизнесе. Например, основная задача решения Sales Out, также разработанного Navicon, – анализ вторичных продаж. Здесь тоже необходима первичная очистка данных, создание словарей номенклатуры и контрагентов. Но небольшая компания не окупит затраты на такое решение. «Один из наших заказчиков воспользовался ETL Rabbit в том числе для анализа данных о закупках и продажах», – рассказывает Иван Капцов.

Скорость внедрения – главное преимущество

Внедрение ETL Rabbit занимает максимум месяц, а во многих случаях происходит быстрее. «Если необходимо только преобразовывать, но не сопоставлять данные, задача сводится к выгрузке данных из существующих справочников и может быть выполнена за один-два дня», – рассказывает эксперт.

Как с помощью ad-hoc инструмента снизить расходы на внедрение аналитики
Импортонезависимость

Приятная особенность решения – отсутствие необходимости увеличивать серверный парк. ETL Rabbit использует облачные технологии и работает в Microsoft Azure. «Устанавливать ничего не нужно. Пользователь видит web-сайт, к которому доступ открывается с помощью пароля. Предоставляется документация, подробные инструкции, в том числе видео. Обучение сотрудников происходит быстро. Если структура отчетов у компании несложная, оно занимает несколько часов», – поясняет Иван Капцов. Частное облако позволяет выдержать большие нагрузки по объемам данных. По словам эксперта, решение полностью справляется с объемами, которыми оперируют заказчики.

Частый вопрос, который задают потенциальные заказчики, – о персональных данных. Не все хотят выкладывать в облако коммерческую информацию о контрагентах. Navicon предлагает поставить дополнительное приложение по обезличиванию данных. Тогда все персональные данные, собранные в локальном ЦОДе, выходят в облако в зашифрованном виде.

Производительность решения

Пример конкретной компании, внедрившей ETL Rabbit, – интернет-магазин, использующий систему . Каждые три дня компания получает примерно 30 прайс-листов от поставщиков, а постоянное изменение курса валют приводит и к более частым изменениям цен. Каждый прайс-лист включает примерно 6–7 тыс. позиций, и эти данные компания должна загрузить в свою систему в определенном унифицированном формате, при том, что контрагенты составляют прайс-листы в своих форматах. «Необходимость переделки прайс-листов очень раздражала менеджмент интернет-магазина, а заниматься этим приходилось менеджерам по продажам. Вместо того, чтобы продавать», – рассказывает Иван Капцов. После установки решения время, затраченное на преобразование каждого файла (ранее около 40 минут), занимает не больше 10 секунд.

8 задач, чтобы перезапустить инженерную школу в России
импортонезависимость

Оплата за использование ETL Rabbit зависит от количества обработанных записей. «Как на мобильном телефоне: положили деньги на счет, поговорили. Сколько поговорили – столько и заплатили, по договору оферты», – объясняет Иван Капцов. Как и в случае с мобильной связью, существуют разные тарифы – в среднем обработка 1000 записей стоит – $1, количество пользователей на цену не влияет. «В среднем компании малого, среднего бизнеса обрабатывает в год 600–900 тыс. записей», – считает эксперт.

Никаких технических или организационных ограничений на использование решения нет, так же как и необходимости в лицензионных соглашениях. «ETL Rabbit недавно появился на российском рынке, но активный интерес к нему показывает, что бизнес ждал подобного инструмента», – резюмирует Иван Капцов. Он акцентирует внимание на наличии бесплатного тестового периода, во время которого потенциальный заказчик сможет оценить возможности продукта и понять, нужен ли он ему.

Екатерина Сирина