Корпоративное хранилище данных (КХД, DWH) — неотъемлемый атрибут крупной компании, владеющей большими массивами данных, полученных из нескольких источников. Корпоративная база данных разрабатывается с учетом особенностей организации и предназначается для подготовки отчётов и бизнес-анализа.
На основе обработанных данных, как правило, принимаются важные управленческие решения в организации. Особенно актуален вопрос построения хранилищ данных при использовании инструментов класса BI.
Причины для разработки корпоративного хранилища данных
Разработка КХД – дорогой и непростой проект. Трудозатраты, в зависимости от сложности, могут варьироваться в широком диапазоне (300 – 1000 человеко-часов работы подрядчика в среднем на 1 проект).
Несмотря на сложность и капиталоемкость, разработка хранилища окупается минимизацией рисков потери данных. Поэтому в первую очередь о такой разработке необходимо задуматься в следующих случаях:
1) Если вы используете внешние источники данных
Вы можете покупать сеты данных у поставщика или собирать данные из внешних источников. Например, средние цены на вашем сегменте рынка. Рано или поздно поставщик может перестать вас устраивать, поменяет условия сотрудничества или перестанет существовать. В этом случае вы потеряете всю свою аналитику. Аналогичная ситуация если вы собираете данные самостоятельно из открытых источников. Например, с сайтов конкурентов или проводите опросы экспертов. База показателей (папка с файлами, Google-таблица или что-то подобное) могут быть повреждены или утеряны безвозвратно.
2) Если количество источников данных превышает 3-4
Почему именно это число? Фактически – это норма управляемости. Из нашей практики, при превышении такого количества источников данных, начинаются трудности с поддержанием целостности справочных/ мастер – данных, в то время, как загрузочный слой хранилища значительно снижает проблемы сопоставления.
3) Есть несколько потребителей одних и тех же данных
Хранилище может являться источником информации для неограниченного круга потребителей – BI система, алгоритмы предиктивной аналитики, специалисты, которым необходимо получать сеты данных в Excel (маркетологи, аналитики, экономисты). В этой ситуации хранилище выполняет еще одну роль – по разграничению прав доступа к определенным уровням данных. Например, аналитик в центральном офисе сможет загрузить историю по продажам для всех филиалов за всю историю, тогда как специалист по ценообразованию – только историю цен и только для определенного региона.
4) Объем данных превышает определенные ограничения или лимиты
Например, один из лидеров бизнес-аналитики, Power BI, для подписки уровня Premium ограничивает проект объемом 100 Гб данных, а общий объем хранения – 100 Тб. Похожие ограничения есть и у других BI-систем.
Зачем нужно строить хранилище?
Конечной целью является подготовка корпоративных отчетов. Но их можно формировать и без КХД. Разберем ключевые преимущества архитектуры хранилища, которые определяют их полезность:
Скорость извлечения необходимых данных
Когда все необходимые данные находятся в единой базе данных, структурированы и имеют корректные связи таблиц, то их обработка и извлечение для выгрузки в отчет происходят гораздо быстрее, чем в случае работы с многочисленными и разрозненными базами данных из разных корпоративных систем.
Неизбыточность данных
При проектировании хранилища архитектор должен понимать, каким целям и для каких отчетов хранилище будет использоваться. Это обуславливает хранение только нужных атрибутов и выборку только необходимых массивов данных с помощью фильтров при загрузке из конечного источника. Таким образом, в корпоративном хранилище данных есть все необходимые данные, но нет лишних.
Непротиворечивость данных
КХД использует данные из различных источников. Но прежде чем их использовать и объединять на уровне таблиц, они должны быть очищены и нормализованы. Мастер-данные импортируются централизовано, либо справочники ведутся на уровне инструментов DWH. Мы имеем таблицы без дублей и противоречий, а значит отчетность, которую строим на базе этих таблиц, покажет данные достоверно и не вызовет вопросов у заказчиков.
Какие услуги предлагает ФТО?
Построение DWH с нуля – если вы пришли к пониманию, что вам нужно создание хранилища, которое отсутствует в принципе, мы вам поможем.
Поддержка, развитие и оптимизация DWH – если у вас уже есть хранилище, требующее поддержки и доработки или оптимизации, и вы готовы рассматривать нас в качестве нового подрядчика.
Перенос DWH на новую платформу – если версия платформы хранилища либо платформа в целом больше не соответствует целям по развитию данного инструмента и вы не готовы мириться с данным ограничением, есть смысл перейти на более оптимальную платформу, мы можем помочь вам выбрать ее и осуществить проект по переходу на новую платформу (перевнедрение).
С какими продуктами и технологиями мы работаем?
Преимущественно мы строим и поддерживаем хранилища на базе MS SQL Server и его инструментов, полный перечень технологий, с которыми мы работаем, приведен ниже.
СУБД Microsoft SQL Server,
Oracle,
Teradata,
Apache Cassandra,
Microsoft Access ETL,
Microsoft SSIS,
IBM Node-RED,
Informatica.
Необходима консультация по вопросам DWH?
Напишите на ml@fto.com.ru или оставьте заявку, и наш специалист свяжется с вами в ближайшее время.
Я даю свое согласие на обработку моих персональных данных на условиях, определенных Политикой Конфиденциальности.
Оставить заявку
Спасибо за заявку!
Мы перезвоним вам в ближайшее время.
Подписывайтесь на нас в соцсетях
Вы пользуетесь устаревшей версией браузера. Данная версия браузера не поддерживает многие современные технологии, из-за чего многие страницы отображаются некорректно, а главное — на сайтах могут работать не все функции.