Построение корпоративного хранилища данных (DWH)

ФТО занимается построением и поддержкой DWH на базе MS SQL Server и его инструментов.

Мы предлагаем услуги:

— построение DWH c нуля,

— поддержка, развитие и оптимизация существующего хранилища,

— перенос DWH на новую платформу (перевнедрение).

Заказать услугу

Что такое корпоративное хранилище?

Корпоративное хранилище данных (КХД, DWH) — неотъемлемый атрибут крупной компании, владеющей большими массивами данных, полученных из нескольких источников. Корпоративная база данных разрабатывается с учетом особенностей организации и предназначается для подготовки отчётов и бизнес-анализа.

На основе обработанных данных, как правило, принимаются важные управленческие решения в организации. Особенно актуален вопрос построения хранилищ данных при использовании инструментов класса BI.

Причины для разработки корпоративного хранилища данных

Разработка КХД – дорогой и непростой проект. Трудозатраты, в зависимости от сложности, могут варьироваться в широком диапазоне (300 – 1000 человеко-часов работы подрядчика в среднем на 1 проект).

Несмотря на сложность и капиталоемкость, разработка хранилища окупается минимизацией рисков потери данных. Поэтому в первую очередь о такой разработке необходимо задуматься в следующих случаях:

1) Если вы используете внешние источники данных

Вы можете покупать сеты данных у поставщика или собирать данные из внешних источников. Например, средние цены на вашем сегменте рынка. Рано или поздно поставщик может перестать вас устраивать, поменяет условия сотрудничества или перестанет существовать. В этом случае вы потеряете всю свою аналитику. Аналогичная ситуация если вы собираете данные самостоятельно из открытых источников. Например, с сайтов конкурентов или проводите опросы экспертов. База показателей (папка с файлами, Google-таблица или что-то подобное) могут быть повреждены или утеряны безвозвратно.

2) Если количество источников данных превышает 3-4

Почему именно это число? Фактически – это норма управляемости. Из нашей практики, при превышении такого количества источников данных, начинаются трудности с поддержанием целостности справочных/ мастер – данных, в то время, как загрузочный слой хранилища значительно снижает проблемы сопоставления.

3) Есть несколько потребителей одних и тех же данных

Хранилище может являться источником информации для неограниченного круга потребителей – BI система, алгоритмы предиктивной аналитики, специалисты, которым необходимо получать сеты данных в Excel (маркетологи, аналитики, экономисты). В этой ситуации хранилище выполняет еще одну роль – по разграничению прав доступа к определенным уровням данных. Например, аналитик в центральном офисе сможет загрузить историю по продажам для всех филиалов за всю историю, тогда как специалист по ценообразованию – только историю цен и только для определенного региона.

4) Объем данных превышает определенные ограничения или лимиты

Например, один из лидеров бизнес-аналитики, Power BI, для подписки уровня Premium ограничивает проект объемом 100 Гб данных, а общий объем хранения – 100 Тб. Похожие ограничения есть и у других BI-систем.

Зачем нужно строить хранилище?

Конечной целью является подготовка корпоративных отчетов. Но их можно формировать и без КХД. Разберем ключевые преимущества архитектуры хранилища, которые определяют их полезность:

Скорость извлечения необходимых данных

Когда все необходимые данные находятся в единой базе данных, структурированы и имеют корректные связи таблиц, то их обработка и извлечение для выгрузки в отчет происходят гораздо быстрее, чем в случае работы с многочисленными и разрозненными базами данных из разных корпоративных систем.

Неизбыточность данных

При проектировании хранилища архитектор должен понимать, каким целям и для каких отчетов хранилище будет использоваться. Это обуславливает хранение только нужных атрибутов и выборку только необходимых массивов данных с помощью фильтров при загрузке из конечного источника. Таким образом, в корпоративном хранилище данных есть все необходимые данные, но нет лишних.

Непротиворечивость данных

КХД использует данные из различных источников. Но прежде чем их использовать и объединять на уровне таблиц, они должны быть очищены и нормализованы. Мастер-данные импортируются централизовано, либо справочники ведутся на уровне инструментов DWH. Мы имеем таблицы без дублей и противоречий, а значит отчетность, которую строим на базе этих таблиц, покажет данные достоверно и не вызовет вопросов у заказчиков.

Какие услуги предлагает ФТО?

  • Построение DWH с нуля – если вы пришли к пониманию, что вам нужно создание хранилища, которое отсутствует в принципе, мы вам поможем.
  • Поддержка, развитие и оптимизация DWH – если у вас уже есть хранилище, требующее поддержки и доработки или оптимизации, и вы готовы рассматривать нас в качестве нового подрядчика.
  • Перенос DWH на новую платформу – если версия платформы хранилища либо платформа в целом больше не соответствует целям по развитию данного инструмента и вы не готовы мириться с данным ограничением, есть смысл перейти на более оптимальную платформу, мы можем помочь вам выбрать ее и осуществить проект по переходу на новую платформу (перевнедрение).

С какими продуктами и технологиями мы работаем?

Преимущественно мы строим и поддерживаем хранилища на базе MS SQL Server и его инструментов, полный перечень технологий, с которыми мы работаем, приведен ниже.

  • СУБД Microsoft SQL Server,
  • Oracle,
  • Teradata,
  • Apache Cassandra,
  • Microsoft Access ETL,
  • Microsoft SSIS,
  • IBM Node-RED,
  • Informatica.

Вы пользуетесь устаревшей версией браузера. Данная версия браузера не поддерживает многие современные технологии, из-за чего многие страницы отображаются некорректно, а главное — на сайтах могут работать не все функции.