Кем же ты работаешь, Лена?

Кем же ты работаешь, Лена?
 Всегда хотелось иметь простой ответ на этот вопрос. Но несмотря на то информационные технологии сейчас врываются в жизнь каждого, и многие наслышаны про искусственный интеллект и моих друзей дата саентистов, комбинация слов "хранилище данных" вводит людей в ступор.

 

(1) Данные. Если просто мы с командой  работаем с данными, обрабатываем, поставляем, объедением и разъединяем, фильтруем, суммируем, валидируем и прочие удовольствия. Ассоциации с АС Excel в вашей голове не случайны, это наш прямой конкурент :)


(2) Объем. Excel имеет ограничение по скорости обработки на больших объемах данных, типам хранимой информации, вариантам и простоте выполнения преобразований. Место в хранилищах меряют не в гигабайтах, а в тысячах гигабайт. Традиционно, производители хранилищ, поставляют аппаратную часть - "железо", вместе с программный обеспечением, которое позволяет оптимально на этих вычислительных мощностях распределять объемы и осуществлять расчеты. В последние пять лет идет тренд на использование облачных сервисов и открытого кода. Каждый из нас теперь может развернуть себе кластер Hadoop, за несколько баксов. Иногда в светской беседе о работе помогает перечислить названия вендоров, например, oracle, teradata. Но в целом живем на рынке универсальных солдат, готовых разрабатывать на любом ПО,  адаптироваться под особенности и ограничения различных DWH. Вернемся к контенту. 

 

(3) Удобство для аналитических задач и историчность. Практически любое хранение подразумевает предварительное структурирование, комплектацию, отсеивание с какой то целью. Представьте обычный склад - там логисты продумывают как им расположить товары, какие маркеры расставить, какой ассортимент более ходовой и пойдет на отправку вначале. Порядка 50 лет назад, на стадии зарождения, ключевая идея хранилища, была в том, чтобы на берегу договориться, как положить данные так - чтобы их удобно было извлекать для решения десятков различных аналитических задач, т.е. с ориентацией не на то как данные появляются, на то на какие вопросы отвечают. В отличие от реальных продуктов, срок годности данных дольше, поэтому столпы хранилища - это правила историчности и обеспечение неизменности с течением времени. В эру неструктурированной информации (поведение на сайтах, видео, аудио)  изначальная задумка хранилищ приобретает другой оттенок. Сейчас уже абсолютно не зазорно сначала загрузить, а потом осмыслить. Это связано с тем, что сама по себе информация становится сложнее и оценить её полезность и применимость можно только объединив с другими данными и попробовав в бою.

(4) Интеграция. Подруга недавно спросила меня в чем отличие DWH от БД. База данных это то, что под капотом у автоматизированной системы, которая обеспечивает какой-то рабочий процесс. Хранилище данных подключают к различным базам и стараются делать это так, чтобы создавать минимальную нагрузку на эти самые базы. Анализ данных разделяют с их операционной функцией. Расскажу на примере "покупки стиральной машины" - про количество операционных систем. Клиент на сайте добавляет в избранное 5 машин (1 система - сайт), потом приходит в магазин и покупает у вас машин(2 система - crm), а еще пару дней назад он звонил в ваш колл центр и уточнял что-то по телефону (3 система - где хранится аудио разговора) и оформил потребительский кредит у банка партнера (4 система -  crm банка). Все эти данные было бы здорово положить в dwh, накопить за большой промежуток времени - и вуаля, принимать решения как вам удержать этого клиента или просто знать сколько таких новых клиентов придёт магазин в этом месяце!
(5) Командная работа и управление. В нашей области один программист в поле не воен. В зависимости от масштабов организации систем источников может быть сотни. Работа многогранная и разнопрофильная, люди говорят на разных языках. Ключевой вызов для меня сегодня скоординировать работу и процессы так, чтобы максимально быстро готовить стабильные "новые данные", с допустимыми потерями качества. Для этого нужна автоматизация и применение подходов управления данными. Скорость изменений в мире не позволят пару месяцев проектировать модель данных, но она нужна. 

 

  Итак, у меня наконец есть, ответ на вопрос кем же я работаю? Координирую команду и процессы (5) в проектах по обработке и интеграцией большого объема(2) данных(1) из различных систем компании(4) в единую область с целью извлечениям из данных пользы для аналитических задач(3).

 

успехов нам всем, друзья, ILOVEDATA

 

dwh - data warehouse