Кем же ты работаешь, Лена?
Всегда хотелось иметь простой ответ на этот вопрос. Но несмотря на то информационные технологии сейчас врываются в жизнь каждого, и многие наслышаны про искусственный интеллект и моих друзей дата саентистов, комбинация слов "хранилище данных" вводит людей в ступор.
(1) Данные. Если просто мы с командой работаем с данными, обрабатываем, поставляем, объедением и разъединяем, фильтруем, суммируем, валидируем и прочие удовольствия. Ассоциации с АС Excel в вашей голове не случайны, это наш прямой конкурент :)
(2) Объем. Excel имеет ограничение по скорости обработки на больших объемах данных, типам хранимой информации, вариантам и простоте выполнения преобразований. Место в хранилищах меряют не в гигабайтах, а в тысячах гигабайт. Традиционно, производители хранилищ, поставляют аппаратную часть - "железо", вместе с программный обеспечением, которое позволяет оптимально на этих вычислительных мощностях распределять объемы и осуществлять расчеты. В последние пять лет идет тренд на использование облачных сервисов и открытого кода. Каждый из нас теперь может развернуть себе кластер Hadoop, за несколько баксов. Иногда в светской беседе о работе помогает перечислить названия вендоров, например, oracle, teradata. Но в целом живем на рынке универсальных солдат, готовых разрабатывать на любом ПО, адаптироваться под особенности и ограничения различных DWH. Вернемся к контенту.
(3) Удобство для аналитических задач и историчность. Практически любое хранение подразумевает предварительное структурирование, комплектацию, отсеивание с какой то целью. Представьте обычный склад - там логисты продумывают как им расположить товары, какие маркеры расставить, какой ассортимент более ходовой и пойдет на отправку вначале. Порядка 50 лет назад, на стадии зарождения, ключевая идея хранилища, была в том, чтобы на берегу договориться, как положить данные так - чтобы их удобно было извлекать для решения десятков различных аналитических задач, т.е. с ориентацией не на то как данные появляются, на то на какие вопросы отвечают. В отличие от реальных продуктов, срок годности данных дольше, поэтому столпы хранилища - это правила историчности и обеспечение неизменности с течением времени. В эру неструктурированной информации (поведение на сайтах, видео, аудио) изначальная задумка хранилищ приобретает другой оттенок. Сейчас уже абсолютно не зазорно сначала загрузить, а потом осмыслить. Это связано с тем, что сама по себе информация становится сложнее и оценить её полезность и применимость можно только объединив с другими данными и попробовав в бою.
(5) Командная работа и управление. В нашей области один программист в поле не воен. В зависимости от масштабов организации систем источников может быть сотни. Работа многогранная и разнопрофильная, люди говорят на разных языках. Ключевой вызов для меня сегодня скоординировать работу и процессы так, чтобы максимально быстро готовить стабильные "новые данные", с допустимыми потерями качества. Для этого нужна автоматизация и применение подходов управления данными. Скорость изменений в мире не позволят пару месяцев проектировать модель данных, но она нужна.
Итак, у меня наконец есть, ответ на вопрос кем же я работаю? Координирую команду и процессы (5) в проектах по обработке и интеграцией большого объема(2) данных(1) из различных систем компании(4) в единую область с целью извлечениям из данных пользы для аналитических задач(3).
успехов нам всем, друзья, ILOVEDATA
dwh - data warehouse