Big Data — это структурированные, частично структурированные или неструктурированные массивы данных. Их обрабатывают с помощью специальных (преимущественно облачных) инструментов, используя для статистики, анализа, прогнозов и принятия решений.
Термин появился сравнительно недавно, став общеупотребительным примерно в 2011 году. Но впервые его использовал редактор журнала Nature Клиффорд Линч, предложив в 2008 году относить к Big Data любые массивы неоднородных данных более 150 Гб в сутки.
Почему Big Data внезапно обрели популярность? К началу 2012 года объемы собираемых и хранимых данных выросли до огромных размеров. Возникла необходимость в систематизации и практическом применении накопленной информации. Ещё через два года, в 2014, на Big Data обратили внимание технические университеты и ИТ-гиганты вроде Microsoft, IBM, Oracle.
С большими данными стали работать более интенсивно, появились новые инструменты сбора и анализа, разметки данных. Увидев реальную пользу от Big Data, массивы данных стали накапливать и использовать даже госорганы.
В чём ценность Big Data
Если на вопрос «что такое Big Data» мы ответили, то в чём их ценность — пока не очень понятно. А всё просто: накопленные массивы информации позволяют находить неочевидные закономерности. Знание этих закономерностей и принятие решений на их основе может стать важным конкурентным преимуществом, если успеть создать и первым предложить потребителям новый продукт или услугу.
Люди не имеют привычки анализировать и просчитывать каждый свой шаг. Они совершают поступки и покупки, которые называют импульсивными. Накопив достаточно данных, можно обнаружить склонность отдельного потребителя или группы потребителей к принятию какого-то решения. И сыграть на этом.
Характеристики Big Data
Существует устоявшиеся признаки Big Data, определённые в 2001 году и дополненные значительно позже. Комбинация этих характеристик получила название 7V.
- Volume. Изначально это было 150 Гб в сутки, сейчас объём измеряется терабайтами, петабайтами и т. д. Нет строго определённого уровня, с которого просто данные превращаются в «большие». Бывает, что объём данных не превышает терабайта, но они весьма неоднородны, из-за чего обработка требует вычислительной мощности нескольких серверов. Как правило, серверов с GPU.
- Velocity. Скорость роста объёма данных и их обработки. Большие данные обновляются постоянно, поэтому нужны решения для быстрой их обработки.
- Variety. Разнообразие накапливаемых данных. Если информации много, но у неё есть ясная и понятная структура, это нельзя назвать Big Data. Массив должен состоять из структурированных, частично или вообще не структурированных данных — текстовых, графических и так далее.
- Veracity. Достоверность данных и результатов их анализа — важный критерий качества Big Data. Любой анализ бесполезен, если исходные данные недостоверны.
- Viability. Жизнеспособность данных необходимо проверять при построении модели прогнозирования. Например, при большом разнообразии данных и переменных важно принимать во внимание их ценность.
- Variability. У данных бывают пики и спады (например, сезонные). Чем нестабильнее поток данных, тем труднее его измерить. Поэтому изменчивость — важная характеристика Big Data.
- Value. Данные могут быть простыми и сложными, важными и не очень. После подтверждения жизнеспособности специалисты должны изучить взаимосвязи данных, определить их ценность для анализа.
Источники Big Data
Информация накапливается в локальных хранилищах и крупных дата-центрах. Но где компании её берут? Каналов сбора больших данных много, перечислим лишь часть из них:
- Интернет вещей (IoT) и подключенные к нему устройства;
- Онлайн-медиа и соцсети;
- Корпоративная информация (транзакции, мониторинг активности клиентов, данные о покупках, подрядчиках и т. д.);
- Информация, собираемая техническими средствами (радиотелескопы, метеорологические станции, спутники, всевозможные датчики);
- Статистика (рождаемости и смертности, заболеваемости, миграционные данные);
- Медицинские учреждения (информация об анализах пациентов, диагностические данные и снимки, количественные и качественные показатели заболеваний).
Использование этих и других каналов для сбора Big Data с каждым годом становится всё более активным. Появляются новые каналы, создаются инструменты для разметки данных и повышения точности анализа накопленной информации. Для этого требуется, чтобы большие данные отвечали некоторым критериям.
Где используется Big Data
Big Data в ритейле
Анализ накопленных больших данных позволяет лучше понять характер, интересы и желания целевой аудитории. Изучение соцсетей и активности посетителей сайта помогает улучшить качество сервиса, повысить лояльность и найти узкие места, которые способствуют оттоку покупателей. Также анализ Big Data позволяет выявить другие неочевидные закономерности, способные повлиять на объём продаж.
Big Data в медицине
Изучив информацию об исследованиях пациентов, методах лечения, эффективности препаратов, можно обнаружить новые закономерности, выявить негативный или положительный эффект от комбинаций лекарственных средств, определить эффективность оказываемых услуг.
Big Data в ИТ
В разработке и продвижении ИТ-продуктов также используются большие данные. Используя предиктивные модели, можно спрогнозировать потребительский спрос на новые сервисы и функции. Специалисты стриминговых платформ получают возможность оценить перспективы нового сериала, анализировать эффективность коммерческих продуктов и фич. Даже рекомендательная система — и та появилась благодаря работе с Big Data.
Big Data в геймдеве
Работа с данными позволяет разработчикам игр выявлять читеров и строить античит-системы, анализировать поведение игроков в играх, вычислять их предпочтения и находить векторы развития, которые способны привлечь новых игроков. Большие данные влияют на монетизацию и пользовательский трафик.
Big Data в госуправлении
Государственные учреждения анализируют собранные данные в целях повышения безопасности граждан, обнаружения положительных или негативных тенденций в обществе и локальных зонах. Работа с Big Data помогает совершенствовать инфраструктуру, повышать эффективность систем ЖКХ, общественного транспорта.
Big Data в финансовом сектореБольшие данные позволяют предсказать финансовую стабильность клиента банка или другой финансовой организации, спрогнозировать его кредитные потребности. На основе Big Data формируются персональные банковские предложения, строятся защищающие от мошенников антифрод-системы.