Big Data: что это такое


Big Data — это структурированные, частично структурированные или неструктурированные массивы данных. Их обрабатывают с помощью специальных (преимущественно облачных) инструментов, используя для статистики, анализа, прогнозов и принятия решений.

Термин появился сравнительно недавно, став общеупотребительным примерно в 2011 году. Но впервые его использовал редактор журнала Nature Клиффорд Линч, предложив в 2008 году относить к Big Data любые массивы неоднородных данных более 150 Гб в сутки.

Почему Big Data внезапно обрели популярность? К началу 2012 года объемы собираемых и хранимых данных выросли до огромных размеров. Возникла необходимость в систематизации и практическом применении накопленной информации. Ещё через два года, в 2014, на Big Data обратили внимание технические университеты и ИТ-гиганты вроде Microsoft, IBM, Oracle.

С большими данными стали работать более интенсивно, появились новые инструменты сбора и анализа, разметки данных. Увидев реальную пользу от Big Data, массивы данных стали накапливать и использовать даже госорганы.

В чём ценность Big Data

Если на вопрос «что такое Big Data» мы ответили, то в чём их ценность — пока не очень понятно. А всё просто: накопленные массивы информации позволяют находить неочевидные закономерности. Знание этих закономерностей и принятие решений на их основе может стать важным конкурентным преимуществом, если успеть создать и первым предложить потребителям новый продукт или услугу.

Люди не имеют привычки анализировать и просчитывать каждый свой шаг. Они совершают поступки и покупки, которые называют импульсивными. Накопив достаточно данных, можно обнаружить склонность отдельного потребителя или группы потребителей к принятию какого-то решения. И сыграть на этом.

Характеристики Big Data

Big Data

Существует устоявшиеся признаки Big Data, определённые в 2001 году и дополненные значительно позже. Комбинация этих характеристик получила название 7V.

  1. Volume. Изначально это было 150 Гб в сутки, сейчас объём измеряется терабайтами, петабайтами и т. д. Нет строго определённого уровня, с которого просто данные превращаются в «большие». Бывает, что объём данных не превышает терабайта, но они весьма неоднородны, из-за чего обработка требует вычислительной мощности нескольких серверов. Как правило, серверов с GPU.
  2. Velocity. Скорость роста объёма данных и их обработки. Большие данные обновляются постоянно, поэтому нужны решения для быстрой их обработки.
  3. Variety. Разнообразие накапливаемых данных. Если информации много, но у неё есть ясная и понятная структура, это нельзя назвать Big Data. Массив должен состоять из структурированных, частично или вообще не структурированных данных — текстовых, графических и так далее.
  4. Veracity. Достоверность данных и результатов их анализа — важный критерий качества Big Data. Любой анализ бесполезен, если исходные данные недостоверны.
  5. Viability. Жизнеспособность данных необходимо проверять при построении модели прогнозирования. Например, при большом разнообразии данных и переменных важно принимать во внимание их ценность.
  6. Variability. У данных бывают пики и спады (например, сезонные). Чем нестабильнее поток данных, тем труднее его измерить. Поэтому изменчивость — важная характеристика Big Data.
  7. Value. Данные могут быть простыми и сложными, важными и не очень. После подтверждения жизнеспособности специалисты должны изучить взаимосвязи данных, определить их ценность для анализа.

Источники Big Data

Информация накапливается в локальных хранилищах и крупных дата-центрах. Но где компании её берут? Каналов сбора больших данных много, перечислим лишь часть из них:

  • Интернет вещей (IoT) и подключенные к нему устройства;
  • Онлайн-медиа и соцсети;
  • Корпоративная информация (транзакции, мониторинг активности клиентов, данные о покупках, подрядчиках и т. д.);
  • Информация, собираемая техническими средствами (радиотелескопы, метеорологические станции, спутники, всевозможные датчики);
  • Статистика (рождаемости и смертности, заболеваемости, миграционные данные);
  • Медицинские учреждения (информация об анализах пациентов, диагностические данные и снимки, количественные и качественные показатели заболеваний).

Использование этих и других каналов для сбора Big Data с каждым годом становится всё более активным. Появляются новые каналы, создаются инструменты для разметки данных и повышения точности анализа накопленной информации. Для этого требуется, чтобы большие данные отвечали некоторым критериям.

Где используется Big Data

Big Data в ритейле

Анализ накопленных больших данных позволяет лучше понять характер, интересы и желания целевой аудитории. Изучение соцсетей и активности посетителей сайта помогает улучшить качество сервиса, повысить лояльность и найти узкие места, которые способствуют оттоку покупателей. Также анализ Big Data позволяет выявить другие неочевидные закономерности, способные повлиять на объём продаж.

Big Data в медицине

Изучив информацию об исследованиях пациентов, методах лечения, эффективности препаратов, можно обнаружить новые закономерности, выявить негативный или положительный эффект от комбинаций лекарственных средств, определить эффективность оказываемых услуг.

Big Data в ИТ

В разработке и продвижении ИТ-продуктов также используются большие данные. Используя предиктивные модели, можно спрогнозировать потребительский спрос на новые сервисы и функции. Специалисты стриминговых платформ получают возможность оценить перспективы нового сериала, анализировать эффективность коммерческих продуктов и фич. Даже рекомендательная система — и та появилась благодаря работе с Big Data.

Big Data в геймдеве

Работа с данными позволяет разработчикам игр выявлять читеров и строить античит-системы, анализировать поведение игроков в играх, вычислять их предпочтения и находить векторы развития, которые способны привлечь новых игроков. Большие данные влияют на монетизацию и пользовательский трафик.

Big Data в госуправлении

Государственные учреждения анализируют собранные данные в целях повышения безопасности граждан, обнаружения положительных или негативных тенденций в обществе и локальных зонах. Работа с Big Data помогает совершенствовать инфраструктуру, повышать эффективность систем ЖКХ, общественного транспорта.

Big Data в финансовом секторе
Большие данные позволяют предсказать финансовую стабильность клиента банка или другой финансовой организации, спрогнозировать его кредитные потребности. На основе Big Data формируются персональные банковские предложения, строятся защищающие от мошенников антифрод-системы.


Полезный материал?
1
1
автор: Всеволод
опубликовано: 24.11.2022
Читайте нас: 
Последние статьи
Вверх!