Большие, быстрые и разные: что такое big data и почему это важно?

что такое big data

Big data — это термин, который описывает большой объем данных, как структурированных, так и неструктурированных, которые ежедневно используется в бизнесе, журналистике и рекламе. Но важен не объем данных. Важно то, что организации делают с данными. Компании могут использовать big data для того, чтобы улучшать бизнес-решения и стратегии.

История больших данных

Термин big data относится к данным, которые являются такими большими, быстрыми и сложными, что их трудно или невозможно обрабатывать традиционными методами. Люди и раньше хранили большие объемы информации для аналитики, но концепция «больших данных» получила распространение в начале 2000-х годов, когда отраслевой аналитик Даг Лейни сформулировал основное определение больших данных — правило три V:

Volume (Объем). Большие данные не зря называются большими: организации собирают данные из различных источников, включая бизнес-транзакции, интеллектуальные (IoT) устройства, промышленное оборудование, видео, социальные сети и многое другое..
 
Velocity (Скорость). С ростом интернета вещей потоки данных поступают на предприятия с беспрецедентной скоростью и должны обрабатываться своевременно. RFID-метки, датчики и интеллектуальные счетчики приводят к необходимости справляться с этими потоками данных практически в реальном времени.
 
Variety (Разнообразие)․  Данные поступают во всех типах форматов — от структурированных числовых данных в традиционных базах данных до неструктурированных текстовых документов, электронных писем, видео, аудио, биржевых данных и финансовых транзакций.
 
За последние несколько лет появилось еще два V: Variability (ценность) и Veracity (достоверность).
 
Variability:
 
В дополнение к возрастающим скоростям и разнообразию данных, потоки данных непредсказуемы — они часто меняются и сильно варьируются. Это сложная задача, но бизнес должен знать, когда что-то меняется в социальных сетях, и как управлять ежедневными, сезонными и стихийными данными.
 
Veracity:
 
Правдивость относится к качеству данных. Поскольку данные поступают из множества разных источников, сложно связать, сопоставить, очистить и преобразовать данные в разных системах. Предприятиям необходимо соединять и коррелировать отношения, иерархии и множественные связи данных. В противном случае их данные могут быстро выйти из-под контроля.
что такое big data

Важность больших данных

Суть больших данных не в количестве, а в том, что вы с ними делаете. Вы можете взять данные из любого источника и проанализировать их, чтобы найти ответы, которые позволяют сократить расходы и время, разработать новый продукт и оптимизировать предложения, принять разумные решения. Когда вы объединяете большие данные с мощной аналитикой, вы можете решать связанные с бизнесом задачи. Вот лишь часть из них:

  • Определение основных причин сбоев, проблем и дефектов в реальном времени.
  • Создание купонов в точках продаж на основе покупательских привычек покупателя.
  • Пересчет всего портфеля рисков в считанные минуты.
  • Обнаружение мошеннического поведения до того, как оно повлияет на вашу организацию.

Компании используют большие данные, накопленные в их системах, для улучшения работы, обеспечения лучшего обслуживания клиентов, создания персонализированных маркетинговых кампаний на основе конкретных предпочтений клиентов и, в конечном итоге, повышения прибыльности. Компании, использующие большие данные, обладают потенциальным конкурентным преимуществом по сравнению с теми, которые этого не делают, поскольку они способны принимать более быстрые и обоснованные бизнес-решения при условии эффективного использования данных.

Например, большие данные могут предоставить компаниям ценную информацию о своих клиентах, которую можно использовать для совершенствования маркетинговых кампаний и методов с целью повышения вовлеченности клиентов и коэффициентов конверсии.

что такое big data

Использование больших данных

Использование больших данных позволяет компаниям все больше ориентироваться на клиентов . Исторические данные и данные в режиме реального времени могут использоваться для оценки меняющихся предпочтений потребителей, что позволяет предприятиям обновлять и улучшать свои маркетинговые стратегии и становиться более чуткими к желаниям и потребностям клиентов.

Большие данные также используются медицинскими исследователями для выявления факторов риска заболеваний и врачами для диагностики заболеваний и состояний у отдельных пациентов. Кроме того, данные, полученные из электронных медицинских карт (EHR), социальных сетей, интернета и других источников, предоставляют медицинским организациям и правительственным учреждениям самую свежую информацию об угрозах или вспышках инфекционных заболеваний.

В энергетике большие данные помогают нефтегазовым компаниям определять потенциальные места бурения и контролировать работу трубопроводов; Аналогично, коммунальные службы используют его для отслеживания электрических сетей. Фирмы, предоставляющие финансовые услуги, используют большие системы данных для управления рисками и анализа рыночных данных в режиме реального времени. Производители и транспортные компании используют большие данные для управления своими цепочками поставок и оптимизации маршрутов доставки. Другие виды государственного использования включают реагирование на чрезвычайные ситуации, предупреждение преступности и инициативы «умного города».

что такое big data

Хранение и обработка больших данных

Необходимость обработки больших объемов данных предъявляет уникальные требования к базовой вычислительной инфраструктуре. Вычислительная мощность, необходимая для быстрой обработки огромных объемов и типов данных, может сокрушить один сервер или кластер серверов. Организации должны применять адекватную вычислительную мощность для задач с большими данными, чтобы достичь необходимой скорости. Это может потребовать сотен или тысяч серверов, которые могут распределять обработку и работать совместно в кластерной архитектуре, часто основанной на таких технологиях, как Hadoop и Apache Spark.

Чтобы еще больше повысить уровень обслуживания, поставщики общедоступных облачных услуг предлагают возможности для работы с большими данными посредством управляемых услуг, которые включают следующее:

  • Amazon EMR (ранее Elastic MapReduce),
  • Microsoft Azure HDInsight,
  • Google Cloud Dataproc.

В облачных средах большие данные могут храниться в следующих местах:

  • Распределенная файловая система Hadoop (HDFS);
  • более дешевое облачное хранилище объектов, такое как Amazon Simple Storage Service (S3);
  • Базы данных NoSQL; 
  • реляционные базы данных.

Для организаций, которые хотят развернуть локальные системы больших данных, обычно используются технологии с открытым исходным кодом Apache в дополнение к Hadoop и Spark.

что такое big data

Практика и правила сбора больших данных

В течение многих лет у компаний было мало ограничений в отношении данных, которые они собирали у своих клиентов. Однако по мере увеличения сбора и использования больших данных растет и злоупотребление данными. Обеспокоенные граждане, которые столкнулись с ненадлежащим обращением со своими личными данными или стали жертвами взлома данных, призывают принять законы, касающиеся прозрачности сбора данных и конфиденциальности данных потребителей .

Возмущение в связи с нарушениями неприкосновенности частной жизни привело к тому, что Европейский Союз принял Общие положения о защите данных (GDPR), которые вступили в силу в мае 2018 года; он ограничивает типы данных, которые могут собирать организации, и требует согласия отдельных лиц или соблюдения других установленных законных оснований для сбора личных данных. GDPR также включает в себя положение о праве быть забытым, которое позволяет резидентам ЕС просить компании удалить свои данные.

Такого закона в России пока нет: ранее Минкомсвязи предложил законопроект, который бы ограничил использование данных, однако Правительство его отклонило. Однако идея законопроекта не нравилась и представителям бизнеса — понятие было истолковано слишком широко.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *