admin / 20.02.2018

Что такое большие данные

Под обобщающим термином «большие данные» принято понимать любые наборы данных, достаточно большие и сложные для того, чтобы их можно было бы обработать традиционными средствами работы с данными (например, РСУБД – реляционными системами управления базами данных). Единого мнения о том, какой объём считать «достаточно большим», нет, но нужно помнить, что сам термин «большие данные» — это не только про объём данных.

С данным термином связывают концепцию «Volume, Velocity, Variety, Veracity, Value»принципы, на которых строится работа с большими данными. Это непосредственно объем информации, быстродействие её обработки, разнообразие сведений, хранящихся в массиве, достоверность этих данных, а также их ценность. То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

Технологии больших данных можно разбить на несколько основных категорий (экосистема больших данных):

  • Базы данных NoSQL и NewSQL: для хранения огромных объемов данных (NoSQL: MongoDB, MemCache, Hbase, HyperTable, Cassandra, Neo4J; NewSQL: Hive, Impala, BayesDB, Sensei, Drizzle).
  • Распределенная файловая система: для масштабирования и работы на нескольких серверах сразу (HDFS, Red Hat ClusterFS, Apache MapReduce, Apache Pig, Apache Spark).
  • Машинное обучение: извлечение полезных знаний из данных (Mahout, WEKA, SPARK, Python, R).
  • Планирование: для автоматизации повторяющихся операций и запуск заданий по событиям (Oozie, Falcon).
  • Развертывание системы: автоматизация установки и настройки компонентов (новых приложений) в кластерах больших данных (Mesos, HUE, Ambari).
  • Программирование служб: обеспечение доступа к приложениям больших данных как к сервису (Apache Thrift, Zookeper).
  • Безопасность: создание централизованной и высокоточной системы управления доступом к данным (Sentry, Ranger).
  • Интеграция данных: объединение данных, находящихся в разных источниках (Apache Flume, Sqoop, Scribe).

Большие данные встречаются повсеместно как в коммерческих, так и в некоммерческих средах. Количество потенциальных применений огромно и включает в себя такие сферы (но не ограничивается ими): маркетинг, образование, медицина, биология, финансы, безопасность и др.

Источники больших данных: социальные сети, датчики, текст, видео, изображения, логи веб-сайтов, данные масштабных экспериментов, геопространственные данные и др. В большинстве случаев данные неструктурированы или полуструктурированы.

Таким образом, понятие больших данных подразумевает работу с данными огромного объема и разнообразного состава, часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.

Big Data или боль­шие дан­ные — это серия под­хо­дов, инстру­мен­тов и мето­дов обра­ботки струк­ту­ри­ро­ван­ных, слабо струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных огром­ных объ­ё­мов и зна­чи­тель­ного мно­го­об­ра­зия для полу­че­ния вос­при­ни­ма­е­мых чело­ве­ком резуль­та­тов, эффек­тив­ных в усло­виях непре­рыв­ного при­ро­ста, рас­пре­де­ле­ния по мно­го­чис­лен­ным узлам вычис­ли­тель­ной сети, аль­тер­на­тив­ных тра­ди­ци­он­ным систе­мам управ­ле­ния базами дан­ных и реше­ниям класса Business Intelligence. В дан­ную серию вклю­чают сред­ства мас­сово-парал­лель­ной обра­ботки неопре­делённо струк­ту­ри­ро­ван­ных дан­ных, преж­де все­го, реше­ниями кате­го­рии NoSQL, алго­рит­мами MapReduce, про­грамм­ными кар­ка­сами и биб­лио­те­ками про­екта Hadoop.

В каче­стве опре­де­ля­ю­щих харак­те­ри­стик для боль­ших дан­ных отме­чают «три V» — volume (объём), velocity (ско­рость), variety (мно­го­об­ра­зие).

Большие Данные

  • объём — в смысле вели­чины физи­че­ского объёма,
  • ско­рость — в смыс­лах как ско­ро­сти при­ро­ста, так и необ­хо­ди­мо­сти высо­ко­ско­рост­ной обра­ботки и полу­че­ния резуль­та­тов,
  • мно­го­об­ра­зие — в смысле воз­мож­но­сти одно­вре­мен­ной обра­ботки раз­лич­ных типов струк­ту­ри­ро­ван­ных и неструк­ту­ри­ро­ван­ных дан­ных.

В реаль­но­сти, только очень круп­ные ком­па­нии обла­дают боль­шими дан­ными в истин­ном пони­ма­нии этого термина, так как даже несколько тер­ра­байт накоп­лен­ной ста­ти­стики тако­выми про­сто не явля­ют­ся. Тер­ра­байт­ная реля­ци­он­ная база дан­ных — это highload-DB, а не Big Data. Раз­ница между этими поня­ти­ями в воз­мож­но­сти стро­ить гиб­кие запро­сы. Обыч­ные реля­ци­он­ные базы дан­ных под­хо­дят для доста­точно быст­рых и одно­тип­ных запро­сов, а на слож­ных и гибко постро­ен­ных запро­сах нагрузка про­сто пре­вы­шает все разум­ные пре­делы и исполь­зо­ва­ние СУБД ста­но­вится неэф­фек­тив­ным. При этом, методы ана­лиза Big Data вполне при­ме­нимы и к дан­ным, кото­рые изна­чально боль­шими не явля­ют­ся, более того, ана­ли­ти­ка, постро­ен­ная на ста­ти­сти­че­ском ана­лизе и машин­ном обу­че­нии может быть полезна во мно­гих про­ектах.

Некото­рые методы и тех­ники ана­лиза, при­ме­нимые к Big Data

  • Data Mining: обу­че­ние ассо­ци­а­тив­ным пра­ви­лам, клас­си­фи­ка­ция (методы кате­го­ри­за­ции новых дан­ных на основе прин­ци­пов, ранее при­менён­ных к уже нали­че­ству­ю­щим дан­ным), кла­стер­ный ана­лиз, регрес­си­он­ный ана­лиз;
  • Кра­уд­сор­синг — кате­го­ри­за­ция и обо­га­ще­ние дан­ных силами широ­ко­го, неопре­делённого круга лиц;
  • Сме­ше­ние и инте­гра­ция дан­ных — набор тех­ник, поз­во­ля­ю­щих инте­гри­ро­вать раз­но­род­ные дан­ные из раз­но­об­раз­ных источ­ни­ков для воз­мож­но­сти глу­бин­ного ана­лиза;
  • Машин­ное обу­че­ние, вклю­чая обу­че­ние с учи­те­лем и без учи­те­ля, а также исполь­зо­ва­ние моде­лей, постро­ен­ных на базе ста­ти­сти­че­ского ана­лиза или машин­ного обу­че­ния для полу­че­ния ком­плекс­ных про­гно­зов на основе базо­вых моде­лей;
  • искус­ствен­ные ней­рон­ные сети, сете­вой ана­лиз, опти­ми­за­ция, в том числе гене­ти­че­ские алгоритмы;
  • про­стран­ствен­ный ана­лиз — исполь­зо­ва­ние топо­ло­ги­че­ской, гео­мет­ри­че­ской и гео­гра­фи­че­ской инфор­ма­ции в дан­ных;
  • ста­ти­сти­че­ский ана­лиз: A/B-тести­ро­ва­ние и ана­лиз вре­мен­ных рядов;
  • визу­а­ли­за­ция ана­ли­ти­че­ских дан­ных — пред­став­ле­ние инфор­ма­ции в виде рисун­ков, гра­фи­ков, схем и диа­грамм с исполь­зо­ва­нием интер­ак­тив­ных воз­мож­но­стей и ани­ма­ции как для резуль­та­тов, так и для исполь­зо­ва­ния в каче­стве исход­ных дан­ных для даль­ней­шего ана­лиза.

.

В рамках серии конференций ClickZ Live New York, проходивших в этом году, состоялся круглый стол, участники которого пытались получить ответ на животрепещущий вопрос: действительно ли Big Data работают на маркетологов, и каким именно образом?

Большие Данные уже давно не являются новомодным маркетинговым термином. На смену этим некогда загадочным словам пришли другие buzz words — «маркетинговое облако контента», «второй экран», «геймификация» и др.

Для начала необходимо понять, работают ли на маркетологов небольшие фрагменты данных или какая-либо их аналитика. Слишком многие специалисты, несмотря на появление дата-технологий и интеграцию социальных сетей и таргетинга с решениями CRM, не умеют оптимизировать свои локальные data-процессы, не говоря уже об обработке больших массивов мультиструктурированных данных в режиме реального времени. Поэтому начинать нужно с базовых объемов, постепенно добавляя в маркетинговый микс больше данных и динамики.

Эксперты круглого стола Clickz Live выделили 5 аспектов рекламных кампаний, на которые может повлиять правильное использование Big Data.

1. Сегментация. Имея доступ к обновляющимся массивам пользовательских данных, вы можете отказаться от классической модели списков и начать работать по схеме 1:1 (персонализированный, клиентоориентированный маркетинг). Если вы психологоически готовы к этому шагу и имеете технологическую основу для сбора и обработки актуальных данных в реальном времени — вперед, к 1-2-1 маркетингу! Это в корне изменит правила игры в целом и методы использования Больших Данных в частности.

2. Прототипы. В цифровом маркетинге под этим термином подразумевают определенный набор пользовательских характеристик, представляющий ту или иную группу целевой аудитории. Несмотря на то, что этому принципу сегодня часто предпочитают размещение, основанное на статистике посещений и интересах аудитории, прототипы все еще играют важную роль в современном маркетинге. Большие данные помогают формировать более точные и динамические прототипы, что, соответственно, увеличивает шансы на попадание в цель при аудиторных закупках для той или иной таргетированной кампании.

3. Социальная аналитика. Социальные сети — идеальная область применения больших данных, даже если вы не используете их при работе с другими аспектами кампаний. Упорядочивайте разрозненную информацию из постов, комментариев и твитов, чтобы понимать своих клиентов лучше и обращаться к каждому максимально персонализированно.

4. Оптимизация коммуникационного канала. Оптимизировать каждый отдельно взятый канал, не говоря уже о мультиканальной оптимизации на потребительском уровне — это очень непростая задача. Большие Данные могут помочь маркетологам понять, что важно в данный конкретный момент. Big Data могут быть на самом деле полезными, если маркетолог хочет прийти к пониманию того, какие клиенты являются наиболее ценными в рамках каждого канала. Платформы, посредством которых осуществляется управление Большими Данными, могут обрабатывать как структурированные, так и не структурированные данные. Так что исследователям рынка действительно нужно включать в свой анализ статистику webstream, clickstream и социальные данные.

5. Естественная реклама. Могут ли Большие Данные помочь оперативно собирать, организовывать и отображать контент? Могут ли они передавать в «командный центр» информацию, которая бы помогала увеличивать эффективность предложений в ключевых точках взаимодействия с клиентом? Да.

Почему за большими данными будущее и огромные деньги

Актуальные, обновляющиеся данные, несомненнно, могут играть ключевую роль в становлении и развитии Native. Конечно, работа с Big Data и алгоритмами предполагает риск чрезмерной зависимости от автоматизации процессов, что, по идее, с трудом укладывается в концепцию контент-маркетинга. Но ошибок бояться не стоит, гораздо интереснее на них учиться.

Источник: clickz.com

FILED UNDER : IT

Submit a Comment

Must be required * marked fields.

:*
:*