BIG DATA: горячий сектор ИТ

Тема Big Data сегодня приобретает особую актуальность: изменяя подходы к анализу информации и способы принятия решений, этот тренд оказывает влияние на бизнес всех размеров.

Организации и раньше вкладывали значительные средства в приложения для автоматизации бизнес-процессов и улучшения операционной эффективности. Многие из этих проектов еще продолжаются, но становится совершенно ясно, что управление данными с помощью традиционных методов не обеспечивает правильной информации в правильное время и ее предоставления правильным сотрудникам. Это происходит по разным причинам: из-за плохой интеграции систем и невысокого качества данных, а также проблем с производительностью и масштабируемостью. Многие организации сегодня не могут справиться с трудностями получения данных, необходимых для принятия критически важного решения.

Определение Big Data

О том, как сумма данных в мире растет экспоненциальными темпами, написано немало. Согласно последнему исследованию IDC Digital Universe Study, общий объем создаваемой и реплицируемой информации в 2011 году преодолел рубеж 1,8 трлн гигабайт: это означает, что за последние пять лет объем данных вырос в 9 раз.

Автор: Константин Спиридонов. Впервые опубликовано в журнале "CIO: руководитель информационной службы" № 9 за 2012 год.

В ИТ-индустрии нет пока общей договоренности о том, что понимать под термином Big Data. Многие используют его для обозначения экспоненциального роста данных, проблемы доступности и использования информации в ИТ-ландшафте завтрашнего дня, которому сопутствует накопление огромных массивов информации.

Часто термин Big Data используется для описания массивных объемов данных, которые анализируются сверхкомпаниями вроде Google, Amazon, Facebook либо коллективами, работающими над грандиозными научными проектами, - такими как NASA.

Однако большинство специалистов считают, что понятие Big Data надо соотносить не с объемом, а со скоростью роста данных, при которой предприятие не успевает реагировать на возникающие проблемы. Для большинства корпоративных структур значение термина BIG относительно: все зависит от размера организации. В большей степени речь идет о поиске новой ценности как внутри традиционных источников данных, так и за их пределами.

Под Big Data эксперты многих организаций понимают объемы данных, превосходящие на один или несколько порядков привычные массивы, с которыми работают современные информационные системы. Проблемы Big Data связаны с необходимостью обработки постоянно и резко увеличивающихся объемов информации, поиска и классификации данных в условиях роста сложности и числа их отдельных элементов.

Wikibon определяет Big Data как наборы данных, размер и тип которых не позволяют эффективно обрабатывать и анализировать их с помощью традиционных технологий и инструментов.

Аналитики IDC считают, что пришло время адаптации нового класса технологий для обработки, поиска и анализа тех массивных наборов данных, которые не могут быть реализованы с помощью традиционных инструментов. Реальная ценность будет извлекаться из высокоуровневой аналитики, которая может быть получена на увеличивающихся объемах, скорости и разнообразии данных, генерируемых организациями, - то есть из аналитики Big Data.

Специалисты IDC отмечают, что появление Big Data обусловлено снижением цен на жесткие диски, распространением сенсоров и технологий сбора данных, увеличением количества подключений к информационным ресурсам посредством "облачных" технологий и через виртуализованную инфраструктуру хранения данных, а также появлением инновационных прикладных и аналитических инструментов.

Инновационная бизнес-аналитика как новая технологическая сфера приковывает внимание руководителей ИТ и бизнеса: в ходе исследования IDC Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO 51% респондентов заявили, что инструменты BI и аналитики являются для них приоритетными технологиями. Согласно Global Roundup, 91% представителей опрошенных компаний отметили, что они используют средства для управления и анализа больших данных.

Одно из ключевых отличий аналитики Big Data от традиционных подходов заключается в том, что в эру "больших данных" организации собирают информацию, которая может оказаться как нужной, так и не нужной. Причем не нужной и в перспективе: заранее это определить нельзя. Для работы с такими данными необходимы совершенно новые модели, требующие иной стратегии построения инфраструктуры и, возможно, новой квалификации.

Преодолеть барьеры

Big Data - это тренд, который влияет на бизнес всех размеров и изменяет способы, которыми компании анализируют информацию и принимают решения. По мнению экспертов Wikibon, многие предприятия, которым приходится управлять притоком данных, могут получить от поступающей информации значимую ценность лишь с помощью стратегий Big Data. В связи с этим очень важен технологический сдвиг в плане извлечения ценности из сырых, неочищенных массивов неструктурированных цифровых данных.

РЫНОК BIG DATA - ОДИН ИЗ САМЫХ БЫСТРОРАСТУЩИХ; ЕГО ОБЪЕМ ЧЕРЕЗ ПЯТЬ ЛЕТ ДОСТИГНЕТ $53,4 МЛРД

Большие информационные потоки поступают от источников структурированных операционных данных предприятия (например, CRM) и неструктурированных данных (от социальных сетей и проч.). Пересечение потоков выявляет те болевые точки, к которым бизнес особо чувствителен при управлении данными и расширении их объемов.

Но в работе с Big Data возникают и новые возможности. Результаты недавнего исследования Wikibon этого рынка свидетельствуют о том, что инвестиции в инструменты управления Big Data окупаются сполна уже сегодня. По сути, 75% компаний уже используют их для увеличения своих доходов за счет существующих либо новых потоков данных. Бо,льшая часть передовых предприятий обеспечивает своих сотрудников инструментами работы с Big Data и обучает навыкам, которые необходимы для получения преимуществ от работы с ними.

Хотя Big Data - это та сфера, в которую направляются значительные инвестиции, в ней до сих пор наблюдается дефицит понимания того, как управлять данными, как извлекать из них ценность наиболее эффективным способом. Можно спорить о том, справятся ли с растущими объемами данных имеющиеся инструменты анализа и сами аналитики. Однако лишь 63% из них в ходе опроса Wikibon отметили, что их компании нуждаются в овладении новыми квалификациями и навыками, которые позволят направить данные на пользу бизнесу. А 85% сообщают о том, что сталкиваются с препятствиями в управлении информацией.

Big Data начинают проникать повсюду, и некоторые сотрудники уже сегодня имеют больший доступ к большему количеству технологических опций для управления и анализа. В ходе исследования Wikibon 58% опрошенных утверждают, что в их компаниях управление данными в настоящее время уже встроено в бизнес-операции. И более чем половине организаций (57% за последние 12 месяцев) технологии для анализа и управления данными уже доступны.

Однако возможности эффективной предсказательной аналитики освоены далеко не всеми: 75% респондентов заявили, что в течение предстоящих 12 месяцев их компании собираются дополнительно инвестировать в улучшение методов анализа данных. Эти инвестиции будут направлены в такие сферы, как инструменты предиктивного анализа, мобильный доступ к данным и технологии хранения их в "облаках".

Но самое интересное - 84% респондентов сообщили, что Big Data помогают принимать оптимальные решения. И этот показатель намного выше, чем в предыдущем исследовании Wikibon, где только 46% опрошенных упомянули, что они приняли неверное решение из-за отсутствия данных или из-за их некорректности.

Многие респонденты констатировали, что отрасль испытывает потребность в специалистах для работы с большими данными, способных извлекать заложенный в них потенциал.

Исследование компании Global Roundup показывает, что три основных тренда - мобилизация офиса, "облачные" вычисления и социальные сети - заставляют организации пересмотреть их стратегию управления данными.

Очевидно, что компании начинают видеть реальную ценность, которую можно извлечь из Big Data. И возможности, открывающие технологии работы с большими данными, стоят того, чтобы решать проблемы, которые с ними связаны: бизнес-лидеры становятся более проактивными в их стратегиях управления.

Сценарии для аналитики

Почти 80% корпоративных данных сегодня существует в мультиструктурированном формате. А это значит, что они представляют большую трудность для анализа. Такая информация поступает из call-центров, записей в журналах центров по поддержке заказчиков, сайтов социальных сетей, различных сенсорных данных. Следовательно, компании обязаны теперь решать множество разнообразных задач, которые прежде никогда не существовали. Оптимизация маркетинга, анализ рисков, оптимизация аппаратного обеспечения выдвигают новые требования к приложениям.

В отличие от традиционных, аналитические системы нового поколения позволяют получать знания практически в режиме реального времени. Такие системы помогают приобретать более конкурентоспособные знания в специальных областях и лучше управлять ресурсами; при этом они успешно справляются с гигантскими массивами информации.

СОГЛАСНО WIKIBON, 75% КОМПАНИЙ УЖЕ ИСПОЛЬЗУЮТ BIG DATA ДЛЯ УВЕЛИЧЕНИЯ СВОИХ ДОХОДОВ

С помощью систем нового поколения организации смогут интегрировать и анализировать петабайты неструктурированных данных и получать критически важную информацию за секунды, что ведет к повышению точности решений и более быстрой реакции на изменения.

Аналитические системы реального времени позволяют анализировать поведение клиентов при их обращениях в службу продаж для выбора идеально подходящей именно данному клиенту услуги. Другая перспективная область - анализ и выявление причинно-следственных связей в медицине в режиме реального времени на больших объемах данных. Впрочем, сфер применения подобных решений - великое множество, начиная от маркетинговых исследований и заканчивая разведкой.

По алгоритмам и требуемым ресурсам системы бизнес-аналитики для больших объемов данных сильно отличаются от традиционных аналитических систем. Эти отличия обусловлены необходимостью сократить количество требуемых расчетных ресурсов и вместе с тем обеспечить доступность результатов работы аналитической системы в кратчайшие сроки.

Сезон покупок

Среди имеющихся на российском рынке производителей решений для работы с большими объемами данных в корпоративной среде наиболее известны (по алфавиту) EMC, IBM, Intersystems, Microsoft, Oracle, Teradata и несколько других.

Компания Teradata Software приобрела бизнес Aster Data американского разработчика кластерной системы управления базами данных nCluster, поддерживающей MapReduce-расширение SQL.

IBM купила компанию Netezza, поставщика аппаратно-программных хранилищ данных, с целью расширить портфель продуктов для бизнес-аналитики на основе массивных распределенных хранилищ.

Для работы с большими хранилищами данных Oracle позиционирует решение Exadata. С кластерной базой данных, расположенной на общих дисковых устройствах, одновременно может работать множество экземпляров СУБД Oracle, запущенных на различных узлах кластера.

Hewlett-Packard приобрела компанию Vertica, занимающуюся разработкой решений для хранения и анализа данных, вскоре после сообщения о прекращении работ над собственной платформой для хранилищ данных большого объема Neoview .

EMC, один из лидеров на мировом рынке решений по хранению данных, поглотила компанию Greenplum, известную на рынке программных решений Data Warehouse, основанных на СУБД с открытым кодом PostgreSQL и решающих "корпоративные" задачи в области бизнес-аналитики, а также ориентированных на применение в рамках "облачных" платформ.

Корпорация Microsoft купила Data Allegro, в результате чего в ее линейке появился продукт PDW (Parallel Data Warehouse).

Новые технологии

 В начале 2012 года рынок Big Data пересек отметку в $5 млрд (включая программное, аппаратное обеспечение, а также доходы от предоставления сервисов). Разработки в области технологий и сервисов делают Big Data практической реальностью: специалисты Wikibon ожидают с 2012 по 2017 год ежегодного прироста данных в 58%.

Оценивая рынок Big Data, Wikibon включает в него технологии, инструменты и сервисы, спроектированные специально для того, чтобы устранить возникающие проблемы. В перечень этих средств входят:

распределенная платформа Hadoop, программное и аппаратное обеспечение;

хранилища данных нового поколения;

аналитические платформы Big Data и соответствующие приложения;

инструменты корпоративного интеллекта (Business intelligence) (BI), средства анализа информации в базе данных (data mining), платформы визуализации и прочие приложения, работающие с Big Data;

поддержка инсталлированных продуктов Big Data, обучение и профессиональные сервисы.

В исследовании Gartner (отчет Hype Cycle for Big Data, 2012) отмечается, что практически все технологии, которые относятся к классу Big Data, являются нетрадиционными. Часть из них - технологии, находящиеся на ранней стадии своего развития. Если заказчики уже сегодня захотят внедрить слабо принятые рынком возможности, им сопутствует определенный риск. Примером новой, пока еще не проработанной квалификации является профессия исследователя данных - Data Scientist. Рынок испытывает большую нехватку таких специалистов, наличие которых у себя отмечают лишь 1% компаний.

А технологии, которые уже приняты рынком, активно внедряются и ожидания от них выравниваются с их техническим потенциалом. Примером зрелой технологии является MAP Reduce - часть платформы Hadoop. Технология пережила маркетинговый взлет и разочарования и теперь выходит на тот этап, где ее начинают активно внедрять и использовать коммерческие клиенты.

В качестве примера вполне зрелой технологии можно привести Column Store Data Base - новый архитектурный стиль построения баз данных. Изначально реляционные базы данных использовали хранение по строкам (записям), что хорошо сочеталось с транзакционной нагрузкой: в транзакционной базе данных любая операция по удалению или обновлению записи затрагивает всю строку целиком. Если таких строк или полей немного - это небольшая проблема. Но как только таблица становится объемной, запрос к ней создает нагрузку на подсистему ввода-вывода и выбивает из кеша полезную информацию. На больших объемах данных для решения аналитических задач такая архитектура оказалась крайне невыгодной.

ОТРАСЛЬ НУЖДАЕТСЯ В СПЕЦИАЛИСТАХ ДЛЯ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ, СПОСОБНЫХ ИЗВЛЕКАТЬ ЗАЛОЖЕННЫЙ В НИХ ПОТЕНЦИАЛ

А вот организация хранения по столбцам позволяет обновлять не всю строку целиком, а лишь отдельные поля, благодаря чему объем ввода-вывода падает в несколько раз. Ко всему прочему, однотипные данные, которые хранятся по столбцам, можно очень эффективно сжимать: коэффициент сжатия иногда достигает 1 000.

Первая коммерческая реализация Column Store Data Base была выполнена компанией Sybase. Сегодня это уже вполне зрелая технология, которая позволяет обрабатывать запросы гораздо более быстрым способом, нежели традиционная архитектура строковых записей в базу данных.

Доходы рынка

По текущему состоянию рынка Big Data общий объем доходов тех его игроков, которые фокусируются исключительно на продуктах Big Data, составляет около 480 млн долларов. Несмотря на то что вклад данных компаний в общий объем рынка не очень велик, вендоры этой ниши - компании Vertica, Splunk и Clouderra - являются проводниками большинства инноваций и современных подходов к управлению данными и инструментов аналитики, которые появились на рынке за последние несколько лет и сделали Big Data самым горячим сектором ИТ.

Wikibon оценивает доходы фокусных игроков Big Data - разработчиков софта, производителей железа и поставщиков сервисов - в размере более 50% от общего дохода. Эта группа также включает трех игроков, до недавнего времени бывших независимыми поставщиками хранилищ данных (data warehoouses), - HP Vertica, Teradata Aster и EMC GreenPlum. Поглотившие их компании оперируют этими направлениями как независимыми бизнесами.

Компаниям Intel, Seagate и Super Micro принадлежат значительные доли рынка Big Data. Это обусловлено проектами по масштабированию кластеров Big Data, в которых используются стандартные компоненты. К примеру, подобные стандартные компоненты используют такие интернет-гиганты, как Google и Facebook.

Большую долю доходов на рынке Big Data в компании IBM составляют сервисы. К тому же у IBM сильная линейка аналитических программных продуктов.

Показатели Oracle включили в себя продукты Exadata и Exalogic: они используются благодаря нетрадиционным подходам к управлению большими объемами данных. Однако не все доходы от этих продуктов вошли в таблицу. Оценивались только те, что связаны с крупными развертываниями.

В список поставщиков хранилищ данных нового поколения входят такие компании, как Vertica, Greenplum, Aster Data.

Наиболее эффективные инновации на рынке Big Data пришли от ряда фокусных игроков, которым сегодня принадлежит небольшая доля рынка. И хотя, по мнению аналитиков Wikibon, не всех их ждет успех в долгосрочной перспективе, некоторые уже успели добиться значительных доходов. Многие из этих вендоров будут переживать быстрый рост оборота в течение предстоящих пяти лет (включая их продукты и сервисы по поддержке, с учетом зрелости каналов сбыта).

Как случилось и на других быстрорастущих рынках (например, на рынке Business Intelligence в 2007-2008 годах), рынок Big Data, по мнению аналитиков Wikibon, будет переживать значительную консолидацию в течение последующих трех-пяти лет. Вендоры, собирающиеся приобретать эти активы, должны обладать достаточной мудростью, чтобы позволить текущим фокусным игрокам Big Data продолжать свою работу, а что еще более важно - инновационную деятельность как крупных независимых структур. В противном случае есть риск удушения серьезных инноваций, которые являются "топливом" для впечатляющего роста рынка Big Data.

Новая профессия

На исследователей данных сегодня существует очень большой спрос. Организации стремятся мотивировать и удерживать таких сотрудников, пытаются создать наиболее комфортные условия для работы этих специалистов.

Для того чтобы эффективно решить задачи анализа больших данных, от исследователя данных, по мнению Ильи Гершанова, технологического консультанта подразделения GreenPlum (Data Computing Division), требуется пять основных качеств: необходимо иметь навыки программирования, обладать знанием технической платформы, навыками общения и презентаций, осведомленностью в предметной области и иметь специализированную подготовку в области математики/статистики.

Таким специалистам надо хорошо знать инструментарий для работы с данными - технологии управления базами данных, в том числе на платформе Hadoop. Очень важно понимать проблемы бизнеса, которые решает такой специалист. Опыт показывает, что без предметной экспертизы в работе исследователя данных не обойтись. Не менее важно также знание математических методов работы с информацией, методов статистики.

Исследователь данных должен в совершенстве владеть всем этим арсеналом. В дополнение к технологиям, ему необходимо умение общаться, доходчиво представлять информацию.

В компании EMC концепция проекта по анализу больших данных проработана вплоть до шаблонов, презентаций, материалов, которые предоставляются заказчику. В учебном центре EMC можно пройти курс обучения по технологиям Big Data и сдать соответствующий экзамен. Воспользовавшись услугой Analytics Labs, клиент очень быстро (буквально за 2 недели) получает общее понимание технологий Big Data, приоритизированный список задач аналитики больших данных с оценкой их бизнес-ценности, высокоуровневый дизайн ИТ-инфраструктуры, необходимый для их решения. Приведенный пример - для "минимального тарифного плана", есть и более глубокие варианты.

Константин Спиридонов 


Страница сайта http://interface.ru
Оригинал находится по адресу http://interface.ru/home.asp?artId=32555