"Большие данные" - катализатор глобальных идей

Тема Big Data - одна из самых обсуждаемых. Однако в ходе рассуждений на эту тему обнаруживается множество разночтений, противоречий, вопросов, которые не находят однозначного ответа. О том, что следует понимать под термином Big Data, о сферах применения, о проблемах и вариантах решений мы беседуем с экспертами из компании "Инфосистемы Джет" - Сергеем Артемовым, архитектором Центра проектирования вычислительных комплексов, и Иваном Бодровым, архитектором Центра программных решений.

ИВАН БОДРОВ: "БИЗНЕСУ НУЖНО ХРАНИТЬ ДАННЫЕ И РАБОТАТЬ С НИМИ"

Давайте начнем нашу беседу с определения Big Data. Под этим термином подразумеваются технологии, которые позволяют собирать, хранить и анализировать огромные объемы информации. Но, как только заходит речь об их практическом применении, обнаруживается, что специалисты трактуют Big Data по-разному.

И.Б.: Действительно, термином Big Data сейчас обозначают различные новые технологии. Можно разделить их

узкоспециализированные задачи. Это, например, обработка больших объемов сырых данных (статистика, данные с датчиков, камер наблюдений, медицинские, бизнес-логирование), простое горизонтальное масштабирование (стартапы), альтернативные модели работы и хранения информации (социальные сети, user-generated content, кеширование данных).

Во-вторых, Hadoop - фактически фреймворк для обработки и хранения данных.

СЕРГЕЙ АРТЕМОВ: "РАБОТА С БОЛЬШИМИ ОБЪЕМАМИ ДАННЫХ НЕ ОБЯЗАТЕЛЬНО ПОДРАЗУМЕВАЕТ ПРИМЕНЕНИЕ НОВОМОДНЫХ ТЕХНОЛОГИЙ"

 С.А.: Работа с большими объемами данных не обязательно подразумевает применение новомодных технологий. На рынке существует много решений на классических методиках, которые позволяют работать с "большими данными" традиционными способами. У нас есть компетенции в реализации баз данных больших объемов - например, на Oracle Exadata.

И.Б.: Подчеркнем еще раз: потребность в технологиях Big Data возникает не только в случае, когда данных становится много. Скорее, потребность в них возникает, когда компания переосмысливает отношение к накопленной информации, принимает решение, например, о том, что нужно хранить ее дольше. Меняется концепция работы с данными, выявляются их новое качество и ценность.

С.А.: К решению проблемы хранения и обработки "больших данных" можно подходить с разных сторон. Поэтому задача клиента и проектировщика, который с ним работает, состоит в том, чтобы выбрать оптимальную технологию, соблюсти баланс между стоимостью решения, нуждами клиента, производительностью систем и объемом данных. Если вам необходимо, чтобы у вас за спиной стоял большой и надежный вендор, есть деньги на промышленное решение, имеются ресурсы и вы строите классический Data Warehouse - совсем не факт, что он подойдет к решению задачи со стороны Big Data.

Если существуют надежные вендорские решения для работы с "большими данными", которые прошли проверку временем, - что же может побудить компанию обратиться к технологиям Big Data?

И.Б.: Бизнесу нужно хранить данные и работать с ними. Как правило, сначала такая работа строится с использованием массивов среднего уровня. Со временем компания сталкивается с проблемой: массивы не масштабируются до нужного размера. Компания переходит на enterprise-решение. Бизнес растет, и наступает момент, когда данных вливается больше, чем мы успеваем обработать на существующем "железе", и нет возможности масштабировать это "железо". Когда данных больше, чем их успевают обработать традиционным способом. Или компания осознает: используемое решение ее устраивает, но расходы на его поддержку слишком велики. Начинаются поиски компромисса.

Вариантов, собственно говоря, два: либо компания отказывается от хранения части информации, либо переходит на новые технологии, которые позволят снять неподъемную финансовую нагрузку на обслуживание системы хранения данных. Технологии Big Data как раз являются таким средством. Компания может перевести часть функционала своей системы хранения на Big Data - свободно или условно свободно распространяемый продукт. Заплатить только за поддержку, собрать кластер из недорогих машин и на нем реализовать систему хранения. Это будет значительно дешевле с точки зрения "железа" и лицензии на программное обеспечение.

А насколько затратен переход на новую модель работы с "большими данными"?

С.А.: Затраты будут серьезными, поскольку придется во многом изменять архитектуру программного продукта, на котором реализован процесс работы с "большими данными". Просто изъять фрагмент сложившейся архитектуры и механически перенести его на новое технологическое решение не получится.

Есть ли примеры проектов российских компаний по реализации технологий Big Data?

И.Б.: Здесь мы снова возвращаемся в исходную точку: что именно понимать под технологиями Big Data? Если мы говорим, что это любая NoSQL-база, - тогда по Big Data реализуется много проектов и в России, и на Западе. Однако эти технологии применяются и без огромных наборов данных.

А Hadoop - это Big Data? Многие компании, задачи которых хорошо ложатся на Hadoop, реализуют проекты на его основе. Но это не обязательно большие объемы данных.

Если иметь в виду именно огромные массивы информации, с которыми не способны справиться существующие технологии, то таких примеров гораздо меньше. Полагаю, у одного-двух наших заказчиков в России объемы данных приближаются к тому, что мы назвали Big Data.

IDC в качестве одного из сдерживающих факторов для рынка Big Data называет нехватку технологических экспертов. Насколько эта проблема остра для российского рынка? Какими путями она может решаться?

И.Б.: Как правило, технологические эксперты специализируются на каких-то устоявшихся продуктах с большой историей, развитой инфраструктурой внедрения и поддержки, со сложившейся системой сертификации. Задачи, которые стоят перед разработчиками и аналитиками, много лет решались определенным образом. Есть наработанные методики, инструменты. И в основном люди стараются решать задачи так, как они привыкли.

Поэтому, когда вы приглашаете такого специалиста, вы знаете, чего от него ожидать. А эксперт в области Big Data - это некий микст разработчика и специалиста по вычислительным системам. Понятно, что их пока на рынке не много, поскольку задач по работе с "большими данными" клиенты массово не решают. Такие проекты - продукт штучный, заказная разработка. Будет развиваться рынок - будут, разумеется, появляться и специалисты.

Возможно, рынок сдерживает тот факт, что никто не хочет быть "испытательным полигоном" для обкатки новых технологий. Может быть, кадры и готовы, но предпочтут внедрять классическое решение, поскольку риски пока мало изу­чены. Особенно если вы рисковать не готовы.

С.А.: Не думаю, что проблема с нехваткой технологических экспертов велика. Их у нас хватает, даже с избытком. А вот людей, которые могут монетизировать экспертные знания, - всегда не хватает.

Однако не только новые бизнес-идеи вызывают к жизни новые технологии, но и технологии могут способствовать появлению качественно новых бизнес-идей. Сейчас часть информации компании просто отбрасывают, потому что совершенно непонятно, как ее использовать в текущей парадигме развития бизнеса. Как только осядет вся "пыль", поднятая обсуждением Big Data, и появится четкое понимание точек приложения, Big Data станут применять повсеместно. Люди начнут задумываться: что делать с информацией, которую мы не обрабатываем? Как получить из нее что-то коммерчески интересное? Как только такие вопросы начнут задавать - сразу же возникнет потребность в технологиях. Но поиск таких качественно новых задач - аспект не технологический, а бизнесовый.

И.Б.: Big Data еще дальше отодвигают предел возможностей ИТ. Просто на данный момент предложение несколько превышает спрос, опережает его. Но замечательно, что в этом мире существуют люди, которые думают о будущем. Готовят новые решения, идеи, инструменты, которые потребуются через годы.

Получается, что дело не в технологиях, а в постановке задач: пока рынок не окажется заинтересован в получении какого-то нового качества - технологии не будут вос­требованы.

И.Б.: Самое важное - идеи. Ежедневно компании уничтожают огромные объемы данных, потому что никто не знает, как их использовать. Не многие специалисты способны воплотить новые технологии, методики и инструменты во что-то коммерчески полезное. Большинство таких специалистов - не на нашем рынке, а на западном.

С.А.: На самом деле Запад не так далеко продвинулся в будущее, как нам кажется. Я пытался найти примеры внедрений Big Data, посмотреть, какие проблемы были решены. И обнаружил весьма скромный набор случаев классического применения Big Data. Кроме "монстров", которые породили эти технологии для собственных нужд (Google и Amazon), примеров не так много.

А что все же удалось обнаружить? Какие задачи уже сейчас решаются на Big Data?

С.А.: Например, есть интересное решение, связанное с распределенной обработкой большого количества логов. Крупная аутсорсинговая компания поддерживает ИТ-инфраструктуру в сотнях организаций. Перед ней вплотную стоят задачи сбора, анализа логов всех серверов своих клиентов. Это могут быть терабайты данных за день. Компания-аутсорсер внедрила решение для работы с логами на основе Hadoop, NoSQL и прочих продуктов. Решение красивое, специалисты компании свидетельствуют, что оно отлично работает. Но это практически единичный пример.

ПОТРЕБНОСТЬ В ТЕХНОЛОГИЯХ BIG DATA ВОЗНИКАЕТ, КОГДА МЕНЯЕТСЯ КОНЦЕПЦИЯ РАБОТЫ С ДАННЫМИ, ВЫЯВЛЯЮТСЯ ИХ НОВОЕ КАЧЕСТВО И ЦЕННОСТЬ

Справедливости ради надо отметить, что у крупных вендоров продукты Big Data - это не отдельный комплект, а часть выстроенного ими технологического процесса обработки и хранения данных. Поэтому все рассуждения о том, что на Западе повсеместно внедряют Big Data, можно отнести к разряду спекуляций. То есть технологии Big Data предоставляются в составе решений, а вот будут ли применяться "на месте" - это другой вопрос.

И.Б.: В любой крупной компании существует система корпоративных стандартов, в том числе технологических. Отметим, что технологические стандарты практически всех компаний на сегодня никаких решений Big Data в себя не включают. Нужны пересмотр и включение их в перечень используемых решений.

Не очень понятно, как будет сделан этот шаг. Большие компании консервативны и нечасто пересматривают свои корпоративные стандарты.

С.А.: Вероятно, развитие рынка будет происходить через прикладные системы, которые принесут технологии Big Data с собой. Драйвером рынка в данном случае станут разработчики. Если почувствуют, что их системы нуждаются в технологиях Big Data, они начнут включать их в свои комплексные системы, которые будут поставляться с этим компонентом. Таких систем может быть немало. Приведу пример из нашей жизни. Разработчики компании "Инфосистемы Джет", которые развивают наше DLP-решение "Дозор-Джет", отмечают, что в ряде случаев им не хватает возможностей реляционных баз данных для анализа почтовых сообщений. Поэтому они рассматривают вариант разработки хранилища почтовых сообщений на основе Hadoop и NoSQL.

Какие российские компании в первую очередь будут заинтересованы в применении Big Data?

И.Б.: Например, крупные телеком-операторы. Одна из насущных проблем - логирование большого количества событий (десятки миллионов в сутки) в системе дистрибуции цифрового контента. Логи используются для построения бизнес-отчетов, на которых строятся взаиморасчеты с партнерами, производится анализ показателей по выручке, прибыльности, эффективности акций оператора и его партнеров. Эти задачи можно решать с помощью Big Data. Сейчас задача логирования решается не очень эффективно: логи в несколько свое­образной форме загружаются в SQL-базу, производится их нормализация, загрузка суточных данных занимает почти сутки. Соответственно, как только бизнес вырастет и нагрузка на систему увеличится, придется ставить две SQL-базы, три и так далее. Существует множество решений Big Data, которые позволят упростить процесс, убыстрить, строить больше отчетов в сутки. Решения "заточены" на хранение и обработку большого количества записей.

С.А.: В Big Data могут быть заинтересованы стартапы, у которых зачастую происходит взрывной рост нагрузки. Например, на этой неделе их вполне устраивает один недозагруженный сервер, а на следующей уже понадобится сто аналогичных серверов. Поэтому традиционные решения им не подходят: невозможно с такой скоростью провести масштабирование. А если и возможно, то очень сложно или затратно.

Использование решений free­ware может дать стартапу какое-то новое конкретное преимущество, то, чего не было раньше у конкурентов. Сейчас практически все стартапы стремятся применять ноу-хау в части глубокой аналитики, проводить глубокий анализ данных. Они стараются в первую очередь найти новое качество этих данных, тщательно "прокопать" одну идею.

И.Б.: …Или, напротив, стоит задача выступить как можно быстрее, опередить конкурентов, поэтому нет возможности разворачивать мощную традиционную инфраструктуру.

Потенциально в Big Data могут быть заинтересованы различные госструктуры: перед ними стоит задача создания очень сложных и масштабных моделей управления отраслями экономики, социальными группами и т. п. Кстати, госструктуры будут одними из первых, кто позволит себе хранить огромные массивы данных, чтобы использовать их в дальнейшем анализе для решения некоммерческих задач - обеспечения безопасности, реализации социальных и государственных программ. Можно предположить, что в России именно в сфере госструктур случится прорыв в применении технологий Big Data.

Практический интерес может возникнуть, например, когда московское правительство начнет строить интегрированную систему безопасности города, появится интерес к данным, генерируемым в рамках этой системы. Возникнет желание анализировать записи камер наблюдения, видео, данные дорожного трафика…

С.А.: В принципе, к Big Data может обратиться любая бизнес- и госструктура, у которой появляется какая-то новая идея, а возможности реализовать ее на имеющихся мощностях нет. Либо есть, но процесс слишком долгий, поскольку требуется очень глубокий анализ данных.

Такой идеей может стать, например, попытка сотового оператора увеличить долю рынка. Для этого надо создать новый тарифный план для какой-то целевой группы. Чтобы понять, какой именно тариф будет востребован, на какие целевые группы ориентироваться, нужно проанализировать множество имеющихся данных.

И.Б.: Пока 80% наших заказчиков решают консервативные задачи. А 20% - это или стартапы, или новообразующиеся компании, объединения, возникшие в результате слияний и поглощений. У них появляются новые задачи, требующие анализа данных, новые идеи, желание сделать что-то принципиально новое.

С.А.: Сейчас под Big Data подразумевают много разных вещей. Это напоминает мне ситуацию семи-восьмилетней давности, когда был такой же шум по поводу технологий Web 2.0. Все кричали: эти технологии - новый шаг в развитии! Почему вы не внедряете технологии Web 2.0? Почему они не применяются в России? А когда вся "пыль" осела, оказалось, что технологии Web 2.0 - это социальные сети, wiki-проекты и механизмы для удобства работы с ними. Тот термин совершенно верно отражал качественную сущность изменений: информация в веб-сетях перестала быть статичной, сгенерированной разработчиком странички. Вместо этого появилось множество генераторов информации в виде пользователей. Но термин никак не показывал, как и для чего применять новые технологии.

Утверждать, будто использовать технологию нужно потому, что ее использует весь мир, совершенно неверно. Будут возникать потребности в новых технологиях, определятся задачи, которые можно решать с их помощью, и тогда вопрос, внедрять или не внедрять Big Data, исчезнет.

Елена Некрасова


Страница сайта http://interface.ru
Оригинал находится по адресу http://interface.ru/home.asp?artId=32554