Данные: новая нефть или обыкновенный хайп?
Кажется, все вокруг только их и обсуждают... Что вообще происходит?
vlada_maestro / shutterstock
Джек Ма, создатель Alibaba, сказал однажды, что данные — это новая нефть. Фразу мы теперь слышим из каждого утюга, но так ли это на самом деле? Попробуем разобраться по-простому, чтобы было понятно тем, кто присматривается к новой профессии и планирует стать дата-сайентистом — работать с нейросетями, алгоритмами машинного обучения и анализом данных.
О каких данных идёт речь?
Не о всяких. Большие данные, или Big Data, — гигантские массивы разнородной информации, которые нельзя обработать вручную или обычными программами типа MS Excel. Например, годовая статистика продаж какого-то одного магазина — это обычные данные. А вот сведения о том, какие именно товары в этом году приобрели покупатели всех супермаркетов страны, по каким ценам, с какими скидками и какие отзывы об этом они оставили в соцсетях, — это уже Big Data. Чтобы их собрать, обработать и использовать, нужны специальные инструменты и технологии.
Большие данные — результат развития технологий, которые люди использовали для хранения и обработки информации. Раньше всю информацию об окружающем мире собирали в книгах, фильмах или картинах. Сейчас для этого есть цифровое пространство, где можно хранить всё — от банковских транзакций и изображений до геоданных и телеметрии.
В каком-то смысле большие данные — это особый вид искусства, где вместо красок и бумаги мы можем сохранить цифровую копию нашего физического мира в терабайтах информации.
Александр Джумурат
Руководитель команды разработки рекомендательной системы в онлайн-кинотеатре ivi.ru
Почему Big Data сравнивают с нефтью?
Коротко
Потому что нефть — основа экономики. Big Data, как и нефть, проникли во все сферы нашей жизни, становятся её неотъемлемой частью. Современный цифровой мир построен на данных. Нет данных — нет движения.
Подробнее
Мне больше нравится сравнение Big Data с ураном. Уран — это очень ценный ресурс, который связан с высокими технологиями и спорными ассоциациями: одни видят в нём радиоактивность и скрытые опасности, другие — неисчерпаемый источник энергии.
С большими данными похожая ситуация: многие о них слышали, но мало кто понимает их ценность. Для одних это возможность обогатиться и улучшить бизнес-показатели, для других — угроза частной жизни.
Алла Тамбовцева
Ассистент кафедры высшей математики, НИУ ВШЭ. Специализация: программирование для анализа данных, математическая статистика
В 1853 году сырую нефть научились превращать в бензин, керосин и мазут — появились керосиновые лампы, которые до электростанций решали проблему с освещением.
Керосин стал катализатором нефтяной эпохи: появились улучшенные технологии очистки, двигатель внутреннего сгорания и транспорт. А нефть превратилась в стратегический ресурс и отрасль промышленности.
В истории с Big Data таким керосином стал первый программируемый компьютер Z1 Конрада Цузе. Его создание привело к появлению персонального компьютера, интернета и искусственного интеллекта — появились доступные вычислительные ресурсы для обработки больших данных. Данные начали использовать для оценки финансовых рисков, для прогнозирования эпидемий и повышения продаж.
Примеры использования ↓
Типичный кейс 2012 года: компания хочет избежать банкротства и с помощью больших данных сравнивает себя с конкурентами — подбирает несколько сотен метрик и проводит ревизию бизнеса. В результате появляется отчёт, который помогает подсветить проблемные зоны и своевременно направить ресурсы для их устранения. Например, если у аутсайдеров проседает логистика, то это проблемная зона и её нужно прорабатывать; если лидеры рынка не гонятся за минимальной ценой, то это второстепенный показатель и на нём не стоит концентрироваться.
За счёт подобного анализа компании увидели комплексную картину происходящего и начали принимать стратегические решения, опираясь на цифры и статистику, — не нужно ничего угадывать и полагаться на интуицию.
С 2013 года ценность больших данных возрастает, они помогают компаниям находить скрытые корреляции — использовать неочевидные закономерности для развития бизнеса. Один из таких кейсов представил на хакатоне Editors Lab вице-президент по маркетингу мобильного оператора МТС Василь Лацанич.
Ситуация: сеть периодически падает из-за перегрузок, и каждый сбой приводит к потере клиентов. Нужно понять причину проблемы.
Решение: в МТС подключили большие данные и пришли к выводу: из строя выходят не все вышки, а только те, которые расположены вблизи крупных автомагистралей. Чаще всего проблемы с сетью возникают по праздникам и в преддверии выходных — тогда, когда на дорогах пробки. Найдена скрытая корреляция: пробки на крупной магистрали — риск падения мобильной сети. Зная эту закономерность, компания укрепила слабые участки и смогла предвидеть повышенную нагрузку на сеть.
С 2014 года в Big Data начинают инвестировать городские администрации. Например, мэрия Мадрида выделяет 15 миллионов евро на систему автоматического контроля за работой муниципальных служб. Система ежедневно проводит 1 500 проверок и замеряет эффективность по 300 показателям — если кто-то из подрядчиков недотягивает до стандарта, он останется без бюджетных выплат.
Эффективность больших данных приводит к их быстрому распространению и делает главным топливом современных технологий. Компании развиваются и сталкиваются с проблемой дефицита специалистов — нужны люди, которые выучились на Python-разработчика или освоили профессию Data Scientist.
Гиганты вроде Amazon, Google, Facebook* и другие компании конкурируют за Big Data. Зачем им это нужно?
Коротко
У кого больше данных — у того все преимущества. Аналитики считают, что в будущих технологиях нейросети и алгоритмы машинного обучения будут играть всё большую роль.
Подробнее
В октябре 2020 года компания Gartner опубликовала отчёт с перечнем основных тенденций 2021 года — практически все технологии включают в себя Big Data.
Что касается более отдалённых перспектив, то в следующие 5–10 лет Gartner прогнозирует усиление зависимости от Big Data: продолжат развиваться алгоритмы искусственного интеллекта, компании и страны займутся оцифровкой личностей, а бизнес начнут обслуживать фабрики данных.
Прогнозы развития технологии Big Data ↓
Ожидается, что первые изменения будут связаны с увеличением количества носимых и встроенных датчиков для контроля за поведением человека. Например, если кто-то на производстве нарушит технику безопасности, датчик предупредит о проблеме и позволит быстро исправить ситуацию.
Второй основной тренд будет связан с гиперавтоматизацией — вырастет количество систем искусственного интеллекта, которые помогут решать задачи без участия человека. Например, в случае онлайн-заказа система сможет самостоятельно обрабатывать заявки и отправить товар клиенту. Будет автоматизировано всё, где получится обойтись без человека.
Прогноз Gartner на 2025–2030 годы — развитие Big Data приведёт к увеличению объёма инноваций и сделает технологии полностью зависимыми от данных.
Обратите внимание: большинство инструментов связаны с искусственным интеллектом и алгоритмами машинного обучения. Это значит, что для их работы компаниям понадобится новая нефть — большие данные.
Есть много примеров, когда перспективная технология быстро сдувалась и становилась ненужной. Не получится ли так с Big Data?
Коротко
Нет. Начиная с 2015 года большие данные перестали считаться хайпом и превратились в зрелую технологию — такую, которая никуда не денется и нужна многим компаниям для решения повседневных бизнес-задач.
Подробнее
Компании больше не спорят о целесообразности больших данных и используют их в любых процессах. В качестве примера возьмём кейс Сбера, который был представлен на конференции AI Journey 2019.
Ситуация: менеджеры допускают мелкие ошибки в 20% документов, и из-за этого банк теряет 200 миллионов рублей в год. Нужно уменьшить количество ошибок.
Решение: появилась нейросеть СПОД, которая после обучения на больших данных может автоматически проверять документацию и предупреждать об ошибках. Например, если где-то пропущена печать, нейросеть показывала проблемную страницу. В результате количество ошибок снизилось до 2%.
После 2015 года большие данные стали фундаментом для развития новых технологий — почти всё, что связано с искусственным интеллектом или информацией, завязано на Big Data. Это хорошо видно в прогнозе Gartner, где перечислены десять трендов 2016 года: из всех опубликованных технологий только материалы для трёхмерной печати не связаны с большими данными.
Технология Big Data, как и любая другая технология, не может быть идеальной. Какие у неё недостатки?
Коротко
Есть проблемы с безопасностью и риск того, что люди попадут в зависимость от искусственного интеллекта. Предполагается даже рост безработицы среди низкоквалифицированного персонала — компании автоматизируют производство и вместо сотрудников используют роботов или нейросети.
Подробнее
Всё имеет две стороны: прекрасные цветы могут оказаться ядовитыми, а данные в руках злоумышленников — нанести кому-то значительный ущерб.
Каждый день мы сталкиваемся с множеством сервисов, которые собирают о нас различную обезличенную информацию для персонализации и улучшения клиентского опыта. Более того, к банковским и некоторым другим услугам доступ без персональных данных попросту невозможен.
Что касается безопасности, то здесь всё в руках пользователя. Есть правила, которые нельзя нарушать: не сохраняйте пароли в браузере, перед подписью читайте соглашение об обработке персональных данных, будьте аккуратным при заполнении различных анкет или оформлении подписок, не привязывайте банковские карты к непроверенным сервисам, не сообщайте никому пароли из смс. Всё это звучит как прописные истины, но, к сожалению, многие о них забывают.
Лидия Храмова
Team Lead Data Scientist группы бизнес-моделирования в QIWI. Преподаватель курса профессия Data Scientist — блок «Статистика и теория вероятностей»
Реальная проблема ближайших лет связана с автоматизацией производства. Сейчас компании собирают данные и строят на их основе инфраструктуру, чтобы освободить людей от неквалифицированной рутинной работы. Например, таксистов очень скоро вытеснят беспилотные автомобили. Продавцов, охранников и кассиров заменят интеллектуальные супермаркеты, с бесконтактной оплатой и удалённой системой контроля за посетителями. А вместо грузчиков везде будут роботы.
Останется совсем немного профессий, где не получится внедрить большие данные и построить эффективную систему искусственного интеллекта. Появится множество безработных, которые не станут переучиваться и подстраиваться под условия современной реальности.
Вероятно, проблема безработицы — именно то, чего стоит опасаться многим гражданам. Защита конфиденциальности и прочие юридические казусы использования Big Data будут улажены, но проблема с занятостью останется.
Пример сценария из будущего ↓
Если помните, в фильме «Особое мнение» с Томом Крузом есть группа провидцев, которые умеют сопоставлять события и предсказывают преступления до того, как их успели совершить. Это очень напоминает искусственный интеллект, который в 2021 году прогнозирует стратегические бизнес-решения для компаний и целых государств.
В «Особом мнении» — утопический пример, где люди пострадали, добровольно передав систему правосудия в руки совершенного алгоритма. В реальной жизни всегда есть место погрешности, а Big Data не может всё предусмотреть.
Тотальный контроль алгоритмов над людьми — из категории проблем, на которые не способно повлиять большинство граждан. Даже если нечто подобное и произойдёт в будущем, это будет решение с множеством оговорок. Например, с мелкими правонарушениями разбираются алгоритмы, а с тяжкими преступлениями — полиция и органы правосудия.
Я не программист и не аналитик. Что нужно знать, чтобы освоить современную профессию и начать заниматься большими данными?
Коротко
Из навыков — школьный уровень математики. Из общих знаний — понимание того, что за всеми технологиями стоит человек и, несмотря на автоматизацию, квалифицированные специалисты никогда не останутся без работы.
Подробнее
Чтобы заниматься анализом данных, необходимы мотивация, готовность изучать что-то новое, цифровая грамотность и немного математической подготовки. Эта профессия точно не подходит людям, которые ориентируются на практику и выделяют минимум времени на теорию.
Практика важна, но в работе с большими данными ключевую роль играет умение интерпретировать результаты и понимать, что пошло не так.
На мой взгляд, серьёзных ограничений, чтобы войти в сферу анализа данных, нет. Нужно только объективно оценивать свой уровень подготовки и быть готовым начать всё с нуля. Причём этот «нуль» у каждого свой: кому-то достаточно освежить в памяти школьную математику, а кому-то придётся начать с основ и подтянуть навыки работы за компьютером.
Алла Тамбовцева
Ассистент кафедры высшей математики, НИУ ВШЭ. Специализация: программирование для анализа данных, математическая статистика
Доклад Андрея Себранта ↓
В 2019 году прошла конференция TEDxVolhonkaSt. Директор по стратегическому маркетингу Яндекса Андрей Себрант выступил там с темой «Человек vs Искусственный интеллект».
Доклад начинается с истории о необычном рисунке, который находится на жилом доме в Екатеринбурге. Суть в том, что это воссозданная античная мозаика и первый в мире арт-объект, который создал не человек: нейросеть восстановила мозаику, а роботы-принтеры нанесли краску на стены.
На первый взгляд кажется, что это пример нового будущего, где машины вытеснили людей. На самом деле всё наоборот — эта история показывает, что за всем стоит человек: нейросеть не смогла бы ничего восстановить, если бы её до этого не запрограммировали и не обучили на больших данных. А роботы-принтеры не смогли бы ничего напечатать, если бы их до этого не закрепили на стене дома промышленные альпинисты.
Данные открыли дорогу искусственному интеллекту и в ближайшие годы, возможно, оставят многих без работы. Но не нужно бояться — так или иначе, люди адаптируются к любой реальности и найдут место в мире современных технологий.
Вопрос только в том, как это сделать легко и безболезненно — как стать частью эпохи, где данные обслуживают нас, наших детей и внуков?