Специалист по данным (Data Scientist)

Опубликовано 05.04.2024

Время чтения: 22 минуты

Комментарии: 0 Лайки: 0

Специалист по работе с данными (иначе именуемый как дата-сайентист или датасаентист) ведет работу по обработке и исследованию больших объемов информации (Big Data). С помощью методов машинного обучения он выявляет новые взаимосвязи и правила в представленных данных и создает прогностическую модель на их основе. Эта модель может быть применена для решения задач в различных сферах: бизнес, наука, повседневная жизнь. Данная профессия идеально подходит людям, обладающим аналитическим мышлением и математическим умением.

Иван Чиж

Автор блога Coursator.Online

Сжатый обзор

Data Science (Наука о данных) – это область знаний, находящаяся на стыке различных дисциплин: математики и статистики; информатики и компьютерных наук; бизнеса и экономики.

Это новая, актуальная и прогрессивная профессия. Термин Big Data был введен в 2008 году. Профессия Data Scientist – «ученый данных» была официально зарегистрирована как академическая и междисциплинарная в начале 2010 года. Несмотря на то, что первое упоминание термина data science было обнаружено в книге Петера Наура 1974 года, но в другом контексте.

Специалист по анализу данных (Data Scientist) занимается работой с большими данными (Big Data) - это массивы неразобранной информации

Большие данные классифицируются на три типа:

  • структурированные (например, информация с кассовых аппаратов в розничной торговле);
  • полуструктурированные или слабоструктурированные (электронная корреспонденция, статистика с сервисов отслеживания событий: Yandex. Metrika, GAnalytics и прочее);
  • неструктурированные (видеофайлы, изображения, текстовые сообщения в социальных сетях, погодные отчеты, записи звука, результаты спортивных игр, базы данных геномов и многое другое).

В основном Big Data состоит из неструктурированных или слабоструктурированных данных, что делает их анализ сложным. При работе с этими данными, аналитики данных используют методы математической статистики и машинного обучения (machine learning, ML).

Цель Data Scientist - анализировать большие данные для создания на их основе предсказаний. Специфика прогнозов зависит от поставленной задачи. Результат работы специалиста по анализу данных - это предсказательная модель, другими словами, это программный алгоритм, который находит наилучшее решение для задачи.

Благодаря работе аналитиков данных, бизнес может принимать обоснованные решения, основанные на различных данных, и опережать своих конкурентов, а продукты становятся более удобными и полезными для потребителей.

чем

Специфика профессиональной деятельности

Стандартные специалисты в области статистики, системного анализа или бизнес-аналитики не всегда способны обрабатывать объемы информации, относящиеся к категории Big Data. Для этого требуется профессионал с междисциплинарным образованием, обладающий знаниями в математике, статистике, экономике, бизнесе, информатике и компьютерных технологиях - эксперт по работе с данными, или Data Scientist.

Основные функции Data Scientist:

  • извлечение необходимых данных из самых различных источников, обработка информационных потоков в режиме реального времени;
  • определение скрытых зависимостей в данных и их статистический анализ для разработки обоснованных бизнес-решений.

Рабочее пространство специалиста по данным - это не один компьютер или сервер, а целый кластер серверов.

Data Scientist, подобно настоящему ученому, не только собирает и анализирует данные, но и изучает их в различных контекстах и под разными углами, ставя под сомнение любые предположения. Ключевое качество дата-сайентиста - это способность устанавливать логические связи в системе собранной информации и на основе количественного анализа формировать эффективные бизнес-стратегии. В современном конкурентном и быстро изменяющемся мире, с учетом постоянно растущего потока информации, Data Scientist становится незаменимым для разработки верных бизнес-решений.

Роли Data Scientist

В зависимости от компании, функции дата-сайентиста могут варьироваться, но основные стадии их работы обычно остаются одинаковыми:

  • Определить потребности клиента
  • Оценить способность решения конкретной задачи с помощью методов машинного обучения (ML).
  • Сбор и преобразование данных для анализа в более подходящий для работы с ML формат. (Если есть возможность применения ML, но более целесообразно использование методов математической статистики или визуализации, то задача переходит к бизнес-аналитику.)
  • Определение критериев оценки для определения эффективности предстоящей модели.
  • Программирование и "тренировка" модели ML.
  • Оценка экономической выгоды использования данной модели (на этой стадии могут быть привлечены другие специалисты, такие как бизнес-аналитик, главный экономист предприятия и т.д.).
  • Интеграция модели в производство/продукт.
  • Поддержка внедренной модели - доработка при необходимости или адаптация к текущим потребностям клиента.

Что можно достичь, следуя этому плану? Огромное количество вещей. Дата-сайентисты разработали сотни сервисов, к которым мы уже привыкли и которыми пользуемся каждый день.

Алгоритмы, которые обеспечивают работу поисковиков, прогнозирование погоды на смартфонах, голосовые ассистенты, программное обеспечение для распознавания лиц или изображений, а также алгоритмы, которые подбирают видео, музыку или даже потенциальных друзей в социальных сетях, и чат-боты - все это является результатом работы специалистов в области Data Science.

В своей работе с данными, специалисты по данным (Data Scientist) используют:

  • статистические подходы;
  • проектирование баз данных;
  • интеллектуальные методы анализа;
  • использование искусственного интеллекта для обработки данных;
  • методики проектирования и создания баз данных.

Отличие между Data Scientist и другими специалистами в области данных

Хотя многие профессионалы работают с Big Data, у каждого из них есть свои инструменты и задачи.

В чем разница между Data Scientist и бизнес-аналитиком

Data Scientist и бизнес-аналитик оба делают выводы на основе анализа данных, но различаются в результате своей работы. Data Scientist ищет связи и закономерности в данных, чтобы создать прогностическую модель и предсказать исход. В своем роде, Data Scientist взирает в будущее, применяя технические решения с использованием алгоритмов и математической статистики.

С другой стороны, бизнес-аналитик интересуется коммерческими показателями компании. Основываясь на статистических данных, он может оценить, например, эффективность рекламной кампании или динамику продаж за определенный период времени. Бизнес-аналитик способен использовать информацию из прошлого для создания предложений по улучшению показателей компании. При наличии большого объема данных и необходимости прогноза на их основе, техническую реализацию вопроса обеспечивает специалист Data Science.

Таким образом, продуктом труда дата-сайентиста является алгоритмическая модель, код, разработанный на основе анализа данных. Data Scientist - это технический эксперт. В свою очередь, бизнес-аналитик предоставляет визуализированные рекомендации по улучшению коммерческих показателей компании. Эти советы формируются также на основе анализа данных, но бизнес-аналитик фокусируется на бизнес-компоненте задачи.

специалист по данным и другие профессии

Как отличается Data Scientist от Data Engineer

Оба этих специалиста имеют техническую направленность. Они занимаются обеспечением качества и доступности данных, часто сотрудничают, и поэтому их обязанности и сферы ответственности иногда смешиваются.

Data Scientist, учитывая потребности бизнеса, формулирует задачи анализа данных. Этот специалист знает, какие данные требуются, способен находить в них закономерности (возможно, незамеченные ранее) и создает прогнозные модели, когда это возможно и необходимо с использованием методов ML. Дата-сайентист контролирует качество разработанной модели и оценивает эффективность ее использования.

Data Engineer занимается сбором данных, обеспечивает их качественную структуру, что позволяет Data Scientist обучать и внедрять алгоритмы и модели ML. Специалист по данным, или Data Engineer, способен обрабатывать и анализировать огромные массивы информации, выделяя самое ценное. Он эксперт в настройке регулярного экспорта и интеграции противоречивых или неполных данных из различных источников.

Так, обязанности Data Engineer и Data Scientist различаются:

- Data Engineer занимается подготовкой чистых и структурированных данных для работы Data Scientist, а также разрабатывает пайплайн для поддержки ML-алгоритмов. - Data Scientist проверяет гипотезы в системе данных и создает алгоритмы.

Data Scientist способен находить в данных коммерчески значимую информацию для формирования стратегии компании и исследует возможность применения ML. В свою очередь, Data Engineer – это важный член команды, цель которого - обеспечить высокую эффективность работы бизнес-аналитиков и содействовать взаимодействию членов команды разработки ПО.

Рассмотрим преимущества и недостатки этих профессий:

Достоинства:

  • Профессия Data Scientist очень популярна как в России, так и за рубежом, при этом специалисты в этой области остро востребованы на рынке.
  • Эта профессия хорошо оплачивается.
  • Для любителей IT-технологий и математики работа в этой сфере будет интересной.
  • Каждый проект имеет свою уникальность, поэтому работа никогда не станет рутиной.
  • Профессия Data Scientist предполагает всестороннее развитие и интеллектуальное совершенствование: важно быть в курсе новинок в экономике, торговле, культуре, образовании, социологии и многих других областях, а также уметь анализировать и делать выводы.

Недостатки:

  • Не каждому под силу стать специалистом по большим данным, требуется особенный умственный склад
  • В процессе создания моделей даже известные методы могут оказаться неэффективными, и более 60% идей могут оказаться бесперспективными. Требуется огромное терпение для достижения приемлемых результатов. Специалист по большим данным не имеет права отказаться от проблемы. Он должен найти путь, который поможет решить поставленную задачу.
  • Большая ответственность: ошибки дата-аналитика могут быть дорогостоящими для компаний. Например, ошибки в построении скоринговой модели (оценка кредитоспособности) могут привести к тому, что банк выдаст массу займов ненадежным клиентам, которые не вернут деньги.

Место работы

Data Scientist – незаменимый работник в любой сфере, где требуется делать прогнозы, заключать сделки, оценивать риски. Основные области применения навыков и знаний дата-аналитиков:

  • высокотехнологичные производственные отрасли;
  • научные исследования;
  • IT (оптимизация поисковых запросов, фильтрация спама, систематизация новостей, автоматический перевод текстов и т.д.);
  • медицина (автоматическая диагностика заболеваний);
  • финансовые учреждения (принятие решений о выдаче кредитов) и др.;
  • телекоммуникации;
  • транспортная отрасль;
  • крупные торговые сети;
  • аграрный сектор;
  • страхование;
  • социология.

Согласно информации от Академии больших данных MADE Mail. Группа ru и hh ru выделили три основных сектора, где специалисты по данным наиболее востребованы: IT (38 % всех вакансий), финансовый сектор (29 %) и B2B (9 %).

Специалисты по данным могут сотрудничать как со стартапами, так и с крупными международными компаниями. В малых компаниях, которые только начинают свой путь, специалист по данным, как правило, работает самостоятельно, решая отдельные задачи. В больших компаниях он работает в команде с аналитиками данных, бизнес-аналитиками, системными администраторами, программистами, инженерами по данным, дизайнерами, менеджерами проектов и участвует в долгосрочных проектах.

Важные качества специалиста по данным:

  • Аналитическое мышление.
  • Трудолюбие.
  • Упорство.
  • Тщательность, аккуратность, внимательность.
  • Способность доходить до завершения исследований, даже если промежуточные результаты неудачные.
  • Коммуникативность.
  • Умение объяснять сложные идеи простыми словами.
  • Бизнес-интуиция.

Профессиональные знания и навыки специалиста по данным:

  • Математика, математический анализ, математическая статистика, теория вероятностей.
  • Подготовка данных для анализа с использованием специальных библиотек.
  • Знание английского языка.
  • Навыки программирования на языках, которые имеют инструменты для работы с большими объемами данных: SQL, Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy). Наиболее часто специалисты по данным используют SQL, Python, а для сложных вычислений - C/C++.
  • Инструменты для статистического анализа: SPSS, R, MATLAB, SAS Data Miner, Tableau и т.д.
  • Глубокие знания в отрасли, где работает специалист по данным (например, если это фармацевтическая сфера, необходимо понимать основные процессы производства и компоненты лекарственных средств).
  • Понимание законов развития бизнеса.

Наука о данных - это применение научных методов для работы с большими объемами информации с целью поиска подходящего решения. Специалист по данным работает с информацией так же, как исследователь в любой области знаний. Он использует математическую статистику, логические принципы и современные инструменты визуализации для получения результатов. Он должен уметь анализировать и обобщать отдельные наблюдения, исключать случайности, отфильтровывать нерелевантные факты и делать правильные выводы.

Вкратце, специалисту по данным необходимо знать математику, статистику, один или два языка программирования, понимать принципы машинного обучения и иметь представление о сфере, где будет использоваться обработка данных.

Обучение на специалиста по данным

Специалист по данным должен быть способен программировать, работать со статистикой и использовать аналитические методы. Все эти навыки преподаются в университетах на IT-специальностях, вот несколько примеров:

  • "Прикладная математика и информатика" (01. 03." 02), направления:
    • «Прикладной анализ данных и AI» (Высшая Школа Экономики, Санкт-Петербург);
    • «Диагностика и выбор оптимальных решений» (Высшая Школа Экономики, Москва);
    • «Математические и ИТ-методики в прикладных исследованиях» (Воронежский Государственный Университет, Воронеж);
    • «Прикладная математика и информатика» (данный направление представлено в более чем 80 учебных заведениях России)
  • «Прикладная математика» (01. 03. 04), направления:
    • «Использование математических методов для решения инженерных и экономических проблем» (МИЭТ, УГАТУ, ВГУ, ДГТУ, ИжГТУ им. Калашникова, ОГУ);
    • «Анализ информации» (МТУСИ, РТУ МИРЭА);
    • «Математическое симулирование» (АлтГПУ, КнАГУ и др. ).
  • «Статистика» (01. 03. 05), направление:
    • «Аналитика и управление информацией» (Российский экономический университет им. Плеханова).

С опытом работы в сфере разработки, можно перейти на позицию дата-сайентиста за несколько месяцев. Специалистам из других областей это будет дать сложнее, однако у них есть значимое конкурентное преимущество – глубокое осознание своего профессионального направления.

Как и в любой профессии, для специалиста по анализу данных важно постоянно обновлять свои знания. Для самостоятельного усовершенствования рекомендованы следующие ресурсы:

  • Machine Learning 101 – видеоканал по машинному обучению на Youtube;
  • Youtube-курс по машинному обучению от «ШАД» Яндекса."
  • образовательные программы Udacity;
  • обучающие курсы Dataquest, позволяющие стать профессионалом в области Data Science;
  • 6-этапные программы обучения от Datacamp;
  • учебные видеоматериалы O’Reilly;
  • видеоуроки для начинающих и опытных пользователей от Data Origami;
  • четвертьгодовая конференция экспертов под названием Moskow Data Scients Meetup;
  • конкурсы по анализу данных от Kaggle сom.

Заработная плата

Работа Data Scientist является одной из самых высокооплачиваемых в IT-сфере. В США заработная плата специалиста по анализу данных составляет $110–140 тыс. в год. В России размер зарплаты Data Scientist зависит от стажа, количества обязанностей и географического расположения. Новичок может рассчитывать на 70 тыс. руб. в Москве и 60 тыс. руб. в Санкт-Петербурге. Со стажем работы более 3 лет зарплата возрастает до 110–250 тыс. руб.

Заработная плата data scientist на октябрь 2023

Сведения о заработной плате представлены на сайте hh.ru.

Россия 250000—400000₽ Москва 100000—450000₽

Карьерный рост и перспективы

Как и все профессионалы в IT-сфере, Data Scientist проходит карьерные ступени от начинающего специалиста до опытного специалиста и лидера команды. Каждый этап карьерного роста занимает примерно 1-2 года. Специалист уровня Middle имеет глубокое понимание бизнес-задач и может предложить наиболее эффективное решение для их выполнения."</p> С ростом профессионального опыта и повышением карьерного статуса, Data Scientist все меньше сосредотачивает свое внимание на технических аспектах работы, а все больше ориентируется на глобальное понимание проекта и его концептуальную структуру.

Должность Data Scientist уже является значимым достижением, так как для ее выполнения требуются продвинутые теоретические знания и практическое мастерство в нескольких IT-дисциплинах. В любой крупной организации или компании, специалист по большим данным становится фигурой ключевого значения. Для достижения такого уровня нужно упорно и направленно работать, постоянно развивая свои навыки во всех областях, которые лежат в основе профессии.

Применение Data Science не ограничено одной областью. Есть возможность обучать нейросети для поиска новых электронных частиц или генетических кодов, а при желании разнообразить свою деятельность – переключиться на другую отрасль и создать музыкальную рекомендательную систему.

Есть шутка про Data Scientist: это тот, кто программирует лучше, чем любой статистик, и владеет статистикой лучше, чем любой программист. И при этом разбирается в бизнес-процессах лучше, чем руководитель компании. 

Комментарии