Data Scientist — интересная профессия, объединяющая в себе такие направления, как программирование, математика, машинное обучение. Специалисты занимаются сбором и анализом данных, строят модели, обучают и тестируют их. Востребованность профессии продолжает регулярно расти, а хорошие специалисты имеют отличные перспективы карьерного роста. Специально для вас, мы подготовили статью, в которой расскажем про должностные обязанности дата-сайентистов, разберем плюсы и минусы, встречаемые в рабочем процессе, требуемые знания и навыки, зарплаты, советы о том, где лучше учиться на Data Science, как устроиться работать в данной сфере деятельности.
Кто такой дата-сайентист и чем он занимается?
Дата сайентисты могут работать с совершенно разных областях, от розничной торговли до крупных ИТ-компаний. Специалист применяет методы науки о данных для обработки больших объемов информации. К обязанностям относится построение, тестирование математических моделей поведения данных (при помощи алгоритмов машинного обучения), благодаря чему можно найти определенные закономерности, а также дать точные прогнозы о будущих значениях. К примеру, правильно обработанные данные о спросе на товар за 2022 год, позволит спрогнозировать продажи на 2023.
Рассмотрим несколько примеров работы дата-сайентиста в разных отделах крупных компаний:
Теперь разберем ключевые обязанности сайентиста в общих чертах:
- Прояснить требования к бизнес-задаче, перевести её в математическую плоскость.
- Подготовить данные для решения задачи, искать требуемую информацию, обработать её.
- Выполнить анализ данных с последующим структурированием, визуализировать пайплайны.
- Выбирать наиболее подходящую в конкретной ситуации модель машинного обучения.
- Выдвигать гипотезы, подбирать метрики, позволяющие оценивать качество выбранной/созданной модели.
- Проверить, правильно ли работает модель за счет её внедрения на наборе пользователей либо выполнения A/B-тестов.
Что должен знать и уметь специалист по данным?
Примечательно, что для успешной работы data-сайентистом, требуется два вида навыков: технические (профильные дисциплины) и надпрофессиональные (психологические качества). Специалисту следует хорошо знать линейную алгебру, теорию вероятности, статистику, матанализ. К слову, математические модели позволят вам найти закономерности, прогнозировать значения, а для практического применения таких моделей, нужно программировать на Python, работать с SQL, различными библиотеками, ML фреймворками,
Перейдём к Hard Skills специалиста:
- Программирование на Python (С, C++, Pandas, Java для решения более сложных задач).
- Обработка крупных БД, продуктивизация моделей.
- Работа с SQL (набор готовых функций, объектов, подпрограмм).
- Отличные знания математики, статистики, машинного обучения.
- Владение инструментами обработки БД: Apache Spark, Hadoop Mapreduce.
- Использование фреймворков NumPy, Scikit learn.
- Использование специализированного софта для визуализации, в том числе библиотек Seaborn, Plotly, Matplotlib.
- Владение английским языком (уровень Advanced Proficiency), требуется для чтения технической литературы.
- Обязательно понимание специфики бизнеса, с которым связана работа.
Основные софт скиллы:
- Внимательность
- Стрессоустойчивость.
- Аналитическое мышление.
- Умение общаться с коллегами.
- Навык презентации результатов проделанной работы.
- Умение решать нестандартные ситуации, принятие инсайтов.
Карьера дата-сайентиста
Как уже говорилось выше, профессия востребована в совершенно разных областях. И всё же, есть определенные ступени, на каждой из которых человек набирается опыта и имеет возможность дальнейшего продвижения по карьерной лестнице. К примеру, Джуниор нуждается в более детализированной постановке задач, мидл способен самостоятельно выполнять стандартные задачи, Синьор уверенно обрабатывает большие информационные массивы, тестирует ML модели, визуализирует результаты, имеет сразу несколько готовых проектов.
Начальный уровень (junior)
- Базовые знания ML, статистически подсчетов.
- Понимание ключевых алгоритмов, сферы их использования.
- Подготовка данных к простой обработке, поиск ошибок, их очистка.
- Построение сводных таблиц.
- Уверенный уровень владения Пайтон, базовые навыки SQL.
Средний уровень (middle)
- Глубокие знания математики.
- Создание алгоритмов с применением ML-моделей.
- Работа со средствами внедрения/поддержки machine learning (gitLFS, MLFlow, DVC).
- Навыки A/B тестирования.
- Умение решать задачу самостоятельно на всех её этапах (минимум обращений к тимлиду).
- Уверенный уровень владения Пайтон (+ продуктивизация), продвинутые навыки SQL.
- Необходимый опыт: 2–3 решённых проекта.
Старший уровень (senior)
- Уверенные знания математики/статистики.
- Экспертное понимание Data Science, Big Data.
- Обработка сложных фреймвориков.
- Умение обрабатывать неструктурированные данные, быстро преобразовать их в структурированные.
- Полная самостоятельность от качественной постановки списка задач до вывода в production.
- Обучение junior, middle специалистов, также нужно следить за трендами.
- Должен уверенно знать Python, разбираться в SQL (уметь писать сложный код).
- Необходимый опыт: от 4-5 решённых проектов.
Сколько зарабатывает специалист, его востребованность на рынке труда?
Спрос на data scientists продолжает расти. Работодатели регулярно выкладывают сотни вакансий, а крупные отечественные и мировые компании всё чаще открывают новые Дата Сайенс отделы. Должность очень перспективная, а хороший спец нужен как стартапам, так и различным коллективам разработчиков, программистов, аналитиков данных, менеджеров.
Стоимость оплаты труда джуниора может составлять до 150 000 руб/мес. Средняя зарплата мидла – от 150 000 до 250 000 рублей. Сеньор способен зарабатывать до 350 000 рублей в месяц, в этом случае уровень заработка зависит от конкретной отрасли, а также перечня профессиональных обязанностей.
Как стать дата-сайентистом?
Для изучения Data Сайенс в ВУЗе, поступают на факультеты «Прикладной математики и информатики» либо «Компьютерных наук и аналитики данных». Образовательный процесс длится 4-5 лет, после чего можно устраиваться на стажировку. На сегодняшний день, имеется возможность освоить профессию, пройдя онлайн-курсы, выбрать наиболее подходящий для вас, вы сможете в нашей подборке курсов.
Лучшие онлайн-курсы по Data Scientist
Дистанционный вариант учебы позволит более глобально погружаться в эту увлекательную ИТ-сферу. Средняя длительность обучения составляет 1-2 года. Известные учебные центры предлагают выгодную систему оплаты занятий, предоставляет опытных наставник, после освоения теоретической части, проводят насыщенную практику. Кроме того, такие онлайн-школы, как Яндекс Практикум, Нетология, Skillbox или SkillFactory, помогают студентам собрать сильное портфолио, подготовить резюме, пройти собеседование в компаниях партнерах.
Если же у вас есть необходимые знания в извлечении данных, прогнозировании, работе с ИИ, нейронными сетями и так далее, вы можете пройти специализированные курсы, предназначенные для того, чтобы повысить вашу квалификацию. К пример, такой вариант подходит для тех, кто хочет получить должность Chief Data Officer или начать подрабатывать на удаленке в других проектах на позициях ML Engineer, Data Analyst.
Что касается рекомендаций для начинающих специалистов, повысить вашу эффективность позволит много практики, знакомство с опытным ментором для получения полезных сведений по теме, взаимодействие при работе над общими проектами с другими начинающими сайентистами (хакатоны), прохождение стажировки по машинному обучению, использование искусственного интеллекта при решении различных повседневных задач, запись на буткампы по дата-сайенс.
Выдающиеся личности в профессии
1. Кирк Борн
Так же великий «Капитан Кирк». Является аналитиком с огромным опытом. Поработал в NASA около десятилетия. В настоящее время он работает ведущим научным сотрудником по данным Booz Allen. Преподавал в Университете Джорджа Мейсона (профессор астрофизики/вычислительной науки). Внес большой вклад в вычислительное моделирование, статистику, БД, этику данных.
2. Рональд ван Лун
Входит в ТОП-10 крупнейших глобальных аналитиков по информационным технологиям. Пишет увлекательные статьи по рассматриваемой нами теме для именитых порталов Data Science Central, DataFloq, Dataconomy. Состоит в консультативном совете Simplilearn.
3. Винсент Грэнвилль
Научный деятель, data-scientist с пятнадцатилетним опытом работы в индустрии больших данных. Специализируется на прогнозном моделировании, а также цифровом и бизнес анализе. Признан ведущим экспертом в области технологий количественного анализа, выявления мошенничества, оптимизации и роста сетевого трафика. В его фонде для стартаперов собрано более 6 миллионов долларов.
4. Крейг Браун
Эксперт по Биг Дата, технический консультант, автор популярной книги «Untapped Potential: Supreme Partnership of Self», открывающей читателю истинную путь к становлению успешным в сфере IT. Поработал в ИТ-индустрии более двадцати лет.
5. Боб Хейс
Использует свои технические навыки для оказания помощи компаниям, работающим с клиентами. Обладатель степени доктора философии, президент Business Over Broadway, эксперт по промышленной психологии. Увлекается использованием аналитического программного обеспечения для улучшения жизни людей, оказания помощи обществу в целом.
6. Бернард Марр
Анализирует данные на профессиональном уровне. Регулярно выкладывает статьи по аналитике и Big Data в Forbes. Его книга Data Strategy имеет огромное количество поклонников, помогла многих начинающим специалистам понимать свои цели, быть уверенными в себе, получать прибыль из мира Big Data, аналитики, вычислений и Интернета вещей.
7. Лилиан Пирсон
Создатель платформы Data-Mania, проводит online-курсы, практические семинары, преподает информатику на Lynda.com. Лилиан работает с известными корпорациями Dell и Intel, а также с правительственными организациями США.
Полезные ссылки
Список популярных инструментов и сервисов:
- Jupyter Notebook Полезный инструмент с открытым исходным кодом, с помощью которого проводят исследования в области науки и данных. Отличается от аналогов интерактивными ячейками кода, каждую из которых можно запускать отдельно (независимо друг от друга). Результат формируется моментально, демонстрируя наглядный отчёт в виде таблицы. Пользоваться софтом можно как на компьютере, так и через браузер в веб-версии.
- Jupyter Lab Усовершенствованный интерфейс для Jupyter Notebook. Благодаря введенным улучшениям, работать с ним удобнее, чем со стандартным Notebook. Добавлена интегрированная панель с файловым менеджером, терминалом, меню «Содержимое» и менеджером расширений.
- JupyterLab TensorBoard Набор web-приложений для визуализации графиков с метриками качества моделей в период их обучения. Дополнение может быть использовано в ноутбуках событий Colab и Jupyter. Зачастую, применяют при обмене результатами, интеграции TensorBoard в существующие рабочие процессы. Не требует инсталляции, функционирует через облачный сервис.
- Azure Data Studio Подобное Jupyter Lab ПО, разработанное корпорацией Майкрософт. Доступно на бесплатной основе, совместимо операционными системами Windows, macOS, Linux. Качественное решение для анализирования собранной из разных источников информации.
- Managed Instance Dashboard Расширение для Azure Data Studio. Является вспомогательной панелью для мониторинга сведений об экземпляре базы данных SQL Azure. Показывает отчеты о свойствах экземпляра, его производительности, а также работоспособности.
- Apache Zeppelin Ноутбук с веб-интерфейсом. Доступна установка на ПК либо использование web-версии на удаленном сервере. Помогает комфортно управлять большими данными, выстраивать аналитические подсчеты, совместно работать над проектами, пользоваться языками SQL, Scala, Python, R.
- Google Collab Облачный Jupyter Notebook, разработанный корпорацией Гугл. Регулярно обновляется, получая свежие апдейты. Ключевое отличие от Юпитер Ноутбук – возможность запуска облачной сессии с графическим/тензорным ускорителем.
- PyCharm Community Бесплатная среда разработки для языка программирования Python от компании JetBrains. Встроенный инструментарий позволяет анализировать код, заниматься его графической отладкой.
- JetBrains DataSpell Еще одна интегрированная среда разработки (IDE) от JetBrains. Несет в себе полезный функциональный набор для решения вопросов в сфере науки о данных.
Книги:
- Дж. Грас – «Data Science. Наука о данных с нуля». Отличная книга с множеством полезной информации для быстрого старта в профессии. Читателю не понадобятся знания аналитики либо конкретных специализаций. Состоит из разделов про Пайтон, алгебру, мат-анализ, статистику, теорию вероятностей, ML, типичные предсказания, БД, SQL.
- П. Брюс, Э. Брюс – «Практическая статистика для специалистов Data Science». Чтобы понять эту книгу, потребуются знания математической статистики, а также языка программирования R. Если вы в «теме», тогда сможете быстро обучиться разведочной аналитике, проведению статистических экспериментов, проверке значимости, регрессии, машинному обучению.
- О’Нил, Шатт – «Data Science. Инсайдерская информация для новичков». Автор рассказывает о байесовском методе, способах визуализации данных, статистических алгоритмах, рекомендательных движках, MapReduce, финансовом моделировании. К слову, материалами из книги пользуются на курсе Колумбийского университета по анализу данных. Книга нравится многим начинающим data-сайентистам, маркетологам, владельцам бизнеса и т.д.
- Ын, Су – «Теоретический минимум по Big Data. Всё что нужно знать о больших данных». На страницах издания вы сможете познакомиться с разнообразными алгоритмами, рассмотреть примеры из реальных задач, выяснить тонкости сбора/анализа, понять, чем занимаются эксперты в рассматриваемой области, что нужно для того, чтобы стать таковым.
- Силен, Мейсман, Али – «Основы Data Science и Big Data. Python и наука о данных». Книга содержит всё самое необходимое, от советов для новичков, желающих углубиться в одну из ТОПовых профессий, до практического применения продвинутого инструментария. В качестве языка программирования используется Пайтон, детально разбираются ML-алгоритмы, массивы, NoSQL.
YouTube каналы:
- SpringBoard Иностранный канал о Data-Science. Снимают познавательные интервью с data-сайентистами крупных компаний уровня Google, Uber, Airbnb. Здесь можно извлечь для себя множество ценных советов, рекомендаций, лайфхаков. Для тех, ко не разбирается в английском языке, доступны русскоязычные субтитры.
- FreeCodeCamp Open source community, содержащее обилие видеоклипов для бесплатного обучения программированию. Подойдет для людей, которые хотят заниматься созданием собственных проектов, независимо от заказчиков или работодателей. Всё доступно на бесплатной основе. Так же предлагают подписчикам записаться на новостную платформу FreeCodeCamp, где постят интересные статьи о программировании.
- Data Science Guy Если вас интересует профессия Data Scientist, обязательно подписывайтесь на этот канал. Автор канала даёт множество полезных советов о том, как начать обучение. Здесь пишут нейронки, запускают опенсорс-проекты, делают edutainment контент по теме дата-сайенс, машинное обучение, нейронные сети.
- Alexander Ershov Автор канала поможет разобраться в специфике работы data-сайентиста, в понятной форме объяснит об основном инструментарии, который непременно пригодится начинающему специалисту. Есть различное видео о программировании.
- miracl6 Хороший выбор для тех, кто интересуется Data Science. Автор канала занимает должность Senior Data Scientist, часто публикует различные видеоролики про Пайтон, аналитику, машинное обучение. Кроме основной тематики, есть разнообразный контент про образование, карьеру, саморазвитие.
FAQ (Часто задаваемые вопросы)
На первый взгляд, работа дата-сайентиста может показаться похожей на аналитика. Они оба занимаются обработкой крупных объёмов информации и всё же, существуют определенные нюансы, расскажем о них.
Аналитик проводит статистический анализ, результат которого необходим для предоставления ответов на конкретные вопросы, решения текущих проблем. В обязанности входит сбор данных, выявление закономерностей, формирование отчётов, благодаря которым руководство сможет принять взвешенные стратегические решения для бизнеса.
Data-сайентисты не только анализируют данные, прогнозируют отчеты, визуализируют собранные сведения… В их задачи входит построение моделей на основе полученной информации. В этом случае, нужны знания в области Machine Learning и Deep Learning. Таким образом, можно сделать вывод, что работа аналитика проще, так как ему не требуется погружение в ML или DL.
В случае, если проект дата-сайентиста демонстрирует хорошие результаты, то ключевой задачей ML инженера, станет продолжить такой проект. DS анализирует данные, строит модели, занимается их тестированием. ML должен автоматизировать работу моделей, отслеживать корректность их функционирования, устранять ошибки.
Для обучения профессии, следует изучить математику и машинное обучение. Специально для этого, можно закончить профильный ВУЗ, например: НИУ ВШЭ, МФТИ, МГУ. Это займет 4-5 лет.
Если у вас уже есть соответствующий опыт, вы можете пройти онлайн курсы за 1-2 года. Ведущие онлайн-школы и академии предоставляют полную менторскую поддержку, много практических занятий, официальный диплом о повышении квалификации.
Средняя стоимость обучения в лучших учебных центрах колеблется в пределах 90-120 000 рублей. Существуют расширенные курсы, продолжительностью более 1 года, ценой – от 150 000 до 215 000 рублей. Примечательно, что в большинстве онлайн-школах доступны выгодные скидки, акционные предложения, есть беспроцентная рассрочка. В любом случае, учиться удаленно будет дешевле, чем на очной основе.
Несмотря на то, что наличие опыта желательно, обучиться профессии можно и с нуля. Просто, сам процесс займет больше времени, а от вас потребуется желание досконально вникать в учебные материалы, не пропускать практикумы, разрабатывать собственные проекты с проверкой преподавателя/наставника. Если у вас нет знаний в рассматриваемой нами области, но вы хотите освоить специальность data-сайентиста, обязательно посмотрите подборку лучших курсов. К слову, ведущие учебные центры оказывают помощь успешным выпускникам с трудоустройством, а также предоставляют помощь с решением рабочих вопросов после завершения обучения.