Цитаты про data science

Обновлено: 22.12.2024

Руководитель департамента Data Science холдинга ID Finance Андрей Атрашкевич за два года проинтервьюировал более сотни специалистов и рассказал, что с ними не так.

Когда-то элитой финансовой сферы в России были программисты. Их воспринимали как незаменимых, уникальных людей — примерно так они изображены в книге Стругацких «Понедельник начинается в субботу».

На какие только ухищрения не идут персонажи книги, чтобы доставить главного героя — программиста — в НИИЧАВО. Кто такие программисты сейчас? Незаметные офисные служаки, которые заняты нелёгким, рутинным и, в общем-то, скучным трудом. Теперь элитой стали data scientists (DS или дата-сайентисты). Они — белая кость и голубая кровь финтеха, их зарплата — выше, чем общая по рынку, но ещё выше их самомнение.

Мы постоянно набираем риск-аналитиков, продуктологов, DS и так далее: финтех-холдинг ID Finance работает с колоссальными объёмами данных из семи стран (включая Бразилию, Мексику, Испанию и прочее).

Для сферы финтеха, где все бизнес-процессы завязаны на обработке данных, поиск нужных людей превращается в настоящую головную боль. Чтобы найти последнего DS я провёл 14 собеседований. За два года я проинтервьюировал более сотни людей. Теперь я могу объяснить, почему они всех так раздражают.

Снобизм

Karma police, arrest this man: he talks in math, he buzzes like a fridge. Я умею писать такие алгоритмы, что не каждый и поймёт. Если мой алгоритм не приняли — значит, они дураки. Очень часто именно так рассуждают многие DS. Хуже, когда на это накладывается снобизм академических институций.

Кто не оканчивал кафедру интеллектуального анализа данных Физтеха (или Школу анализа данных «Яндекса») — тот ничтожество и гордо называться «data scientist» не может. Это ещё один частый аргумент DS. По большому счёту, регалии ничего не стоят. Есть только два варианта: либо твой алгоритм приносит пользу, либо нет. И не важно, какое у тебя образование и как правильно называется твоя профессия.

Низкая квалификация

Профессия DS находится на этапе становления, попасть в неё можно буквально с улицы (например, простым инженером просто так не станешь — необходимо системное образование). Сложно даже представить, насколько легко перейти в эту профессию. Есть много инструментов для самообразования: Coursera, edX, Kaggle и прочее.

Большинство отличных data scientists — это самоучки, я это говорю с колоссальным уважением. Но эта доступность инструментов создаёт иллюзию лёгкого обучения. В какой-то момент вокруг DS возник хайп. В итоге на рынке труда с одной стороны ощущается дефицит кадров (потребность в специалистах за последние годы возросла в десятки раз), с другой — он переполнен людьми, которые ничего не умеют (хотя убеждены в обратном).

Мне иногда на собеседованиях DS пытаются рассказать все слова, которые выучили. На вопрос, как они представляют то, чем им предстоит заниматься, отвечают: «кластеризация», «классификация с помощью нейронных сетей», «классификация нечёткими логиками», «reinforcement learning» и так далее.

При этом для большинства из них это не более чем почерпнутый из online-курсов (чаще всего не пройденных до конца) «модный» сленг, позволяющий опознать «своих». Большинство при этом в лучшем случае способно вызвать готовую функцию из Python-библиотеки, понимающих механику работы алгоритмов — единицы.

Завышенные ожидания

Люди обучаются DS, потому что думают, что это сплошное творчество, что они будут «парить в алгоритмах», ну или на крайний случай заниматься сложными, но интересными проектами.

На деле — это тяжёлый рутинный труд, требующий концентрации сосредоточения. 90% работы любого DS — это обработка данных, поиск выбросов, проверка на их согласованность — занятия, далёкие от творчества в его романтическом понимании. В этом деле нужно уметь «щупать данные». Этого можно достичь только опытом и больше ничем.

Аутизм

Я наблюдаю у многих соискателей лёгкую форму высокофункционального аутизма. Им неинтересно общаться с другими людьми, а интересны лишь алгоритмы. По моим ощущениям, доля таких социально неадаптированных людей в DS примерно 60—70 %. Это профессиональное заболевание, как силикоз у шахтёров.

Но data scientist должен уметь общаться и работать в команде. В процессе выполнения задач сотрудникам нужно разговаривать с отделом финансов, продаж, рисков и прочее. В ID Finance DS неизбежно вплетены в производственную цепочку и более-менее разбираются в работе отделов маркетинга и финансов.

Конечно, это работает не везде: некоторые компании считают неумение общаться плюсом. Всех DS собирают в одном место, ставят кофемашину, приносят печеньки и разрешают полдня играть в Xbox, при этом получают хороший результат. Но таких компаний очень мало.

Для многих молодых людей профессия DS — этакая форма социального эскапизма. Они думают: «Я не хочу работать в офисе и стать к 30 годам героем песен Шнура, поэтому я пойду в data science. Это стильно, модно, молодёжно».

DS — это хипстеры от ИТ

DS всерьёз иногда думают, что лучше применять тот алгоритм, который моден в этом сезоне. Так, например, было с XGboost. Когда я спросил на очередном собеседовании, почему именно XGboost и как он работает. То услышал такой ответ: «Я точно не знаю, но вообще все пользователи на Kaggle используют этот алгоритм, получают отличные метрики, выходят в топ, гребут медали и призы».

При этом принцип работы этого алгоритма можно изобразить на обычном листке бумаги, в Coursera это делают на доске. Критерием выбора инструмента должна быть его практическая применимость для конкретной задачи.

Если у меня задача сделать базу данных, я буду использовать какой-то из диалектов SQL. Если нужно смоделировать приём сигнала на радар, то воспользуюсь языком С++. Я всегда буду выбирать инструмент под задачу. Я не буду делать сайт на C++ или писать операционную систему на PHP, хотя так тоже можно. Для чат-бота необязательно использовать динамические нейронные сети. Оставьте вообще в покое нейронные сети.

Непонимание бизнеса

Алгоритмы нужны не сами по себе, а в контексте бизнес-процессов. В конце концов, аналитик работает для того, чтобы компания заработала больше денег. И DS должен понимать, что это за рынок, откуда идёт доход и как в этом помогают модели, которые он создаёт.

Например, может ли быть так, что в группе людей, которым за 60 лет, больше владельцев iPhone, чем в группе людей, которым 20-30 лет? В России — однозначно нет. В Бразилии — почему бы и нет. Мы работаем в семи странах и неплохо, чтобы человек мог разобраться, чем уклады и традиции одной страны отличаются от уклада и традиций другой.

Неумение рассказать о том, что ты делаешь

Иногда DS не могут описать, как тестируется простая статистическая гипотеза. А это означает полнейшую профнепригодность. Он должен на человеческом языке рассказать, как алгоритм работает на том или ином шаге. Притом так, чтобы это стало понятно кому угодно. Самые сложные вещи должны объясняться простыми словами.

Если во время работы подойдёт, например, самый главный босс, и DS не сможет ему разъяснить что-то, его просто уволят. Логика руководства проста — если человек не понимает, как это работает, он не поймёт, что не сработает.

У них дурацкое название

Непонятно, как их лучше звать по-русски. Консенсуса по этому вопросу нет. Обычно их называют дата-сайентистами, сами они себя иногда зовут дата-сатанистами, вероятно, полагая, что это остроумно. Слово «аналитик» они старательно избегают, наверное, оно недостаточно «секси». Раньше шутили, что заводы в стране стоят, зато вокруг одни фотографы. Теперь будут шутить, что заводы стоят, потому что везде одни data scientists.

Показать ещё 81 комментарий Популярные По порядку Написать комментарий. Ответить

Виталий, благодарю Вас за приглашение! По возможности — неприменно присоединюсь, хотя я, наверное, уже слишком стар и не моден для такого сообщенства:)

Ответить

Не переживайте, у нас есть люди очень молодые и очень опытные, так что у любого человека есть возможность найти с кем пообщаться.

Ответить Ответить

Присоединяюсь к приглашению, у нас очень хорошо.

Ответить

Как говорит один мой знакомый: «Если человек утверждает, что он дата-сайентист, то скорее всего он пиздабол»

Ответить

А если и правда датасайентист? ЧТО ТОГДА??

Ответить

Тогда не пиздабол.

Ответить

Devoted, у Вас, кажется, обратное распространение ошибки сломалось:)))

Ответить

Шаг в град спуске надо меньше взять :)))

Ответить Ответить

Комментарий удален по просьбе пользователя

Ответить

вы тоже дата сайнтист?)

Ответить

Не понял, почему у многих комментаторов так бомбит на эту статью. Упомянуты вполне реальные проблемы, связанные с профессией (например, мало толковых кандидатов). Да и сам автор, по впечатлению, имеет большой опыт подбора / взаимодействия с DS'ами и отлично разбирается в теме. Так что его мнение по теме, имхо, довольно ценно в связи с упомянутыми выше обстоятельствами.

Ответить

Собеседовался в ID Finance недавно как раз у этого дяди. Мои впечатления: шикарный мужик, отличный специалист. Очень приятные ощущения после интервью оставил, что бывает редко (точнее почти никогда). Вроде взаимно друг другу понравились, но команда искала аналитика, а я хотел в DS. DS команда была полностью укомплектована и дополнительного набора не планировалось. Пришлось расстаться, но расстались довольные друг другом)

Ответить

Ну, что и требовалось доказать. =) Так что автору респект.

Ответить

Андрей (автор), добрый день. Узнав, что вы из Сыктывкара, испытал гордость, что земляк возглавляет Data Science подразделение в солидной компании. Вы ведь помимо работы в индустрии занимались или занимаетесь наукой, судя по тому, что вы кандидат наук. Однако нигде не могу найти вашу кандидатскую работу. Не могли бы дать ссылку на вашу кандидатскую? Думаю, что она будет мне полезна, т.к. занимаюсь схожей тематикой.

Ответить Ответить

Диссер не ищется, от слова напрочь. Автор пишет что аспирант - еще в 2015 году, т.е. диссер должен бы уже всплыть - хоть в виде автореферата. Фамилию автор вроде бы не менял. Мистика.

Ответить Ответить

Так и прочитал изначально 😅

Ответить Ответить

А мне казалось что ДСы должны иметь базовое инженерное образование в сфере ИТ или математическое. +Курс собственно самого напрвления ДС. При такой подготовке странно было бы не иметь глубокого понимания алгоритмов обработки данных.

Ответить

Илья, вы совершенно правы, DS'у хорошо бы иметь базовое образование в области точных наук, которое затем углубить курсами по Data Science.

Но, во-первых, то, что тебе дают техническое образование не значит, что ты его действительно получишь. Довольно часто на собеседованиях я встречаю людей (с дипломами весьма почтенных ВУЗов), чей ответ на вопрос «что такое p-value», вызывал желание дать им учебником Ширяева (или хотя бы «Конспектом» Письменного) по голове, а затем заставить их читать эти книги quantum satis до полного просветления.

Во-вторых, обычная ситуация с пониманием «механики» алгоритмов DM / ML у очень многих соискателей должности Data Scientist'а прекрасно описывается этим замечательным мемом:

Ответить

"Андрей Атрашкевич
руководитель направления Data Scienсe финтех-компании ID Finance
В 2013—2014 годах — риск-аналитик в Национальном Банке «Траст». В 2014—2016 годах — старший специалист в Райффайзенбанке. До 2017 года — руководитель проектов в Росгосстрах Банке (ПАО «РГС Банк»). С 2017 года — руководитель направления Data Scienсe финтех-компании ID Finance. Кандидат физико-математических наук. "

Ответить

Вы действительно считаете, что p-value - краеугольный камень современных наук о данных? Вы в курсе же, что ряд топовых журналов, видя статью с p-value может ее даже не читая завернуть?

Ответить

BearStrikesBack, позвольте поблагодарить Вас за бурю положительных эмоций, которые я и мои коллеги испытали, читая Ваши комментарии, и несколько минут здорового громкого смеха!:)

Я подумал, что Вы меня просто троллите, причём троллите, что называется, «толсто». Однако, прочитав другие Ваши комментарии я понял, что Вы пишите на полном серьёзе. Ну что же, позвольте ответить на Ваши вопросы.

Краеугольным камнем современных наук о данных я считаю, конечно же не p-value (это не более чем инструмент), а идею о том, что в данных можно находить «ранее неизвестные, нетривиальные, практически полезные и доступные интерпретации знаний, необходимые для принятия решений в различных сферах человеческой деятельности». Это идея имеет столь же фундаментальное значения для Data Science, как идея актуальной бесконечности — для математики, а теорема Нётер — для классической физики. Поинтересуйтесь историей приведённой выше цитаты: уверяю Вас, это в высшей степени познавательно и интересно.

Касательно p-value: если человек, утверждающий, что знает, что такое reinforcement learning, не сможет просто объяснить, что такое p-значение, у меня возникнут сомнения в его глубоком понимании столь сложного концепта как обучение с подкреплением. Как, наверное, у меня возникли бы сомнения, что человек — музыкант, если он не знает и не может объяснить что такое диез и бекар, и чем скрипичный ключ отличается от басового.

Может быть, дело в том, что плохо понимаю, что такое «топовый журнал». Мне понятно, что такое «полезный в такой-то сфере журнал» или «журнал по такой-то тематике», чуть хуже — «высокий импакт-фактор статьи» или «индекс цитируемости автора». Поэтому простите мою серость и замшелость и отнеситесь снисходительно:)

Следующая цитата

Что нужно знать, чтобы анализировать данные — рассказывают преподаватели школы SkillFactory.

Что такое Data Science

В конце июня 2019 года Google выпустила обновление для своего сервиса «Карты». В новой версии приложение научилось предсказывать задержки в движении общественного транспорта даже тогда, когда у него нет доступа к данным текущего местоположения автобусов. Алгоритм рассчитывает время на дорогу с учётом всех факторов: пробок, расположения остановок, выделенных полос. Среди прочего для построения моделей специалисты использовали снимки из Google Street View.

Предсказание скорости движения общественного транспорта — один из примеров того, как бизнесу и пользователям помогает data science.

Наука о данных — обширная сфера, которая сочетает несколько смежных дисциплин. Это программирование, математика и статистика, бизнес-аналитика и машинное обучение.

Специалисты в этой сфере, аналитики данных, работают с большими массивами данных, извлекая из них полезную информацию. Результат даёт ответы на множество вопросов: например, почему один менеджер заключил больше сделок, сколько единиц товара нужно закупить в следующем квартале и какой компонент лекарства улучшит самочувствие пациента. Для решения некоторых задач специалисты разрабатывают алгоритмы, которые способны генерировать результат без участия человека.

По данным HeadHunter, специалисты в анализе данных в 2017 году получали в России от 130 до 300 тысяч рублей в зависимости от опыта.

Спрос на аналитиков данных увеличивается каждый год: только с 2016 года по 2018 он вырос в два раза. При этом доля вакансий для кандидатов с опытом работы меньше года на четверть выше, чем в целом по ИТ-рынку.

В чём нужно разбираться

Требования к подготовке и уровню профессиональных навыков зависят от того, в какой компании предстоит работать специалисту. Например, в крупных корпорациях аналитику данных важно разбираться в математике и статистике. Маркетплейсам и медиакомпаниям нужны эксперты в разработке рекомендательных систем, а в крупном ритейле — в разработке машинного зрения.

Такие навыки востребованы на HeadHunter. Цифра означает количество вакансий

Преподаватели школы SkillFactory изучили вакансии в области Data Science на российском и зарубежном рынке и составили список навыков и областей знаний, которые понадобятся успешному специалисту:

Программирование

Наиболее востребованный и распространенный язык в Data Science сегодня — это Python. До него самым популярным языком был R, который продолжают использовать, например, для анализа данных, научного статистического анализа и в социологии.

По данным Towardsdatascience

Среди прочего Python хорош тем, что на его базе можно разработать практически любую библиотеку, заточенную под выполнение самых разнообразных задач. Базовый дистрибутив Python небольшой, удобен для установки и обновления. Любые дополнительные возможности можно «прикрутить» через специальные библиотеки.

У каждой библиотеки есть обширная документация, поэтому в них легко разобраться. Вокруг самых востребованных и популярных формируются сообщества, которые поддерживают библиотеку, разрабатывают для неё новые модули и функции.

Мы готовы учить людей с нулевым уровнем знаний в программировании. Специально для них мы проводим десять дополнительных вебинаров в рамках курса: пять по вводному блоку и пять по основному. Согласно нашему опросу около трети студентов никогда не программировали, столько же — программировали в школе. Остальные — это люди с каким-то опытом, но матёрых разработчиков среди них мало, чаще всего это люди, которые изучали другие языки программирования.

На курсе мы изучаем базовые алгоритмические конструкции, структуры данных, работу со строками, работу с датами и функции. Начинаем с введения в Python: изучаем кнопки, пишем программу «Hello World». Если студент будет прикладывать хотя бы 40% усилий от своего максимума и вовремя будет давать обратную связь, то изучение даже с нуля не займет много времени. На изучение базового Python понадобится от 2-3 недель до полугода, если заниматься раз в неделю.

Второй этап — знакомство с библиотекой Pandas, которая нужна для сбора, очистки и анализа данных. Это займёт от 1-2 недель если уделять занятиям целый рабочий день и иметь базовые навыки программирования. Нужно быть готовым продолжить обучение после курса: библиотека большая, в ней много функций и настроек, которые нельзя выучить сразу.

Мария Липчанская старший эксперт курса «Python для анализа данных», кандидат наук Полезные материалы для изучения Python Анализ

Основа работы аналитика данных — работа с данными. В том числе с теми, которые можно «скормить» разработанному алгоритму.

Вокруг огромное количество данных, современное человечество генерирует их с невероятной скоростью каждый день. Эти данные нужно уметь собирать, хранить, приводить в приемлемый для анализа или машинного обучения вид — очищать, форматировать и определять, что именно можно узнать из этих данных.

Анализ данных тесно связан с использованием профильных библиотек для Python и с пониманием математических и статистических основ анализа данных. Важно уметь находить в них закономерности и понимать цели и задачи бизнеса.

Математика и статистика

Заниматься Data Science можно и без глубоких знаний в фундаментальной математике: современные библиотеки содержат огромное количество готовых решений. С их помощью можно анализировать данные и обучать алгоритмы не вдаваясь в математические подробности. Но только до первой по-настоящему сложной или нетипичной задачи.

Разобраться с ними можно только если аналитик данных действительно понимает, как работают все строчки кода «под капотом» с точки зрения математики и статистики. Поэтому крупные компании на собеседованиях часто проверяют уровень знаний соискателя в этих областях.

В чём нужно разбираться специалисту:

Линейная алгебра — основы работы с векторным и матричным представлением данных.

Для изучения Data Science необходимо базовое знание школьного курса по математике. Не на уровне 80 баллов ЕГЭ — достаточно знать, что такое квадратичные уравнения и как они решаются, как умножаются скобки. Важно разбираться в технических моментах.

На курсе по Data Science в SkillFactory изучение математики состоит из трёх блоков: основы линейной алгебры, матанализ и теория вероятности и статистика. Студентам не придётся доказывать теоремы или как-то углубляться в основы. Например, блок про матанализ — это скорее рассказ про математику, из которого становится понятно, что математики умеют сегодня и как этим можно пользоваться.

Аяна Шелике преподаватель статистики и линейной алгебры МИЭФ ВШЭ, автор и преподаватель на курсе по математике и статистике Полезные материалы по математике

«(Не)совершенная случайность» Леонарда Млодинова.

Машинное обучение и глубокое обучение

Обучение нейросетей — один из подразделов машинного обучения, в котором, в свою очередь, выделяется глубокое обучение. Сложная система терминологии связана с тем, что область развивалась десятилетиями до того, как очередные прорывы в методах сделали её по-настоящему популярной — подобласти выделялись постепенно. Сейчас, когда речь идет об обучении нейросетей, чаще всего подразумевают методы глубокого обучения.

Машинное обучение — огромная самостоятельная область, но лишь часть науки о данных. В ней можно развиваться практически бесконечно — новые методы появляются каждый год. Если раньше Deep Learning был условно единой областью знаний, то сегодня входящие в него подобласти — компьютерное зрение, работа с естественным языком, обучение с подкреплением, генеративно-состязательные сети и другие методы, — выделяются в самостоятельные сферы специализации. Это направление растёт невероятно быстро, заставляя специалистов постоянно поддерживать свой уровень знаний, чтобы успевать за рынком.

Следующая цитата

Data Science – популярное направление в IT, о котором сейчас говорят все. Но далеко не каждый понимает, чем же на практике занимаются дата-сайентисты. Если кратко, они обрабатывают огромные массивы данных (настолько, что не влазят в таблицу Excel) и на их основе создают алгоритмы для решения разных задач – от составления прогнозов погоды и систем рекомендаций музыкальных сервисов до разработки умных чат-ботов и проведения генетических исследований.

На квалифицированных data science-специалистов огромный спрос среди крупных компаний. Интересная работа, отсутствие рутины и высокие зарплаты заставляют задуматься о смене работы людей не только с техническим образованием, но и гуманитариев. Однако ни те, ни другие не знают, как подступиться к профессии дата-сайентиста: куда пойти учиться, как устроиться на работу и что в итоге придется делать.

Мы поговорили с тремя выпускниками SkillFactory, прошедшими курс по Data Science, и выяснили, почему они решились на перемены в жизни, совпали ли ожидания от новой профессии с реальностью и с какими сложностями им пришлось столкнуться во время работы и учебы.

Савелий – 17 лет

Почему я выбрал Data Science

Все профессии, которые я знал в детстве, мне не особо нравились, зато меня всегда привлекали компьютеры. В 6 классе я заинтересовался программированием и стал изучать языки C++ и Python. Можно сказать, что к 9 классу у меня уже были довольно глубокие знания по написанию кода.

Еще тогда я понял, что если хочу развиваться в IT-сфере, одного программирования недостаточно. В тот момент мне предложили поучаствовать в школьной олимпиаде, связанной с Data Science. Работа с массивами данных привлекла меня тем, что требует творческого подхода – для каждой задачи надо подобрать оригинальное решение. Этим Data Science отличается от разработки софта, где используют примерно одинаковые методы. Но это мое субъективное мнение.

О сложностях в учебе

По Data Science совсем мало обучающих курсов и действительно полезной информации в открытом доступе. Решение учиться на дата-сайентиста в SkillFactory пришло после того, как я прошел у них трехмесячный курс по программированию на Python. Мне понравился удаленный формат и то, как структурирована учебная программа.

Я уже умел кодить и был уверен в своих скиллах, поэтому единственное, что смущало на курсе – это раздел с высшей математикой. Она давалась мне очень тяжело, так что иногда я обращался за помощью к менторам. Их ответ мог прийти моментально или на следующий день.

Еще мне помогали другие ученики. Вообще, на курсе много командных конкурсов, потому что дата-сайентист практически никогда работает один. Темы контестов полностью связаны с Data Science. Например, было соревнование по анализу временных рядов.

Как дипломный проект помог прокачать скиллы дата-сайентиста

За почти два года, что я занимаюсь Data Science, самым сложным заданием для меня был дипломный проект в SkillFactory – «Предсказание цен на недвижимость с использованием машинного обучения». Программа, которую я сделал, брала данные по определенному объекту: местоположение, этажность, площадь квартир и количество комнат – и строила по ним прогнозы стоимости этого жилья.

Самой трудной, но и самой интересной частью проекта был непростой формат данных. Легко работать с информацией в однотипном формате. Например, когда числа аккуратно собраны в таблицу. Но если есть какие-то подписи или символы, их нужно очищать, а это очень тяжело. По сути, я столкнулся с огромным массивом неструктурированных данных.

Фрагмент презентации дипломного проекта Савелия

Дипломный проект занял очень много времени, но именно он развил навыки, которых раньше не хватало. Задание заставило применять самые изощренные решения, до которых я вряд ли бы додумался раньше.

Я стал детальнее разбираться во всех «фичах» Data Science и овладел новыми инструментами, например, hyperopt для автоматического подбора гиперпараметров или spellchecker для исправления орфографии в словах. Также я укрепил знания по материалам, которые на курсе мне были не совсем понятны.

На курсе SkillFactory есть большой блок, посвященный трудоустройству. Нам рассказали о том, как правильно составить резюме, оформить портфолио и найти подходящую работу.

После окончания вуза я хочу работать в компании, которая занимается производством деталей для компьютеров, например, в Nvidia. Если не получится сразу найти работу по душе, поступлю в магистратуру за границей и буду развивать карьеру там. Мне не интересны руководящие позиции. Я просто люблю свое дело и хочу развивать свои навыки дата-сайентиста, чтобы в будущем создать что-то действительно полезное.

Сергей – 41 год

О потенциале Data Science

Я окончил факультет автоматизации в Сибирском государственном индустриальном университете. В IT-сферу пришел 14 лет назад, начинал с внедрения информационных систем для бизнеса. Последние 5 лет занимаю должность проектного менеджера.

В компании, где я работаю, используют большие данные и автоматизацию, поэтому во время разработки проектов часто сталкивался с методами машинного обучения. Я заметил, что не хватает людей со знаниями и навыками, которые позволят применить новые технологии по максимуму. В итоге захотелось немного уйти от проектного менеджмента в более функциональную область Data Science.

Я увидел потенциал этого направления: алгоритмы, созданные на основе данных, могут быстро решать самые сложные задачи бизнеса без привлечения большого количества людей. Исключаются ошибки в расчетах и прогнозах из-за запутанной коммуникации или банальной усталости.

Как я оказался на курсе SkillFactory

Я пришел к выводу, что если совмещу бэкграунд проектной работы и скиллы по Data Science, то стану востребованнее на рынке труда в будущем. Поиск подходящих курсов не был долгим: я увидел рекламу SkillFactory, изучил программу специализации Data Science, спросил у знакомого о качестве знаний, которые дает школа, и оплатил занятия.

Курс длился год. Я договорился на работе, что буду учиться по 2 часа день. В выходные занимался еще по 3–4 часа. Занятия поделены на 6 блоков: Python для анализа данных, математика, теория вероятности, статистика, машинное обучение и продуцирование решения, или science in production.

Про алгоритм, который избавил людей от рутинной работы

Через 4–5 месяцев после начала учебы я предложил решить одну задачу по работе: считалось, что ее трудно автоматизировать и нужен ручной труд с огромными временными затратами. Для реализации проекта я уже использовал знания, полученные на курсе.

Модель машинного обучения, которую я создал, помогает считать размер выплат дистрибьюторам. Для расчетов мы брали данные по продажам из торговых точек. Сложность в том, что в один магазин товар могут поставлять разные фирмы. При этом в отчетах данные по торговым точкам необходимо отнести к конкретному дистрибьютору.

Раньше филиалы дистрибьюторов вручную проставляли в автоматически сформированном отчете с торговыми точками. Теперь этот отчет проходит через алгоритм, и на выходе получается заполненная таблица. В ней уже указан номер и название филиала, на который нужно отнести продажи магазина. Сотруднику остается лишь убедиться в отсутствии неточностей, а возможные ошибки выделяются цветом.

Фрагмент презентации дипломного проекта Сергея

Люди на работе говорили, что проект получился классным и здорово им помогает. В тот момент я решил, что нужно еще больше времени посвятить учебе и ушел в административный отпуск на полгода.

О дипломном проекте и перспективах в профессии

Этот алгоритм, созданный изначально для работы, и стал моим дипломным проектом на курсе Data Science. Новые знания и проверка ментора SkillFactory помогли его улучшить. Я переписал саму программу объектно-ориентированным подходом, добавил логирование информации и запуск с ключами, как этого требуют стандарты качества в сфере Data Science. Хотелось сделать то, что не стыдно показать и заявить: «Это мой дипломный проект, и я горжусь им».

Когда я вернулся из отпуска, к новой команде присоединился уже в роли дата-сайентиста. Теперь буду заниматься моделированием и предсказанием роста продаж.

В будущем я вижу себя человеком, который сможет выполнять все работы в области больших данных и машинного обучения. Теперь у меня есть широкий кругозор в этой сфере и способность видеть задачи, которые можно решить с помощью Data Science. Главное – не переставать искать что-то новое: следить за изменениями в индустрии, пользоваться лучшими инструментами и уметь пересматривать привычные подходы к работе.

Может ли гуманитарий стать дата-сайентистом

Часто люди могут не знать себя. Бывает, что идут в гуманитарный вуз только из-за обстоятельств. Самая банальная причина – избежать службы в армии. На деле же оказывается, что человек «технарь» до мозга костей, и он прекрасно раскрывается в IT.

На потоке по Data Science, где я учился, было несколько гуманитариев. Некоторые из них дошли до конца обучения. Если есть стремление, открыты все дороги. Но, конечно, таким людям будет сложнее. Для успешной учебы им нужно самостоятельно заполнять пробелы в знаниях – математике и программировании.

Читайте также: