Шутки про анализ данных
Обновлено: 26.12.2024
Некоторые интерпретации результатов исследований:
С ростом дохода растет и стоимость потребляемых товаров первой необходимости. Например, вместо драпового пальто можно купить норковую шубу и зимой она будет товаром первой необходимости.
На каждые 1000 рублей дохода жители США уплачивают за жилье 179 рублей.
Естественное желание людей пить дает своё отражение в моделях регрессии.
Человеку в любом случае нужна определенная сумма денег, иначе он просто умрет. В нашем уравнении эта сумма составляет 65,1 млн долларов. Даже если у него нет никакого дохода, он потратит эти деньги, продав что-то не первой необходимости, например, автомобиль.
Эту мысль можно проверить гипотезой
Исследователь, о котором идет речь в задаче, – мой коллега, но менее ленив.
Константа показывает, насколько много кушают люди в США, в отличие от коэффициента при t, показывающего скорость изменения их аппетита. Расходы на питание растут с постоянной скоростью: другими словами, "чем больше ешь, тем больше хочется".
Как начать строить карьеру
Стереотипы в сфере аналитики данных не работают — неважно, гуманитарное или техническое образование получил дата-аналитик.
«У меня нет технического образования, я учился на факультете госуправления. А Python изучал на курсе биоинформатики для биологов. На мой взгляд, этот язык больше всего подходит для старта, база навыков работы с ним приобретается за два-три месяца. Затем стоит изучать профильные библиотеки для сбора и анализа данных. Чем больше ты знаешь библиотек, тем более качественная аналитика тебе доступна», — говорит Сергей Устинов.
Компании не рассчитывают, что начинающий аналитик данных будет уметь сразу всё. Они готовы обучать и направлять молодого специалиста. Главное — интерес к решению бизнес-задач. Правильно сформулированный перед исследованием вопрос важнее, чем большой опыт работы с программными инструментами.
«Программирование и математику можно выучить. А софтскиллы — нарабатываются опытом и практикой. Поэтому дата-аналитику полезны хакатоны и чемпионаты с решением практических задач. Он увереннее чувствует себя, прокачивая стиль мышления, ориентированный на решение конкретных бизнес-задач», — говорит Анна Чувилина.
Начинающих специалистов в сфере ИТ охотнее всего берут на позиции, связанные с анализом данных: доля вакансий для кандидатов с опытом работы меньше года здесь на четверть выше, чем в целом по рынку.
Работодатели ждут, что начинающий специалист:
- знает хотя бы один язык программирования: Python или R;
- умеет писать запросы к базам данных SQL;
- может показать выводы и метрики в виде понятного дашборда (Tableau, Power BI, Amplitude);
- хочет разбираться в бизнес-процессах, мыслит в терминах бизнес-задач.
Аналитику данных нужно понимать, что такое статистика и гипотеза. Серьезная математика не пригодится, главное ориентироваться в понятиях. В зависимости от запроса компании могут понадобиться навыки работы с Яндекс.Метрикой или Google Analytics. Опытные программисты с сильной математикой, которые не готовы думать в терминах задач бизнеса, закрывают себе путь в профессию аналитика данных.
«Джуниор вырастает в крутого специалиста, решая реальные кейсы. Потому что насмотренность определяет твой уровень: важно, сколько раз жизнь ставила тебя в ситуацию, когда нужно принимать решение. Развиваться в том, как владеешь инструментами, тоже важно. Но и решение реальных задач помогает аналитику данных расти», — говорит Анна Чувилина.
История про гребцов
Жила-была одна команда гребцов. И решила она посоревноваться с другой командой гребцов. В каждую команду вошло по 8 человек. Обе команды усиленно тренировались и ко дню соревнования были в одинаковой кондиции. Но в итоге команда соперников обошла их на километр. Настроение у проигравшей команды было хуже некуда. Высшее руководство задумалось. И решило нанять группу аналитиков, чтобы те оценили ситуацию и дали рекомендации, как выиграть в следующий раз.
После нескольких недель напряженного умственного труда аналитики выдали ответ на вопрос, почему команда проиграла. Оказалось, что в выигравшей команде было семеро гребцов и один капитан. В то время, как в проигравшей было 7 капитанов и всего один гребец. Высшее руководство хлопнуло себя по лбу и решило нанять консалтинговую компанию для проведения репозиционирования. Консультанты решили, что в команде было слишком много капитанов и слишком мало гребцов и рекомендовали перестроить команду. Теперь в команде стало всего четыре капитана, два менеджера, один топ-менеджер и один гребец.
С гребцом консультанты посоветовали активно работать, дабы мотивировать его на достижение победы. На следующих соревнованиях команда соперников ушла вперед на два километра.
Высшее руководство уволило гребца, так как оказалось недовольно результатами его работы. Все остальные члены команды получили бонусы за достижение высоких результатов в процессе мотивации.
Аналитики снова сели за расчеты и выдали причину поражения: «Стратегия была хорошая, мотивация отличная, менеджеры высшего класса, а вот средства реализации идеи были плохие».
Следующий анекдот
Данные собирают все — от магазинов и ресторанов до компаний-монополистов и приложений с миллионной аудиторией. Аналитик данных помогает сделать так, чтобы собранная информация приносила пользу бизнесу. Мы выяснили, какие задачи вместе с экспертами решает такой специалист и почему ему нужно разбираться в бизнес-процессах не хуже владельца компании.
Путешествие из Лос Анжелеса в Нью Йорк
Два статистика путешествовали на аэроплане из Лос Анжелеса в Нью Йорк. Через час полета пилот заявил, что они потеряли двигатель, но беспокоиться не стоит, так как еще три осталось. Однако, вместо 5 часов необходимо будет добираться 7 часов до Нью Йорка.
Чуть позже он заявил, что второй двигатель тоже вышел из строя, но есть ещё два и теперь перелет займет 10 часов.
Несколько позже пилот снова оповестил, что третий двигатель испортился. Но волноваться не стоит, так как самолет может лететь и с одним двигателем. Правда теперь придется лететь до Нью Йорка 18 часов.
Анна Першина
Студентка третьего курса факультета компьютерных наук Высшей школы экономики. С января 2020 года проходит стажировку в службе аналитики, метрик и экспериментов Поискового портала.
В ноябре 2019 года в Вышке проходили пробные собеседования в Яндекс. Успешное прохождение засчитывалось за один из этапов отбора на стажировку. Я записалась, но ни на что не рассчитывала. Собеседование прошло хорошо, мне предложили сразу идти на следующий этап или перенести его на лето. Я решила не ждать. Уже четыре месяца тружусь в службе аналитики, метрик и экспериментов. За это время научилась работать с запросами для баз данных, большими данными, освоила Python, а также начала читать чужой код.
Понять, чем занимается группа анализа краудсорсинговых сигналов, в которой я работаю, довольно сложно. Объясню на примере. Я тоже работаю с сервисом Яндекс.Толока. Моя задача — находить и исследовать проблемные задания, разрабатывать навыки и задания для новых исполнителей так, чтобы снизить потерю качества и разумно сэкономить. Например, есть задания с уже известными ответами. Чтобы понять, насколько хорошо человек выполняет работу и определить его навык, нужно сравнить ответы с правильными.
Для каждого задания есть инструкция, но добросовестность её выполнения важно уметь измерять и контролировать. Если постоянно не оценивать качество данных крауда, которые Поиск и другие сервисы Яндекса используют для улучшения своих алгоритмов, вскоре это может привести к убыткам. Метрики, которые разрабатывает наша группа, основаны на понимании природы данных, с которыми мы работаем.
Я начинала с небольших задач, например, искала подход для анализа больших таблиц с помощью MapReduce. Исследовала, как и кому начисляются навыки, в каких задачах страдает качество. Сейчас учусь достраивать графики и процессы. Вникаю во внутренние сервисы и механизмы и изучаю, как их можно автоматизировать, вношу свою лепту в общий проект. Иногда пишу простые вспомогательные скрипты на Python, чтобы не делать расчёты вручную.
Для стажировки можно выбрать 40-часовую, 30-часовую или 20-часовую рабочую неделю. Из-за учебы мне подходит только 20-часовая неделя. В понедельник я не работаю, но могу проверять почту и чаты команды. В остальные дни совмещаю работу и учёбу. До того, как мы перешли на удалёнку, я ходила на утренние пары с другой группой, чтобы всё успеть.
Важно понимать, что в Яндексе дело не в часах, а в задачах. Просто отсиживаться в офисе не принято
Аналитик — довольно широкое понятие. Никто не знает на собеседовании, в какую команду попадёт и чем будет заниматься. Не думаю, что к собеседованию есть смысл учить что-то конкретное, например осваивает новую библиотеку Python. Во всё это можно вникнуть в процессе, мой опыт это подтверждает. Важно не заучивать формулы, а понимать, что происходит. Полезно повторить теорию вероятностей и математическую статистику.
Ксения Кригер
Студентка четвёртого курса факультета вычислительной математики и кибернетики в МГУ. Работает в службе аналитики антифрода Яндекс.Такси.
О стажировке в Яндексе я узнала от однокурсников. В прошлом году дошла только до второго собеседования, в этом — решила попробовать снова. В результате мне предложили пройти третье, финальное, собеседование — в команду Такси. Вот уже два месяца я работаю в службе аналитики антифрода. Наша команда занимается выявлением, анализом и предотвращением мошенничества, связанного с платежами и другими данными.
Мне повезло, что первые три недели я успела поработать в офисе, общалась с командой. Ребята классные, все помогают, подсказывают. Раз в неделю мы встречаемся и обсуждаем, как сделать те или иные проекты лучше. Раз в две недели проходят встречи отдела, на них коллеги рассказывают о кейсах, очень интересные встречи получаются.
Не могу сказать, что моя работа состоит в основном из написания кода, скорее, это анализ больших данных, SQL-запросы. Задачи мне ставит куратор (это мой коллега, который отвечает за группу безопасности), а не непосредственный руководитель. Сначала я вижу задачу в Трекере, где кратко описано, что нужно сделать, затем мы обсуждаем это устно, я задаю вопросы. С куратором я общаюсь раз в две недели, с руководителем — раз в месяц.
Работа аналитика немного похожа на работу детектива
Необязательно превосходно знать Python или понимать, как работает ядро компьютера, достаточно быть в курсе основных деталей. Всё остальное приходит с опытом. До Яндекса я работала тестировщиком компилятора, мне эта работа не нравилась. Перед стажировкой я опасалась, что работа аналитика тоже не понравится. Но всё совсем наоборот: я понимаю, что это то, чем мне бы хотелось заниматься.
В работе мне больше всего нравятся люди. Смотрю на свою команду: профессионалы, все как на подбор. Занимаются интересными проектами, стараются решать задачи максимально хорошо.
Тимур Асылхузин
Студент четвёртого курса мехмата МГУ. С февраля 2020 года проходит стажировку в службе аналитики, метрик и экспериментов Поискового портала.
В университете мы изучаем в основном фундаментальную математику. Она далеко не всегда как-то соотносится с задачами, с которыми сталкиваешься в реальном мире. Поэтому я хотел понять, как обстоят дела в индустрии. К зиме четвёртого курса занятий в МГУ стало меньше, близилась сессия, и я подал несколько заявок на стажировки в разные компании, в том числе и в Яндекс.
Тестовое задание состояло из нескольких задач по программированию на Python. Дальше шли три очных собеседования. После второго вы формально уже приняты, остаётся только выбрать команду. Мне понравились ребята из группы анализа экспериментов, и я пошёл к ним.
Я понимал, что могу попасть в любую команду и что у каждой команды свои задачи. В этом одна из особенностей работы аналитика: задачи у всех разные, сферы тоже
Я попал в службу аналитики Поиска. У каждой команды в Яндексе есть свои метрики. На их основе принимаются решения, например, запускать ли сервис или обновления к нему. Мы занимаемся разработкой метрик для других сервисов Яндекса. У меня нет какой-то одной большой задачи, чаще это постоянный поток небольших заданий. Например, для Яндекс.Толоки. Это наша краудсорсинговая платформа, на которой можно выполнять небольшие задания в интернете и зарабатывать. При выполнении этих заданий у исполнителя растет тот или иной навык — так мы оцениваем умение выполнять задачи определенного типа.
Я работаю над созданием таких навыков, инструкций и экзаменов, а также анализирую результаты экспериментов и автоматизирую небольшие процессы в рассылках. Для некоторых задач пришлось освоить пару новых библиотек Python.
Любой аналитик в Яндексе должен иметь математический склад ума и обладать базовым математическим аппаратом, чтобы разговаривать с командой на одном языке. Конечно, необходимо знать Python хотя бы на начальном уровне. Всё остальное просто подтянуть в процессе.
Как мне кажется, аналитик — это человек, который стремится к порядку, улучшению процессов вокруг. Он должен уметь видеть взаимосвязи между явлениями и строить логические цепочки
Моя стажировка длится всего полгода. В зависимости от количества часов в неделю, которые каждый стажёр может уделять работе, она может быть короче или длиннее. Мне очень повезло, что я успел поработать в офисе, сделать несколько задач и пообщаться с командой до режима самоизоляции. Так что переход на удалёнку прошёл безболезненно.
Сложновато было вначале, когда я только пришёл. В Яндексе много внутренних сервисов, я не сразу понимал, о чём говорят коллеги. Но это нормальный процесс, через него проходят все сотрудники, нужно время, чтобы разобраться. Мне очень помогал куратор: рассказывал про всё и отвечал на вопросы. Это такой коллега из команды, который помогает новичку освоиться. До середины марта я приезжал на работу утром или вечером, пар было много. Сейчас часть занятий отменилась, я спокойно работаю утром, а вечером — учусь.
Мой руководитель отвечает за работу нескольких сервисов, общаемся мы нечасто. Больше коммуникации с аналитиком из команды, он-то и назначает мне задачи. Сначала мы обсуждаем вопрос устно, затем оформляем задачу в Трекере. Встреч у стажёров немного: ежедневные с командой и еженедельные с аналитиками. Приятно наблюдать, как ребята быстро решают задачи, задают правильные вопросы.
Мне особенно нравится применять на практике то, что я узнал в университете. И приятно ощущать, что я приношу пользу.
Следующий анекдот
Немного юмора про аналитиков, консультантов и статистиков, для поднятия пятничного настроения.
Шутки про статистиков
Доказано, что отмечать дни рождения полезно для здоровья. Однако, статистика показывает, что те люди, которые празднуют много дней рождений, стареют.
Статистика играет большую роль в генетике. Например, статистики доказали, что количество потомков это наследственный признак. Если у ваших родителей никогда не было детей, с большой вероятностью, у вас их тоже не будет.
Если вы выберите ответ в случайном порядке, какова вероятность того, что это будет правильный ответ?
А) 25%
Б) 50%
В) 60%
Г) 25%
По статистике православных в России около 90%, но попробуйте на вокзале собирать подаяния:
— Во славу Христову, подайте, православные!?– и Вы убедитесь, что большинство: протестанты и атеисты.
Как мы видим, многое зависит от постановки вопроса и ситуации.
Статистика из South Park
Картман: — Пацаны, я тут кое-что подсчитал. В прошлом году соотношение составляло 90% белых против 10% черноты. Это означает, что всего за один год их стало на 50% больше.
Стэн: — Первый раз ты так серьезно математикой занялся.
Картман: — Потому-что это важно! Ежегодный прирост в 50% означает, что через 3 года мир заполонят одни нацменьшинства! Это случится в 2012 году. Индейцы Майя это предсказывали!!
Баттерс: — Кто?
Картман: — Майя. Они знали, что к 2012 году чернота захватит мир! И это уже началось.
Кто такой аналитик данных
Аналитик данных (или дата-аналитик) — это специалист, который собирает, обрабатывает, изучает и интерпретирует данные. Его работа помогает принимать решения в бизнесе, управлении и науке. Обычно такие специалисты работают в компаниях, которые практикуют data-driven подход — ориентируются на данные и их анализ при принятии решений. Курс «Аналитик данных» Яндекс.Практикума рассчитан именно на это направление.
«Любой продукт, у которого есть аудитория, собирает данные. Аналитика есть в телекоме, банках, играх, консалтинге. Если сильно обобщить, то можно сказать так: там, где есть возможность сохранять данные о продукте и поведении пользователя, рано или поздно должен появиться аналитик», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных».
Аналитик данных — важный участник бизнеса, потому что обеспечивает уверенность в принятии решений. Создавать новый продукт очень дорого, а ошибка при внедрении новой функции может стоить компании репутации и прибыли. Дата-аналитики проводят А/B-тесты и строят модели, чтобы проверить, как пользователи или клиенты реагируют на нововведения, и оценить перспективы того или иного проекта. Это дешевле и снижает риски бизнеса. Чтобы делать свою работу хорошо, аналитик должен видеть бизнес-процессы. Поэтому важно, чтобы он мог влиять на процесс принятия решения, основываясь на результатах своих исследований. Иначе работа такого специалиста теряет ценность.
Шутки про аналитиков
Аналитики отвечают на вопросы не потому, что знают на них ответы; они отвечают просто потому, что их спрашивают.
Быть аналитиком означает никогда не говорить что ты уверен.
Три аналитика на охоте. Видят большого оленя. Один целится, стреляет, промахнулся на метр влево. Второй целится, стреляет, не попал — на метр вправо. Третий аналитик, не стреляя:
— Ну, в среднем мы его убили!
В чем разница между начинающим и опытным консультантом?
Первый думает, что решает ту проблему, которая у вас есть, а второй думает, что у вас есть та проблема, которую он решает.
— Звонок в компанию, которая занимается разработкой и внедрением систем менеджмента:
— Мои сотрудники плохо работают!
— Вероятно, их надо просто научить. Это стоит $550 на человека. Но, если вы прочтете инструкции, то обучите их и внедрите системы менеджмента сами.
Клиент, удивленный такой откровенностью, спрашивает:
— А ваш босс знает, что вы таким образом препятствуете бизнесу?
— На самом деле, это его идея. Мы получаем куда больше прибыли, когда позволяем нашим клиентам сначала самим попытаться что-нибудь внедрить.
Следующий анекдот
Аналитик — это специалист, который помогает бизнесу решать задачи. Он собирает, обрабатывает, изучает и анализирует данные, чтобы предложить решение. Такие специалисты нужны везде — от стартапа, разрабатывающего своё первое мобильное приложение, до международной сети ресторанов, которая хочет выйти на новый рынок.
Задачи аналитиков, работающих в одной команде или в одном отделе, могут различаться. В зависимости от направления можно почувствовать себя не просто математиком с навыками программиста, но и детективом или даже предсказателем. Мы поговорили с тремя стажёрами Яндекса для того, чтобы узнать, в какие команды они попали, какие задачи решают и что больше всего им нравится в работе. Если вы захотите повторить их опыт, то обязательно регистрируйтесь на нашу стажировку для аналитиков.
Задачи аналитика данных
Хороший аналитик данных — не просто математик с навыками программиста. Он понимает бизнес-процессы и хорошо знает продукт. Такой специалист разбирается, на чем зарабатывает конкретный бизнес. В результате его работы компания может получать больше прибыли и делать своих пользователей счастливее. Сильный аналитик данных прежде чем взяться за работу всегда спрашивает руководителя о том, какую задачу хочет решить бизнес.
Кроме программных инструментов аналитику данных важно развивать — метапрофессиональные умения, которые помогают делать работу лучше. Это способность налаживать общение с коллегами и партнерами, умение решать проблемы и выходить из конфликтных ситуаций с наименьшими потерями, сильный эмоциональный интеллект. Такие навыки больше связаны с личностью человека, чем с его профессиональным уровнем. Но их тоже можно формировать и развивать.
«Важно не путать дата-саентиста и дата-аналитика. Первый — это программист, знающий определенный набор языков и алгоритмов. Он решает поставленную техническую задачу. А дата-аналитик ставит эту задачу и переводит результат на язык бизнеса. Для этого нужно развивать гибкие навыки: работа с требованиями, визуализация данных, переговоры. То есть понимать самому и уметь объяснить, что дает бизнесу ваша аналитика. Изучить программы недостаточно — нужно критически подходить к задаче», — говорит Алексей Колоколов, эксперт по BI и визуализации данных.
Для каждого бизнеса задачи будут свои, а порядок действий общий. Аналитик данных работает так:
- собирает данные (формирует запрос сам или получает задачу от менеджеров);
- знакомится с параметрами набора (какие типы данных собраны, как их можно отсортировать);
- проводит предварительную обработку (очищает от ошибок и повторов, упорядочивает);
- интерпретирует (анализирует, собственно решает задачу);
- делает вывод;
- визуализирует (так, чтобы на основе вывода можно было принять решение, подтвердить или опровергнуть гипотезу).
Типичные задачи, с которыми приходят к дата-аналитику:
- Получить выгрузку данных для определенных целей
Бухгалтерии нужен список сотрудников, у которых в семье пятеро детей, — специалист делает выгрузку из базы данных. - Ответить на вопрос бизнеса
Сделать расчет определенной метрики: сколько сотрудников уволилось до конца испытательного срока в этом году и сколько в предыдущем. Если компания вводит новую систему адаптации, то изменения такой метрики покажут результат. - Провести А/B-тестирование
Нужно выяснить, как пользователи реагируют на то, какого цвета кнопка, зеленого или красного. Аналитик тестирует два прототипа. Часть пользователей видят прототип с зеленой кнопкой, другие — с красной. Он смотрит, как реагировали пользователи, проверяет, было ли различие статистически значимо. В итоге — рекомендует решение, которое проверил в ходе теста: внедрить зеленую или красную кнопку. - Провести исследования
Конкретного вопроса от бизнеса нет, но нужен ресерч: взять внешние или внутренние данные, исследовать, найти аномалии или инсайты, провести пиар-исследование. - Просчитать, какой вариант выгоднее
Юнит-экономика: расчет РОИ, инвестиционного потенциала. Оценить окупаемость рекламной кампании или скорректировать бизнес-модель. - Выяснить, какой товар и в какое время больше покупают
Взять группу товаров и посмотреть, есть ли сезонные всплески интереса, сравнить с другими группами.
Статистика позволяет сделать общие выводы по конкретному вопросу. А аналитика данных — исследовать тему со всех сторон, сравнить решения, найти аномалии или инсайты, сопоставить события по множеству параметров. Это открывает новые возможности для бизнеса.
Дата-аналитик может исследовать внутренние данные компании или обратиться к внешним источникам. Анализ открытых данных позволяет отслеживать важные социальные и культурные тренды.
«Дата-аналитик может глубже исследовать проблему. Например, в наших данных по ДТП в России есть доля водителей, которые нарушили правила ОСАГО. Зная эту долю и то, как она менялась в разные годы, мы можем делать выводы о социально-экономической ситуации в регионе — видим тенденцию, когда водители перестают покупать полисы, потому что у них нет денег.
Из того же датасета мы вытаскивали информацию про скрывшихся водителей. Оказалось, что в Омской области 20% водителей покидают место ДТП. Получив эту информацию, мы можем задавать дополнительные вопросы: почему так происходит, что это за социальные и культурные процессы», — рассказывает Сергей Устинов, аналитик данных и проджект-менеджер.
Анекдот про консультанта и руководителя
Читайте также: