Статистика в Python. Примеры работы в ГС и выборками, сравнение параметров, статистические тесты.
Подготовка датасета к работе на примере датасета про лошадей
- заполнение отсутствующих значений с помощью методов groupby/transform;
- работа с выбросами;
- работа с нечисловыми типами данных;
Библиотеки pandas, numpy
На примере исторических данных о продажах и оценках видеоигр проводятся статистические исследования.
- сэмплирование;
- сравнение выборок между собой по различным параметрам;
- оценка нормальности распределения признака;
- выдвижение гипотез;
- применение параметрических и непараметрических тестов;
- выводы.
Использованные библиотеки: pandas, scipy, seaborn, matplotlib
Вопрос, который я бы хотел исследовать вот какой: моя цель найти удаленную работу в сфере Gambling в аналитике не в РФ. Я начал рассылать резюме в декабре, меня расстраивала обратная связь со стороны компаний, и я решил заказать английское резюме у экспертов. Хорошее, со всеми буллитами, настроенное на все хитрые алгоритмы. В марте эксперт из компании #TopCV сочинил резюме и сопроводительное письмо. Я стал использовать новые современные эффективные технологии. Уже май, я веду статистику, накопилось примерно по 100 наблюдений до события и после, и это повод провести аналитику.
- загрузил данные, сформировал датафрейм, наложил на временную шкалу, чтобы убрать пропуски и посмотреть корректную линейную историю;
- посчитал метрик, построил графики;
- разбил датафрейм на до нового резюме и после;
- сделал группировку и агрегацию по названиям вакансий, источникам вакансий и регионам, куда я подавал;
- получилось 3 пары связанных выборок, где я могу проверить, как себя ведут метрики;
- проверил на нормальность распределения признаков непараметриским тестом Шапиро-Уилка;
- померил конверсии тестом Вилкоксона для связанных выборок с ненормальным распределением;
- тест изменений не детектировал.
Использованные библиотеки: pandas, scipy, seaborn, matplotlib