{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "9PP0UCeGztkS" }, "source": [ "# Введение в анализ данных\n", "\n", "## Что такое среднее и как с ним правильно работать." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:48.836506Z", "start_time": "2021-03-06T12:51:48.082486Z" }, "id": "Dd2PKAtHztkU" }, "outputs": [], "source": [ "import numpy as np\n", "import pandas as pd\n", "from random import choices, shuffle\n", "import scipy.stats as sps\n", "import matplotlib.pyplot as plt\n", "\n", "import seaborn as sns\n", "\n", "sns.set(style=\"whitegrid\", font_scale=1.3, palette=\"Set2\")" ] }, { "cell_type": "markdown", "metadata": { "id": "kj68YNruztkV" }, "source": [ "### 1. Кошачий университет\n", "\n", "Пусть у нас есть 20 групп котиков-студентов.\n", "\n", "**Вопрос:** сколько котиков в среднем в группе?\n", "\n", "**Ответ деканата:** посчитать количество котиков в каждой группе и взять среднее арифметическое полученных чисел.\n", "\n", "Проведем эксперимент. Сгенерируем 20 групп, причем в каждой будет от 10 до 30 котиков." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:48.847433Z", "start_time": "2021-03-06T12:51:48.838315Z" }, "id": "2PD1h3OvztkW", "outputId": "29ea0875-1055-4a50-82e0-3d5d4a529071" }, "outputs": [ { "data": { "text/plain": [ "array([11, 26, 18, 17, 11, 13, 12, 27, 13, 26, 19, 19, 17, 26, 26, 10, 16,\n", " 29, 17, 19])" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "groups_count = 20\n", "\n", "groups_size = sps.randint(low=10, high=30).rvs(size=groups_count)\n", "groups_size" ] }, { "cell_type": "markdown", "metadata": { "id": "YwXQvF9NztkW" }, "source": [ "Ответ получить очень просто:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:48.973743Z", "start_time": "2021-03-06T12:51:48.967741Z" }, "id": "fc4w4zWqztkX", "outputId": "33945ab1-acaa-479d-c103-aa7d635ecedf" }, "outputs": [ { "data": { "text/plain": [ "18.6" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "groups_size.mean()" ] }, { "cell_type": "markdown", "metadata": { "id": "_uqqpaOoztkX" }, "source": [ "Теперь предположим, что мы хотим провести эксперимент согласно тому, как учат в анализе данных:\n", "* возьмем случайную выборку котиков,\n", "* спросим у них, сколько котиков в их группе,\n", "* усредним полученные ответы.\n", "\n", "*Замечание.* Следующие операции с точки зрения кода можно сделать более эффективно, однако приведенный код повышает эффектность изложения материала.\n", "\n", "Для начала давайте создадим список всех студентов-котиков, каждому из которых присвоим номер группы." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:50.057491Z", "start_time": "2021-03-06T12:51:50.051055Z" }, "id": "lVVduBJMztkX" }, "outputs": [], "source": [ "students_group = []\n", "\n", "for i in range(groups_count):\n", " students_group += [i] * groups_size[i]" ] }, { "cell_type": "markdown", "metadata": { "id": "ImpMS7TVztkX" }, "source": [ "Возьмем 30 случайных котиков, спросим их и усредним ответы" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:50.779224Z", "start_time": "2021-03-06T12:51:50.772840Z" }, "id": "O2Zk3brsztkX", "outputId": "7dd38722-8587-421f-c095-bf4c043eedaf" }, "outputs": [ { "data": { "text/plain": [ "20.7" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "random_indexes = np.array(choices(students_group, k=30))\n", "groups_size[random_indexes].mean()" ] }, { "cell_type": "markdown", "metadata": { "id": "8yIf9ovqztkY" }, "source": [ "Хм, среднее получилось больше, чем ответ деканата. Может случайно так получилось? Ведь эксперимент случайный.\n", "\n", "Давайте повторим эксперимент 10 раз." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:54.372502Z", "start_time": "2021-03-06T12:51:54.350280Z" }, "id": "UAE20YtxztkY", "outputId": "84d69de0-4e49-4102-c5b0-dbab7a04cff8" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "21.67\n", "21.0\n", "20.67\n", "19.37\n", "21.33\n", "19.3\n", "20.6\n", "22.43\n", "21.43\n", "21.3\n" ] } ], "source": [ "for _ in range(10):\n", " random_indexes = np.array(choices(students_group, k=30))\n", " print(np.round(groups_size[random_indexes].mean(), 2))" ] }, { "cell_type": "markdown", "metadata": { "id": "GYVmZCJjztkY" }, "source": [ "Что-то все равно не так...\n", "\n", "А что будет если опросить вообще всех котиков? Навернято хоть тут должен получиться тот же ответ.\n", "\n", "Попробуем" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:51:56.705167Z", "start_time": "2021-03-06T12:51:56.699454Z" }, "id": "H4OD43JsztkY", "outputId": "88d93521-7fdb-46da-a3f5-5674ebe3f3b3" }, "outputs": [ { "data": { "text/plain": [ "20.50537634408602" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "groups_size[np.array(students_group)].mean()" ] }, { "cell_type": "markdown", "metadata": { "id": "zqpOkL6NztkY" }, "source": [ "Хм, ответ все равно получился не тот, что сказали нам в деканате... В чем же дело?\n", "\n", "Оказывается, дело в том, что выбирая случайного котика мы чаще попадаем на котика из большей группы. В самом деле, если\n", "* $n$ — общее количество котиков,\n", "* $n_j$ — количество котиков в группе $j$,\n", "\n", "то вероятность того, что случайно выбранный котик учится в группе $j$ равна $n_j/n$.\n", "\n", "Посчитаем теперь средний ответ котика. Пусть $\\xi$ — количество студентов в группе у случайно выбранного котика. Тогда\n", "$$\\mathsf{E} \\xi = \\frac1n \\sum_{котик\\ i} \\sum_{j} n_j \\cdot I\\{котик\\ i\\ из\\ группы\\ j\\} = \\frac1n \\sum_{j} n_j^2.$$\n", "\n", "Проверим ответ:" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:52:01.875384Z", "start_time": "2021-03-06T12:52:01.866131Z" }, "id": "y4R53gsjztkY", "outputId": "e655739d-6ab9-404b-afb7-cd3a43501098" }, "outputs": [ { "data": { "text/plain": [ "20.50537634408602" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(groups_size**2).sum() / groups_size.sum()" ] }, { "cell_type": "markdown", "metadata": { "id": "cxvekYIAztkY" }, "source": [ "Это среднее можно посчитать другим способом:\n", "$$\\mathsf{E} \\xi = \\sum_j n_j \\cdot \\mathsf{P}(случайный\\ котик\\ из\\ группы\\ j).$$\n", "\n", "Если рассматривать в качестве данных сами группы, а не котиков, то такой тип усреднения называется **взвешенным средним**. Общая формула взвешенного среднего чисел $x_1, ..., x_n$ с неотрицательными весами $w_1, ..., w_n$, для которых выполнено $\\sum_{i=1}^n w_i=1$, имеет вид $$\\sum_{i=1}^n w_i x_i.$$\n", "\n", "**Выводы:**\n", "* Деканат в качестве объектов данных рассматривает группы и берет по ним арифметическое среднее.\n", "* При проведении опроса объектами данных выступают котики, и арифметическое среднее по котикам отличается от результата деканата.\n", "* Деканат может взять взвешенное среднее и получить тот же ответ, что при проведении опроса.\n", "\n", "Этот пример — частный случай **парадокса инспекции**, который можно охарактеризовать как непосредственную зависимость наблюдения количества с самим наблюдаемым количеством." ] }, { "cell_type": "markdown", "metadata": { "id": "Q6P6UjrWztkY" }, "source": [ "---\n", "### 2. Средняя зарплата\n", "\n", "**Вопрос:** какова средняя зарплата населения?\n", "\n", "Важно отличать разные \"виды средних\":\n", "* обычное **среднее арифметическое**,\n", "* **медиана** — значение, слева и справа от которого одинаковое количество элементов,\n", "* **мода** — самое частое значение.\n", "\n", "Разницу между ними наглядно показывает иллюстрация из книги *Huff D. How To Lie With Statistics. — New York: W.W. Norton & Company, 1954*.\n", "\n", "![](загруженное1.jpg)\n", "\n", "Посмотрим на численном примере. Сгенерируем зарплату 10 000 человек в соответствии с некоторым распределением." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:52:18.375632Z", "start_time": "2021-03-06T12:52:18.367762Z" }, "id": "dJ5P0OfUztkY" }, "outputs": [], "source": [ "count = 10000\n", "salary = np.abs(sps.t(df=2, scale=100).rvs(size=count))" ] }, { "cell_type": "markdown", "metadata": { "id": "XnEdlMObztkY" }, "source": [ "Посмотрим на *описательные статистики*. Как мы видим, среднее достаточно сильно отличается от медианы." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:52:19.545372Z", "start_time": "2021-03-06T12:52:19.518971Z" }, "id": "Q8loND5IztkY", "outputId": "3103758e-91e3-46ea-e48c-851e766bf3d3" }, "outputs": [ { "data": { "text/plain": [ "count 10000.000000\n", "mean 143.361444\n", "std 274.727742\n", "min 0.014972\n", "25% 35.979807\n", "50% 81.488075\n", "75% 162.664021\n", "max 8320.602082\n", "dtype: float64" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.Series(salary).describe()" ] }, { "cell_type": "markdown", "metadata": { "id": "GvV7W_M5ztkZ" }, "source": [ "Посмотрим на гистограмму распределения. Однако, в данном случае в выборке есть **выбросы** — сильно выделяющиеся по сравнению с остальными наблюдения. Видимо, выбросами у нас являются миллиардеры. В анализе данных существуют специальные методы для работы с выбросами, однако не редко их просто выбрасывают из анализа.\n", "\n", "Выбросы сильно влияют на вид гистограммы. В данном случае видна широкая часть графика справа, в которой скорее какая-то пустота. Для наглядности стоит рисовать гистограмму в логарифмическом масштабе, на которой явно видно имеющиеся выбросы." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:52:25.290254Z", "start_time": "2021-03-06T12:52:24.284179Z" }, "id": "YWtzrq0OztkZ", "outputId": "767cf223-ae4b-424e-98ad-4b8934cd5508" }, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.figure(figsize=(20, 6))\n", "\n", "plt.subplot(121)\n", "plt.hist(salary, bins=50)\n", "plt.xlabel(\"Зарплата\")\n", "plt.ylabel(\"Количество человек\")\n", "plt.title(\"Простая гистограмма\")\n", "\n", "plt.subplot(122)\n", "plt.hist(salary, bins=50, log=True)\n", "plt.xlabel(\"Зарплата\")\n", "plt.ylabel(\"Количество человек\")\n", "plt.title(\"Гистограмма в логарифмическом масштабе\")\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": { "id": "5ykm7ylrztkZ" }, "source": [ "Попробуем убрать несколько выбросов и посчитать среднее по оставшимся элементам. Как видим, среднее достаточно сильно уменьшилось, хотя мы выкинули около 10 человек." ] }, { "cell_type": "code", "execution_count": null, "metadata": { "ExecuteTime": { "end_time": "2021-03-06T12:52:34.238172Z", "start_time": "2021-03-06T12:52:34.219851Z" }, "id": "bQ7_jWsWztkZ", "outputId": "686d2169-eb64-4ad9-f6a7-643739f609f7" }, "outputs": [ { "data": { "text/plain": [ "137.01957408968383" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "salary[salary < 3300].mean()" ] }, { "cell_type": "markdown", "metadata": { "id": "yZ-XvYjVztkZ" }, "source": [ "Такой вид усреднения обычно называется **усеченное среднее**. Чаще усеченное среднее рассматривают для симметричных распределений, исключая одинаковое количество минимальных и максимальных значений." ] } ], "metadata": { "colab": { "provenance": [] }, "hide_input": false, "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.6" } }, "nbformat": 4, "nbformat_minor": 0 }