from typing import Tuple, Optional, Any, Dict, List
from datetime import datetime

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn import metrics

sns.set(font_scale=1.3, palette="Set2")
RANDOM_STATE = 42  # фиксируем зерно случайности
CURR_DATE = str(datetime.now().date())  # сегодняшняя дата
DAYS_PER_YEAR = 365  # количество дней в году
pd.options.mode.chained_assignment = None

def generate_linear_data(
    n_samples: int = 100, theta1: float = 3.0, theta2: float = 4.0, X_max: float = 10.0
) -> Tuple[np.ndarray, np.ndarray]:
    """
    Генерирует данные для линейной модели
    y = features * theta1 + sin(features) * theta2 + ε, где ε ~ N(0, 2).

    Параметры:
    n_samples (int): Количество выборок (по умолчанию 100).
    theta1 (float): Коэффициент для линейной зависимости (по умолчанию 3.0).
    theta2 (float): Коэффициент для зависимости от синуса features (по умолчанию 4.0).
    X_max (float): Максимальное значение для генерации features (по умолчанию 10.0).

    Возвращает:
    Tuple[np.ndarray, np.ndarray]: Кортеж из двух массивов numpy: features и target_values.
    """
    # Признаки: енерация случайных значений от 0 до X_max
    features = np.random.uniform(low=0.0, high=1.0, size=(n_samples, 1)) * X_max
    # Генерация шума
    noise = np.random.normal(loc=0.0, scale=2.0, size=(n_samples, 1))

    # Вычисление target согласно функции
    target_values = features * theta1 + np.sin(features) * theta2 + noise

    return features, target_values

n_samples = 60  # количество элементов в выборке
theta1 = 3  # коэффициент для линейной зависимости
theta2 = 4  # коэффициент при sin(x)
X_max = 3  # максимальное значение X

X_grid = np.linspace(0, X_max, n_samples)  # равномерная сетка для X от 0 до X_max
X, y = generate_linear_data(n_samples=n_samples, theta1=theta1, theta2=theta2, X_max=X_max)

def plot_regression_results(
    X: np.ndarray,
    y: np.ndarray,
    theta1: float,
    theta2: float,
    X_grid: np.ndarray,
    models: Optional[Dict[str, Optional[Any]]] = None,
    features_grid_list: Optional[List[np.ndarray]] = None,
    title: str = "Сравнение предсказаний моделей",
) -> None:
    """
    Отображает результаты линейной регрессии вместе 
    с истинной зависимостью и данными.

    Параметры:
    X (np.ndarray): Входные данные.
    y (np.ndarray): Целевые значения.
    theta1 (float): Коэффициент для линейной зависимости.
    theta2 (float): Коэффициент для зависимости от синуса.
    X_grid (np.ndarray): Сетка для отображения исходной зависимости.
    models (Optional[Dict[str, Optional[Any]]]): Словарь, где ключи — подписи, а
        значения — модели, реализующие метод predict (могут быть None).
    features_grid_list (Optional[List[np.ndarray]]): Список массивов сетки признаков
        для каждой модели.
    title (str): Заголовок графика (по умолчанию "Сравнение предсказаний моделей").
    """
    plt.figure(figsize=(9, 5))

    # Отображение данных
    sns.scatterplot(
        x=X.reshape(-1), y=y.reshape(-1), label="Данные", alpha=0.5, s=80, color="purple"
    )

    # Истинная зависимость
    sns.lineplot(
        x=X_grid,
        y=X_grid * theta1 + np.sin(X_grid) * theta2,
        label="Истинная зависимость",
        linewidth=3,
        linestyle="--",
    )

    # Проверяем, переданы ли модели и соответствующие данные
    if models and features_grid_list:
        for (label, model), features_grid in zip(models.items(), features_grid_list):
            sns.lineplot(
                x=X_grid,
                y=model.predict(features_grid).reshape(-1),
                label=f"Предсказ.: {label}",
                linewidth=3,
            )

    plt.title(title)
    plt.xlabel("Признак $x$")
    plt.ylabel("Таргет")
    plt.ylim(-2, 17)
    plt.legend()
    plt.show()

plot_regression_results(X, y, theta1, theta2, X_grid, title="Истинная зависимость")

model = LinearRegression()  # объявляем модель
model.fit(X, y)  # обучаем на признаке x

LinearRegression()

LinearRegression()

model.intercept_, model.coef_

(array([2.12918503]), array([[3.33851323]]))

models = {"Лин. рег.": model}  # Словарь моделей
features_grids = [X_grid.reshape(-1, 1)]  # Сетка признаков для модели

plot_regression_results(X, y, theta1, theta2, X_grid, models, features_grids)

model_2 = LinearRegression()  # объявляем модель

data = pd.DataFrame(
    {"X": X.flatten(), "X^2": X.flatten() ** 2}
)  # создаем новый датасет с использованием X^2

data.head()

model_2.fit(data, y)  # обучим модель на новых данных

LinearRegression()

LinearRegression()

models["Лин. рег. с x^2"] = model_2

features_grids.append(
    pd.DataFrame({"X": X_grid.flatten(), "X^2": X_grid.flatten() ** 2})
)

plot_regression_results(X, y, theta1, theta2, X_grid, models, features_grids)

data = pd.read_csv("./insurance_thetahat.csv", parse_dates=[0])
data.head()

data.shape

(1338, 7)

train, test = train_test_split(data, test_size=0.2, random_state=RANDOM_STATE)
train.shape, test.shape

((1070, 7), (268, 7))

train["age"] = (pd.Timestamp(CURR_DATE) - train["birthday"]) / pd.Timedelta(days=DAYS_PER_YEAR)

categorial_features = ["sex", "smoker", "region"]  # категориальные признаки
real_features = ["age", "bmi", "children"]  # вещественные признаки
target_feature = "charges"  # целевой признак

for hue in categorial_features:
    pair_grid = sns.PairGrid(train[["bmi", "age", "charges", hue]], hue=hue, diag_sharey=False, height=3)

    pair_grid.fig.set_size_inches(6, 6)
    pair_grid.map_lower(sns.kdeplot, alpha=0.6)
    pair_grid.map_upper(plt.scatter, alpha=0.3)
    pair_grid.map_diag(
        sns.kdeplot, lw=3, alpha=0.6, common_norm=False
    )  # каждая плотность по отдельности должна давать 1 при интегрировании

    pair_grid.add_legend()

model_age = LinearRegression()  # объявляем модель
model_age.fit(train[["age"]], train[target_feature])  # обучаем на признаке age

LinearRegression()

LinearRegression()

# Получаем возраст клиента по дате рождения
test["age"] = (pd.Timestamp(CURR_DATE) - test["birthday"]) / pd.Timedelta(days=DAYS_PER_YEAR)

y_pred = model_age.predict(test[["age"]])

print(model_age.coef_[0].round(2))

240.47

preds = model_age.predict(pd.DataFrame({"age": [33, 34]}))

print("Предсказание расходов")
print(f"33 года: {preds[0]:.0f}")
print(f"34 года: {preds[1]:.0f}")

Предсказание расходов
33 года: 10758
34 года: 10999

model_bmi = LinearRegression()
model_bmi.fit(train[["bmi"]], train[target_feature])
y_pred = model_bmi.predict(test[["bmi"]])

print(model_bmi.coef_[0].round(2))

392.44

model_bmi_age = LinearRegression()
model_bmi_age.fit(train[["bmi", "age"]], train[target_feature])
y_pred = model_bmi_age.predict(test[["bmi", "age"]])

print(model_bmi_age.coef_)

[330.40058921 223.55689301]

# Основные точки
bmi_values = np.array([18, 19])
age_values = np.array([20, 21])

# Данные для предсказаний
objects = pd.DataFrame({"bmi": np.tile(bmi_values, 2), "age": np.repeat(age_values, 2)})
preds = model_bmi_age.predict(objects)
objects["charges_predicted"] = preds

objects

# Генерация значений с отступами
bmi_range = np.linspace(bmi_values.min() - 0.25, bmi_values.max() + 0.35, 200)
age_range = np.linspace(age_values.min() - 0.25, age_values.max() + 0.25, 200)

# 2D-сетка
bmi_grid, age_grid = np.meshgrid(bmi_range, age_range)

# Предсказания на сетке
pred_grid = model_bmi_age.predict(
    pd.DataFrame({"bmi": bmi_grid.ravel(), "age": age_grid.ravel()})
).reshape(bmi_grid.shape)

# Визуализация
plt.figure(figsize=(8, 5))
plt.grid(False)

# Градиент
im = plt.imshow(
    pred_grid,
    extent=(bmi_range.min(), bmi_range.max(), age_range.min(), age_range.max()),
    origin="lower",
    cmap="viridis",
    alpha=0.8,
    aspect="auto",
)

# Линии контуров
contour = plt.contour(bmi_grid, age_grid, pred_grid, colors="grey", linewidths=0.5)

# Отображение признаков
plt.scatter(objects["bmi"], objects["age"], color="red", edgecolor="black", zorder=5, s=80)
for i, row in objects.iterrows():
    plt.text(
        row["bmi"] + 0.01,
        row["age"] + 0.03,
        f" {row['charges_predicted']:.0f} ",
        ha="left",
        color="white",
        zorder=6,
    )

# Добавление стрелок с подписями
for bmi in bmi_values:
    for age in age_values:
        if bmi == bmi_values.min():
            plt.arrow(
                bmi,
                age,
                1 - 0.06,
                0,
                head_width=0.02,
                head_length=0.02,
                fc="lightblue",
                ec="lightblue",
                linewidth=2,
            )
            plt.text(
                bmi + 0.4,
                age + 0.05,
                rf"$\widehat{{\theta}}_1 = {int(model_bmi_age.coef_[0])}$",
                color="white",
            )
        if age == age_values.min():
            plt.arrow(
                bmi,
                age,
                0,
                1 - 0.06,
                head_width=0.02,
                head_length=0.02,
                fc="lightblue",
                ec="lightblue",
                linewidth=2,
            )
            plt.text(
                bmi + 0.05,
                age + 0.5,
                rf"$\widehat{{\theta}}_2 = {int(model_bmi_age.coef_[1])}$",
                color="white",
            )

# Подписи осей
plt.title("Предсказание затрат")
plt.xlabel("BMI")
plt.ylabel("Age")

# Цветовая шкала
cbar = plt.colorbar(im, label="Предсказанные затраты")

# Добавление подписей к линиям контуров
plt.clabel(contour, inline=True, fontsize=8, fmt="%1.0f")

plt.show()

encoder = OneHotEncoder(drop="first", sparse_output=False)  # объявляем модель

# Внимание! Нельзя вызывать fit_transform на тестовых данных!
train_cat = encoder.fit_transform(train[categorial_features])  # обучаем и кодируем
train_cat

array([[0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       ...,
       [1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 1.],
       [1., 0., 0., 0., 1.]], shape=(1070, 5))

encoder.categories_

[array(['female', 'male'], dtype=object),
 array(['no', 'yes'], dtype=object),
 array(['northeast', 'northwest', 'southeast', 'southwest'], dtype=object)]

X_train = np.hstack([train[real_features], train_cat])
X_train.shape

(1070, 8)

model_full = LinearRegression()
model_full.fit(X_train, train[target_feature])

LinearRegression()

LinearRegression()

model_full.coef_

array([  257.14354577,   336.56325568,   423.94099187,   -25.48434935,
       23656.64811639,  -370.88646373,  -659.67773002,  -818.2905385 ])

model_full.intercept_

np.float64(-13047.695966930763)

# Получаем возраст клиента по дате рождения
test["age"] = (pd.Timestamp(CURR_DATE) - test["birthday"]) / pd.Timedelta(days=DAYS_PER_YEAR)

# Кодируем категориальные признаки с помощью метода transform обученного ранее кодировщика
test_cat = encoder.transform(test[categorial_features])

# Соединяем данные
X_test = np.hstack([test[real_features], test_cat])

# Словарь для моделей и соответствующих предсказаний
model_dict = {
    "age": {"model": model_age},
    "bmi": {"model": model_bmi},
    "age+bmi": {"model": model_bmi_age},
    "все признаки": {"model": model_full},
}

# Обучающие данные для каждой модели, отличаются только набором признаков
train_data = {
    "age": train[["age"]],
    "bmi": train[["bmi"]],
    "age+bmi": train[["bmi", "age"]],
    "все признаки": X_train,
}

# Тестовые данные для каждой модели, отличаются только набором признаков
test_data = {
    "age": test[["age"]],
    "bmi": test[["bmi"]],
    "age+bmi": test[["bmi", "age"]],
    "все признаки": X_test,
}

for name, data in model_dict.items():
    model = data["model"]
    data["train_preds"] = model.predict(train_data[name])
    data["test_preds"] = model.predict(test_data[name])

test_preds = model_dict["все признаки"]["test_preds"]
np.sqrt(((test[target_feature] - test_preds) ** 2).mean())

np.float64(5793.112670753037)

metrics.mean_squared_error(test[target_feature], test_preds) ** 0.5

5793.112670753037

metrics.mean_absolute_error(test[target_feature], test_preds)

4180.120715743259

def mean_absolute_percentage_error(y_true: np.ndarray, y_pred: np.ndarray) -> float:
    """
    Вычисляет среднюю абсолютную процентную ошибку (MAPE).

    Параметры:
    y_true (np.ndarray): Истинные значения целевой переменной.
    y_pred (np.ndarray): Прогнозируемые значения.

    Возвращает:
    float: Средняя абсолютная процентная ошибка (MAPE) в процентах.
    """
    return 100 * (np.abs(y_true - y_pred) / y_true).mean()

mean_absolute_percentage_error(test[target_feature], test_preds)

np.float64(46.870457081881746)

def get_regression_metrics_df(
    y_true: pd.Series, model_dict: Dict[str, Dict[str, List[float]]], pred_type: str = "test_preds"
) -> pd.DataFrame:
    """
    Вычисляет метрики качества регрессионной модели для нескольких моделей:
    RMSE, MAE, MAPE, R2 и выводит их в виде pandas DataFrame.

    Параметры:
    y_true (pd.Series): Истинные значения целевой переменной.
    model_dict (Dict[str, Dict[str, List[float]]]): Словарь с моделями и предсказаниями,
        где ключи — имена моделей, а значения — словари с ключами "model", "train_preds", "test_preds".
    pred_type (str, optional): Строка, указывающая, какие предсказания использовать
        (по умолчанию "test_preds").

    Возвращает:
    pd.DataFrame: DataFrame с метриками качества моделей.
    """

    metric_names = ["RMSE", "MAE", "MAPE", "R2"]

    # Подготовка данных для DataFrame
    data = []
    for model_name, model_data in model_dict.items():
        # Выбираем нужные предсказания в зависимости от аргумента pred_type
        y_pred = model_data.get(pred_type, [])

        # Вычисляем метрики
        rmse = metrics.mean_squared_error(y_true, y_pred) ** 0.5
        mae = metrics.mean_absolute_error(y_true, y_pred)
        mape = metrics.mean_absolute_percentage_error(y_true, y_pred)
        r2 = metrics.r2_score(y_true, y_pred)

        # Добавляем данные в список
        data.append([model_name, rmse, mae, mape, r2])

    # Создание DataFrame
    metrics_df = pd.DataFrame(data, columns=["Model"] + metric_names).set_index("Model")

    return metrics_df

get_regression_metrics_df(test[target_feature], model_dict)

get_regression_metrics_df(train[target_feature], model_dict, pred_type="train_preds")

def plot_scatter(
    ax: plt.Axes,
    x: pd.Series,
    y: pd.Series,
    hue: pd.Series,
    title: str,
    xlabel: str,
    ylabel: str,
    alpha: float = 0.6,
    s: int = 150,
) -> None:
    """Строит точечный график с заданными параметрами.

    Параметры:
    ax (plt.Axes): Ось для отображения графика.
    x (pd.Series): Данные по оси X.
    y (pd.Series): Данные по оси Y.
    hue (pd.Series): Данные для различения по цвету (например, категория).
    title (str): Заголовок графика.
    xlabel (str): Подпись оси X.
    ylabel (str): Подпись оси Y.
    alpha (float): Прозрачность точек (по умолчанию 0.6).
    s (int): Размер точек (по умолчанию 150).
    """
    sns.scatterplot(ax=ax, x=x, y=y, hue=hue, alpha=alpha, s=s)
    ax.set_title(title)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)

fig, axes = plt.subplots(1, 2, figsize=(10, 5))

plot_scatter(
    axes[0],
    train["bmi"],
    train["charges"],
    train["smoker"],
    "Истинная зависимость",
    "BMI",
    "Charges",
)
plot_scatter(
    axes[1],
    train["bmi"],
    model_dict["все признаки"]["model"].predict(X_train),
    train["smoker"],
    "Предсказания модели",
    "BMI",
    "Charges",
)

plt.tight_layout()
plt.show()

# для обучающей выборки
train["smoker_bmi"] = (train["smoker"] == "yes") * train["bmi"]

# для тестовой выборки
test["smoker_bmi"] = (test["smoker"] == "yes") * test["bmi"]

real_features.extend(["smoker_bmi"])

X_train = np.hstack([train[real_features], train_cat])
X_test = np.hstack([test[real_features], test_cat])

model_with_new_feature = LinearRegression()
model_with_new_feature.fit(X_train, train[target_feature])
test_preds_with_new_feature = model_with_new_feature.predict(X_test)

new_model = {
    "model": model_with_new_feature,
    "train_preds": model_with_new_feature.predict(X_train),
    "test_preds": model_with_new_feature.predict(X_test),
}

model_dict["с новым признаком"] = new_model

fig, axes = plt.subplots(1, 3, figsize=(15, 5))

plot_scatter(
    axes[0],
    train["bmi"],
    train["charges"],
    train["smoker"],
    "Истинная зависимость",
    "BMI",
    "Charges",
    s=100,
)
plot_scatter(
    axes[1],
    train["bmi"],
    model_dict["все признаки"]["model"].predict(np.hstack([train[real_features[:-1]], train_cat])),
    train["smoker"],
    "Предсказания модели",
    "BMI",
    "Charges",
    s=100,
)
plot_scatter(
    axes[2],
    train["bmi"],
    model_dict["с новым признаком"]["model"].predict(X_train),
    train["smoker"],
    "Предсказания модели\nс новым признаком",
    "BMI",
    "Charges",
    s=100,
)

plt.tight_layout()
plt.show()

metrics_df = get_regression_metrics_df(test[target_feature], model_dict)
metrics_df

import matplotlib.pyplot as plt

plt.figure(figsize=(8, 3.5))
plt.barh(metrics_df.index[::-1], metrics_df["MAPE"][::-1])
plt.title("Сравнение рассмотренных моделей по ошибке на тесте")
plt.xlabel("Метрика MAPE")
plt.ylabel("Модели")
plt.xlim((0, None))
plt.show()

# Инициализация и применение StandardScaler
scaler = StandardScaler()
# Внимание! Нельзя вызывать fit_transform на тестовых данных!
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Обучение модели линейной регрессии
model_scaled = LinearRegression()
model_scaled.fit(X_train_scaled, train[target_feature])

LinearRegression()

LinearRegression()

# Коэффициенты модели
coefficients = model_scaled.coef_

# Признаки
encoded_features = encoder.get_feature_names_out()
feature_names = real_features + list(encoded_features)

coef_df = pd.DataFrame({"Признак": feature_names, "Значение коэффициента": coefficients})
coef_df

fig, ax = plt.subplots(nrows=1, ncols=1, sharey=True, figsize=(6, 4), tight_layout=True)

df_sorted = coef_df.sort_values(by="Значение коэффициента", ascending=False)

ax.barh(df_sorted["Признак"], df_sorted["Значение коэффициента"])
ax.set_xlabel("Коэффициенты модели")
plt.show()

	X	X^2
0	1.775631	3.152866
1	1.316865	1.734133
2	1.021932	1.044345
3	0.464603	0.215856
4	0.103619	0.010737

	RMSE	MAE	MAPE	R2
Model
age	11659.381084	9172.410208	1.265044	0.124365
bmi	12210.039191	9784.652596	1.703504	0.039702
age+bmi	11464.256085	9221.883313	1.303051	0.153428
все признаки	5793.112671	4180.120716	0.468705	0.783830

	RMSE	MAE	MAPE	R2
Model
age	11528.038976	9042.863931	1.163218	0.079247
bmi	11777.698282	9067.951789	1.480413	0.038934
age+bmi	11356.453102	9022.142299	1.171528	0.106452
все признаки	6105.021537	4208.139727	0.422071	0.741770

	RMSE	MAE	MAPE	R2
Model
age	11659.381084	9172.410208	1.265044	0.124365
bmi	12210.039191	9784.652596	1.703504	0.039702
age+bmi	11464.256085	9221.883313	1.303051	0.153428
все признаки	5793.112671	4180.120716	0.468705	0.783830
с новым признаком	4572.470758	2750.922752	0.290165	0.865329

	Признак	Значение коэффициента
0	age	3707.567529
1	bmi	118.517407
2	children	561.827116
3	smoker_bmi	18612.936237
4	sex_male	-266.120775
5	smoker_yes	-8572.434745
6	region_northwest	-269.509658
7	region_southeast	-427.542403
8	region_southwest	-535.544448

Введение в анализ данных ¶

Линейная регрессия¶

1. Линейная регрессия на искусственных данных¶

1.1 Данные¶

1.2 Модель¶

1.3 Модель с нелинейными признаками¶

2. Постановка задачи на реальных данных¶

3. Обучение¶

3.1 Примеры с использованием одного или двух признаков¶

3.2 Обработка категориальных признаков¶

3.3 Обучение на всех признаках¶

4. Тестирование и оценка качества¶

5. Попытки улучшить качество¶

6. Интерпретация результатов¶

	birthday	sex	bmi	children	smoker	region	charges
0	2001-12-20	female	27.900	0	yes	southwest	16884.92400
1	2003-03-18	male	33.770	1	no	southeast	1725.55230
2	1992-11-02	male	33.000	3	no	southeast	4449.46200
3	1987-07-27	male	22.705	0	no	northwest	21984.47061
4	1988-11-04	male	28.880	0	no	northwest	3866.85520

	bmi	age	charges_predicted
0	18	20	3884.113089
1	19	20	4214.513678
2	18	21	4107.669982
3	19	21	4438.070571

Введение в анализ данных¶

Линейная регрессия¶

1. Линейная регрессия на искусственных данных¶

1.1 Данные¶

1.2 Модель¶

1.3 Модель с нелинейными признаками¶

2. Постановка задачи на реальных данных¶

3. Обучение¶

3.1 Примеры с использованием одного или двух признаков¶

3.2 Обработка категориальных признаков¶

3.3 Обучение на всех признаках¶

4. Тестирование и оценка качества¶

5. Попытки улучшить качество¶

6. Интерпретация результатов¶

Введение в анализ данных ¶