Холл Майкл Л. – Алгоритмы машинного обучения: базовый курс (страница 21)
# Разделим данные на входные признаки (X) и целевую переменную (y)
X = df[['Площадь', 'Комнат', 'Удаленность_от_центра']]
y = df['Цена']
# Разделим выборку на обучающую и тестовую
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
Шаг 2: Обучение модели линейной регрессии
Создадим и обучим модель.
```python
# Создаем модель линейной регрессии
model = LinearRegression()
# Обучаем модель
model.fit(X_train, y_train)
# Предсказываем цены квартир на тестовых данных
y_pred = model.predict(X_test)
```
Шаг 3: Оценка качества модели
Оценим точность предсказаний, используя метрики MSE и MAE.
```python
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"Средняя абсолютная ошибка (MAE): {mae:.2f}")
```
Шаг 4: Визуализация результатов
Посмотрим, насколько предсказанные значения соответствуют реальным.
```python
plt.scatter(y_test, y_pred)
plt.xlabel("Фактическая цена (млн)")
plt.ylabel("Предсказанная цена (млн)")
plt.title("Сравнение предсказанных и реальных цен")
plt.show()
```
Вывод: если модель обучилась хорошо, точки на графике будут близки к диагональной линии, что указывает на точность предсказаний.
Пример 2: Логистическая регрессия для предсказания выживания на «Титанике»
Теперь рассмотрим задачу бинарной классификации. Используем логистическую регрессию, чтобы предсказать, выживет ли пассажир, основываясь на его возрасте, классе каюты и количестве родственников на борту.
Шаг 1: Загрузка и подготовка данных
Загрузим и обработаем известный набор данных Titanic.
```python
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report
import seaborn as sns
# Загружаем данные Titanic
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)
# Оставляем только нужные колонки
df = df[['Survived', 'Pclass', 'Age', 'SibSp', 'Parch']]
# Удаляем строки с пропущенными значениями
df.dropna(inplace=True)
# Разделяем на признаки и целевую переменную
X = df[['Pclass', 'Age', 'SibSp', 'Parch']]
y = df['Survived']
# Стандартизация данных для улучшения качества модели
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# Разбиваем на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
```
Шаг 2: Обучение модели логистической регрессии
Создадим и обучим модель.
```python
# Создаем модель логистической регрессии
log_model = LogisticRegression()
# Обучаем модель