Scikit-learn を使用した住宅価格の予測: 完全ガイド

表紙 > プログラミング > Scikit-learn を使用した住宅価格の予測: 完全ガイド

Scikit-learn を使用した住宅価格の予測: 完全ガイド

2024 年 11 月 2 日に公開

ブラウズ：938

Predicting House Prices with Scikit-learn: A Complete Guide

機械学習は、不動産を含むさまざまな業界を変革しています。一般的なタスクの 1 つは、寝室、バスルームの数、平方フィート、場所などのさまざまな特徴に基づいて住宅価格を予測することです。この記事では、scikit-learn を使用して住宅価格を予測する機械学習モデルを構築する方法を検討し、データの前処理からモデルの展開までのあらゆる側面をカバーします。

1. Scikit-learn の概要

Scikit-learn は、Python での機械学習に最も広く使用されているライブラリの 1 つです。データ分析とモデリングのためのシンプルで効率的なツールを提供します。分類、回帰、クラスタリング、次元削減のいずれを扱う場合でも、scikit-learn は堅牢な機械学習モデルの構築に役立つ広範なユーティリティセットを提供します。

このガイドでは、scikit-learn を使用して住宅価格を予測する回帰モデルを構築します。プロセスの各ステップを見てみましょう。

2. 問題の定義

当面のタスクは、次のような特徴に基づいて家の価格を予測することです:

寝室の数
バスルームの数
面積 (平方フィート)
位置

これは、ターゲット変数 (住宅価格) が連続であるため、回帰タスクとなる教師あり学習問題です。 Scikit-learn は、線形回帰やランダムフォレストなどの回帰用のさまざまなアルゴリズムを提供しており、このプロジェクトで使用します。

3. データ収集

Kaggle 住宅価格データセットのような現実世界のデータセットを使用することも、パブリック API から独自のデータを収集することもできます。

データがどのように表示されるかのサンプルを次に示します:

ベッドルーム	バスルーム	面積 (平方フィート)	位置	価格 ($)
3	2	1500	ボストン	300,000
4	3	2000	シアトル	500,000

ここでのターゲット変数は、価格.

です。

4. データの前処理

データを機械学習モデルにフィードする前に、データを前処理する必要があります。これには、欠損値の処理、カテゴリ特徴のエンコード、データのスケーリングが含まれます。

欠損データの処理

現実世界のデータセットでは欠損データがよく見られます。欠損値を中央値などの統計的尺度で埋めることも、欠損データのある行を削除することもできます:

data.fillna(data.median(), inplace=True)

カテゴリ特徴量のエンコード

機械学習モデルには数値入力が必要なため、場所などのカテゴリ特徴を数値に変換する必要があります。 ラベルエンコーディングは、各カテゴリに一意の番号を割り当てます:

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
data['Location'] = encoder.fit_transform(data['Location'])

機能のスケーリング

面積や価格などの特徴をスケーリングして、同じスケールになるようにすることが重要です。特に、特徴の大きさに敏感なアルゴリズムの場合は重要です。スケーリングを適用する方法は次のとおりです:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

5. 機能の選択

すべての特徴がターゲット変数に等しく寄与するわけではありません。特徴の選択は、最も重要な特徴を特定するのに役立ち、モデルのパフォーマンスが向上し、過剰適合が減少します。

このプロジェクトでは、SelectKBest を使用して、ターゲット変数との相関に基づいて上位 5 つの特徴を選択します:

from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)

6. モデルのトレーニング

データを前処理して最適な特徴を選択したので、次はモデルをトレーニングします。 線形回帰とランダムフォレストの 2 つの回帰アルゴリズムを使用します。

線形回帰

線形回帰はデータを直線で近似し、予測値と実際の値の差を最小限に抑えます:

from sklearn.linear_model import LinearRegression
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

ランダムフォレスト

ランダムフォレストは、複数のデシジョンツリーを使用し、その結果を平均して精度を向上させ、過剰適合を減らすアンサンブル手法です。

from sklearn.ensemble import RandomForestRegressor
forest_model = RandomForestRegressor(n_estimators=100)
forest_model.fit(X_train, y_train)

トレーニングとテストの分割

モデルがどの程度一般化しているかを評価するために、データをトレーニングセットとテストセットに分割します。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.2, random_state=42)

7. モデルの評価

モデルをトレーニングした後、平均二乗誤差 (MSE) や R 二乗 (R²) などの指標を使用してパフォーマンスを評価する必要があります。

平均二乗誤差 (MSE)

MSE は、予測値と実際の値の間の平均二乗差を計算します。 MSE が低いほど、パフォーマンスが優れていることを示します:

from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)

R二乗(R²)

R² は、モデルがターゲット変数の分散をどの程度説明しているかを示します。値 1 は完全な予測を意味します:

from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_pred)

これらの指標を使用して、線形回帰モデルとランダムフォレストモデルのパフォーマンスを比較します。

8. モデルのチューニング (ハイパーパラメーターの最適化)

モデルのパフォーマンスをさらに向上させるために、ハイパーパラメーターを微調整できます。ランダムフォレストの場合、n_estimators (ツリーの数) や max_ Depth (ツリーの最大深さ) などのハイパーパラメータはパフォーマンスに大きな影響を与える可能性があります。

ハイパーパラメータの最適化に GridSearchCV を使用する方法は次のとおりです:

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20]
}

grid_search = GridSearchCV(RandomForestRegressor(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

best_model = grid_search.best_estimator_

9. モデルの展開

モデルのトレーニングと調整が完了したら、次のステップはデプロイです。 Flask を使用して、予測を提供する単純な Web アプリケーションを作成できます。

住宅価格予測を提供する基本的な Flask アプリは次のとおりです:

from flask import Flask, request, jsonify
import joblib

app = Flask(__name__)

# Load the trained model
model = joblib.load('best_model.pkl')

@app.route('/predict', methods=['POST'])
def predict():
    data = request.json
    prediction = model.predict([data['features']])
    return jsonify({'predicted_price': prediction[0]})

if __name__ == '__main__':
    app.run()

joblib:
を使用してトレーニング済みモデルを保存します

import joblib
joblib.dump(best_model, 'best_model.pkl')

このように、API にリクエストを送信することで予測を行うことができます。

10. 結論

このプロジェクトでは、scikit-learn を使用して住宅価格を予測する機械学習モデルを構築するプロセス全体を調査しました。データの前処理と機能の選択からモデルのトレーニング、評価、展開に至るまで、各ステップが実用的なコード例でカバーされています。

機械学習を初めて使用する場合でも、scikit-learn を実際のプロジェクトに適用しようとしている場合でも、このガイドはさまざまな回帰タスクに適応できる包括的なワークフローを提供します。

さまざまなモデル、データセット、テクニックを自由に試して、モデルのパフォーマンスと精度を向上させてください。

回帰 #AI #データ分析 #データ前処理 #MLModel #RandomForest #LinearRegression #Flask #APIDevelopment #RealEstate #TechBlog #チュートリアル #データエンジニアリング #ディープラーニング #予測分析 #DevCommunity

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/amitchandra/predicting-house-prices-with-scikit-learn-a-complete-guide-2kd7?1 権利侵害がある場合は、[email protected] までご連絡ください。それを削除するには

最新のチュートリアルもっと>

純粋なCSSでは、複数の粘着性要素を互いに積み重ねることができますか？
純粋なCSSで複数の粘着性要素を互いに積み重ねることは可能ですか？ここ： https://webthemez.com/demo/sticky-multi-header-scroll/index.html JavaScriptの実装ではなく、純粋なCSSを使用することのみです。複数の粘...

プログラミング 2025-06-13に投稿されました
入力：なぜ「警告：mysqli_query（）がパラメーター1がmysqliであると予想し、リソースが与えられた「エラーが発生し、それを修正する方法」出力：エラーを解決するための分析と修正「警告：mysqli_query（）パラメーターは、リソースの代わりにmysqliである必要があります」
mysqli_query（）は、パラメーター1がmysqliであることを期待しています。発生する可能性があります。このエラーは、最初のパラメーターのタイプと予想されるリソースタイプとの間の不一致を示します。これらの2つの拡張機能は交換可能ではなく、一緒に使用することはできません。 MySQ...

プログラミング 2025-06-13に投稿されました
なぜPHPのDateTime :: Modify（ '+1 Month'）が予期しない結果を生み出すのですか？
PHP DateTimeで月数の変更：PHPのDateTimeクラスを操作する場合、数か月を追加または減算する場合、意図した動作を発見します。ドキュメントが警告しているように、これらの操作は見た目ほど直感的ではないため、これらの操作に「注意してください」。 $ date-> modify（...

プログラミング 2025-06-13に投稿されました
`console.log`は、変更されたオブジェクト値の例外の理由を示しています
objects and console.log：Objects and offeried を操作する場合、奇妙なことは独特の行動に遭遇する場合があります。このコードスニペットを分析することにより、この謎を解明しましょう： foo = [{id：1}、{id：2}、{id：3}、{id：...

プログラミング 2025-06-13に投稿されました
$mysqlが絵文字を挿入するときに\\ "string値エラー\\"例外を解きます$
mysqlが絵文字を挿入するときに\\ "string値エラー\\"例外を解きます
誤った文字列値例外を解決する絵文字を挿入するときに絵文字を含む文字列をMySQLデータベースに挿入しようとするときに、次の例外を遭遇する可能性があります： Java.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL.SQL...

プログラミング 2025-06-13に投稿されました
Spring Security 4.1以降でCORSの問題を解決するためのガイド
スプリングセキュリティCORSフィルター：一般的な問題のトラブルシューティング既存のプロジェクトにスプリング関連エラーを統合する場合、「Access-Control-Origin」のようなヘッダーが応答に設定されていない場合にCORS関連のエラーに遭遇する場合があります。これを解決するに...

プログラミング 2025-06-13に投稿されました
Pythonの理解を使用して辞書を効率的に作成するにはどうすればよいですか？
python辞書の理解 Pythonでは、辞書の概念は新しい辞書を生成するための簡潔な方法を提供します。それらはリストの概念に似ていますが、いくつかの顕著な違いがあります。キーと値を明示的に指定する必要があります。たとえば、 d = {n：n ** 2の範囲（5）} これは、0から4の...

プログラミング 2025-06-13に投稿されました
PHPを使用してXMLファイルから属性値を効率的に取得するにはどうすればよいですか？
XMLファイルから属性値をPHP の取得します。提供されている例のような属性を含むXMLファイルを使用する場合： $xml = simplexml_load_file($file); foreach ($xml->Var[0]->attributes() as $att...

プログラミング 2025-06-13に投稿されました
PostgreSQLの各一意の識別子の最後の行を効率的に取得するにはどうすればよいですか？
postgresql：各一意の識別子の最後の行を抽出します。次のデータを検討してください： select distinct on (id) id, date, another_info from the_table order by id, date desc; データセット内の一...

プログラミング 2025-06-13に投稿されました
RPCメソッド探索用のGOインターフェイスの反射動的実装
go タイプmyServiceインターフェイスのようなインターフェイスを検討してください{ ログイン（ユーザー名、パスワード文字列）（sessionId int、errエラー） helloworld（sessionid int）（こんにちは文字列、エラーエラー） } ...

プログラミング 2025-06-13に投稿されました
$PHP \の機能の再定義制限を克服する方法は？$
PHP \の機能の再定義制限を克服する方法は？
PHPの関数の再定義制限をPHPで克服することは、同じ名前の関数を複数回定義することはノーではありません。提供されたコードスニペットで見られるように、そうすることは、恐ろしい「再び削除できない」エラーになります。 $ b）{ $ a * $ b; } を返しますが、PHPツールベ...

プログラミング 2025-06-13に投稿されました
MySQLデータベースメソッドは、同じインスタンスをダンプする必要はありません
同じインスタンスでmysqlデータベースをコピーする同じmysqlインスタンスでデータベースをコピーすることはできません。以下の方法は、従来のダンプアンドインポートプロセスのより簡単な代替手段を提供します。 | mysql new_db_name このコマンドは、new_db_nam...

プログラミング 2025-06-13に投稿されました
PHPで空の配列を効率的に検出する方法は？
チェックアレイ空虚のphp の空の配列は、さまざまなアプローチを通じてPHPで決定できます。アレイ要素の存在を確認する必要がある場合、PHPのルーズタイピングにより、配列自体の直接評価が可能になります。 //リストは空です。 } if (!$playerlist) { ...

プログラミング 2025-06-13に投稿されました
なぜLambdaの式には、Javaの「最終」または「有効な最終」変数が必要なのですか？
lambda式には、「最終」または「効果的に最終」変数は、「ラムダ式で使用される変数が最終または効果的に最終的に」を示すことを示します。 final。 //コードがありません cal.getComponents（）。getComponents（ "vtimez...

プログラミング 2025-06-13に投稿されました
Pythonで動的変数を作成する方法は？
python の動的変数作成は、特に複雑なデータ構造またはアルゴリズムを操作する場合、動的に変数を作成する能力が強力なツールになります。 Pythonは、これを達成するためのいくつかの創造的な方法を提供します。辞書を使用すると、キーを動的に作成し、対応する値を割り当てることができます。...

プログラミング 2025-06-13に投稿されました