」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 軟體工程師的機器學習

軟體工程師的機器學習

發佈於2024-08-07
瀏覽:424

Machine Learning for Software Engineers

如果您觉得这篇文章有价值,请告诉我,我会继续前进!

第 1 章 - 线性模型

最简单但强大的概念之一是线性模型。

在机器学习中,我们的主要目标之一是根据数据进行预测。 线性模型就像机器学习的“Hello World”——它很简单,但却构成了理解更复杂模型的基础。

让我们建立一个模型来预测房价。在此示例中,输出是预期的“房价”,您的输入将是“sqft”、“num_bedrooms”等...

def prediction(sqft, num_bedrooms, num_baths):
    weight_1, weight_2, weight_3 = .0, .0, .0  
    home_price = weight_1*sqft, weight_2*num_bedrooms, weight_3*num_baths
    return home_price

您会注意到每个输入的“权重”。这些权重创造了预测背后的魔力。这个例子很无聊,因为权重为零,所以它总是输出零。

那么让我们看看如何找到这些权重。

寻找权重

寻找权重的过程称为“训练”模型。

  • 首先,我们需要一个具有已知特征(输入)和价格(输出)的房屋数据集。例如:
data = [
    {"sqft": 1000, "bedrooms": 2, "baths": 1, "price": 200000},
    {"sqft": 1500, "bedrooms": 3, "baths": 2, "price": 300000},
    # ... more data points ...
]
  • 在我们创建更新权重的方法之前,我们需要知道我们的预测有多偏离。我们可以计算我们的预测和实际值之间的差异。
home_price = prediction(1000, 2, 1) # our weights are currently zero, so this is zero
actual_value = 200000

error = home_price - actual_value # 0 - 200000 we are way off. 
# let's square this value so we aren't dealing with negatives
error = home_price**2

现在我们有一种方法可以知道一个数据点的偏差(误差)有多大,我们可以计算所有数据点的平均误差。这通常称为均方误差。

  • 最后,以减少均方误差的方式更新权重。

当然,我们可以选择随机数并在进行过程中不断保存最佳值,但这效率很低。因此,让我们探索一种不同的方法:梯度下降。

梯度下降

梯度下降是一种优化算法,用于为我们的模型找到最佳权重。

梯度是一个向量,它告诉我们当我们对每个权重进行微小改变时误差如何变化。

侧边栏直觉
想象一下站在丘陵地貌上,您的目标是到达最低点(误差最小)。梯度就像一个指南针,总是指向最陡的上升点。通过逆梯度方向,我们正在向最低点迈进。

其工作原理如下:

  1. 从随机权重(或零)开始。
  2. 计算当前权重的误差。
  3. 计算每个权重的误差梯度(斜率)。
  4. 通过向减少误差的方向移动一小步来更新权重。
  5. 重复步骤 2-4,直到误差停止显着减小。

我们如何计算每个误差的梯度?

计算梯度的一种方法是对权重进行小幅调整,看看这对我们的误差有何影响,并看看我们应该从哪里移动。

def calculate_gradient(weight, data, feature_index, step_size=1e-5):
    original_error = calculate_mean_squared_error(weight, data)

    # Slightly increase the weight
    weight[feature_index]  = step_size
    new_error = calculate_mean_squared_error(weight, data)

    # Calculate the slope
    gradient = (new_error - original_error) / step_size

    # Reset the weight
    weight[feature_index] -= step_size

    return gradient

逐步细分

  • 输入参数:

    • 权重:我们模型的当前权重集。
    • 数据:我们的房屋特征和价格数据集。
    • feature_index:我们计算梯度的权重(0 表示平方英尺,1 表示卧室,2 表示浴室)。
    • step_size:我们用来稍微改变权重的一个小值(默认为1e-5或0.00001)。
  • 计算原始误差:

   original_error = calculate_mean_squared_error(weight, data)

我们首先用当前权重计算均方误差。这给了我们我们的起点。

  • 稍微增加重量
   weight[feature_index]  = step_size

我们稍微增加权重(step_size)。这使我们能够看到重量的微小变化如何影响我们的误差。

  • 计算新错误
   new_error = calculate_mean_squared_error(weight, data)

我们稍微增加权重,再次计算均方误差。

  • 计算斜率(梯度)
   gradient = (new_error - original_error) / step_size

这是关键的一步。我们要问:“当我们稍微增加重量时,误差变化了多少?”

  • 如果 new_error > Original_error,则梯度为正,这意味着增加此权重会增加误差。
  • 如果 new_error
  • 大小告诉我们误差对该权重的变化有多敏感。

    • 重置重量
   weight[feature_index] -= step_size

我们将权重恢复到其原始值,因为我们正在测试如果更改它会发生什么。

  • 返回渐变
   return gradient

我们返回该权重的计算梯度。

这称为“数值梯度计算”或“有限差分法”。我们近似梯度而不是分析计算它。

让我们更新权重

现在我们有了梯度,我们可以通过减去梯度来将权重推向梯度的相反方向。

weights[i] -= gradients[i]

如果我们的梯度太大,我们很容易通过更新我们的权重来超过我们的最小值。为了解决这个问题,我们可以将梯度乘以一些小数:

learning_rate = 0.00001
weights[i] -= learning_rate*gradients[i]

这就是我们如何处理所有权重的方法:

def gradient_descent(data, learning_rate=0.00001, num_iterations=1000):
    weights = [0, 0, 0]  # Start with zero weights

    for _ in range(num_iterations):
        gradients = [
            calculate_gradient(weights, data, 0), # sqft
            calculate_gradient(weights, data, 1), # bedrooms
            calculate_gradient(weights, data, 2)  # bathrooms
        ]

        # Update each weight
        for i in range(3):
            weights[i] -= learning_rate * gradients[i]

        if _ % 100 == 0:
            error = calculate_mean_squared_error(weights, data)
            print(f"Iteration {_}, Error: {error}, Weights: {weights}")

    return weights

最后,我们有了权重!

解释模型

一旦我们有了经过训练的权重,我们就可以用它们来解释我们的模型:

  • “平方英尺”的权重代表每平方英尺的价格上涨。
  • “卧室”的权重代表每增加一间卧室的价格上涨。
  • “浴室”的重量代表每增加一间浴室的价格上涨。

例如,如果我们训练的权重是[100, 10000, 15000],则意味着:

  • 每平方英尺房价增加 100 美元。
  • 每间卧室使房价增加 10,000 美元。
  • 每间浴室使房价增加 15,000 美元。

线性模型尽管简单,但却是机器学习中的强大工具。它们为理解更复杂的算法奠定了基础,并为现实世界的问题提供了可解释的见解。

版本聲明 本文轉載於:https://dev.to/akdevelop/machine-learning-for-software-engineers-2hid?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • 為什麼使用固定定位時,為什麼具有100%網格板柱的網格超越身體?
    為什麼使用固定定位時,為什麼具有100%網格板柱的網格超越身體?
    網格超過身體,用100%grid-template-columns 為什麼在grid-template-colms中具有100%的顯示器,當位置設置為設置的位置時,grid-template-colly修復了? 問題: 考慮以下CSS和html: class =“ snippet-code”> ...
    程式設計 發佈於2025-05-17
  • Python元類工作原理及類創建與定制
    Python元類工作原理及類創建與定制
    python中的metaclasses是什麼? Metaclasses負責在Python中創建類對象。就像類創建實例一樣,元類也創建類。他們提供了對類創建過程的控制層,允許自定義類行為和屬性。 在Python中理解類作為對象的概念,類是描述用於創建新實例或對象的藍圖的對象。這意味著類本身是使用...
    程式設計 發佈於2025-05-17
  • 如何從PHP中的Unicode字符串中有效地產生對URL友好的sl。
    如何從PHP中的Unicode字符串中有效地產生對URL友好的sl。
    為有效的slug生成首先,該函數用指定的分隔符替換所有非字母或數字字符。此步驟可確保slug遵守URL慣例。隨後,它採用ICONV函數將文本簡化為us-ascii兼容格式,從而允許更廣泛的字符集合兼容性。 接下來,該函數使用正則表達式刪除了不需要的字符,例如特殊字符和空格。此步驟可確保slug僅包...
    程式設計 發佈於2025-05-17
  • 如何簡化PHP中的JSON解析以獲取多維陣列?
    如何簡化PHP中的JSON解析以獲取多維陣列?
    php 試圖在PHP中解析JSON數據的JSON可能具有挑戰性,尤其是在處理多維數組時。 To simplify the process, it's recommended to parse the JSON as an array rather than an object.To do...
    程式設計 發佈於2025-05-17
  • 如何高效地在一個事務中插入數據到多個MySQL表?
    如何高效地在一個事務中插入數據到多個MySQL表?
    mySQL插入到多個表中,該數據可能會產生意外的結果。雖然似乎有多個查詢可以解決問題,但將從用戶表的自動信息ID與配置文件表的手動用戶ID相關聯提出了挑戰。 使用Transactions和last_insert_id() 插入用戶(用戶名,密碼)值('test','tes...
    程式設計 發佈於2025-05-17
  • 在JavaScript中如何並發運行異步操作並正確處理錯誤?
    在JavaScript中如何並發運行異步操作並正確處理錯誤?
    同意操作execution 在執行asynchronous操作時,相關的代碼段落會遇到一個問題,當執行asynchronous操作:此實現在啟動下一個操作之前依次等待每個操作的完成。要啟用並發執行,需要進行修改的方法。 第一個解決方案試圖通過獲得每個操作的承諾來解決此問題,然後單獨等待它們: c...
    程式設計 發佈於2025-05-17
  • 對象擬合:IE和Edge中的封面失敗,如何修復?
    對象擬合:IE和Edge中的封面失敗,如何修復?
    To resolve this issue, we employ a clever CSS solution that solves the problem:position: absolute;top: 50%;left: 50%;transform: translate(-50%, -50%)...
    程式設計 發佈於2025-05-17
  • 在程序退出之前,我需要在C ++中明確刪除堆的堆分配嗎?
    在程序退出之前,我需要在C ++中明確刪除堆的堆分配嗎?
    在C中的顯式刪除 在C中的動態內存分配時,開發人員通常會想知道是否有必要在heap-procal extrable exit exit上進行手動調用“ delete”操作員,但開發人員通常會想知道是否需要手動調用“ delete”操作員。本文深入研究了這個主題。 在C主函數中,使用了動態分配變量(...
    程式設計 發佈於2025-05-17
  • Java數組中元素位置查找技巧
    Java數組中元素位置查找技巧
    在Java數組中檢索元素的位置 利用Java的反射API將數組轉換為列表中,允許您使用indexof方法。 (primitives)(鏈接到Mishax的解決方案) 用於排序陣列的數組此方法此方法返回元素的索引,如果發現了元素的索引,或一個負值,指示應放置元素的插入點。
    程式設計 發佈於2025-05-17
  • 使用jQuery如何有效修改":after"偽元素的CSS屬性?
    使用jQuery如何有效修改":after"偽元素的CSS屬性?
    在jquery中了解偽元素的限制:訪問“ selector 嘗試修改“:”選擇器的CSS屬性時,您可能會遇到困難。 This is because pseudo-elements are not part of the DOM (Document Object Model) and are th...
    程式設計 發佈於2025-05-17
  • 如何使用FormData()處理多個文件上傳?
    如何使用FormData()處理多個文件上傳?
    )處理多個文件輸入時,通常需要處理多個文件上傳時,通常是必要的。 The fd.append("fileToUpload[]", files[x]); method can be used for this purpose, allowing you to send multi...
    程式設計 發佈於2025-05-17
  • Java開發者如何保護數據庫憑證免受反編譯?
    Java開發者如何保護數據庫憑證免受反編譯?
    在java 在單獨的配置文件保護數據庫憑證的最有效方法中存儲憑據是將它們存儲在單獨的配置文件中。該文件可以在運行時加載,從而使登錄數據從編譯的二進製文件中遠離。 使用prevereness class import java.util.prefs.preferences; 公共類示例{ 首選...
    程式設計 發佈於2025-05-17
  • Python讀取CSV文件UnicodeDecodeError終極解決方法
    Python讀取CSV文件UnicodeDecodeError終極解決方法
    在試圖使用已內置的CSV模塊讀取Python中時,CSV文件中的Unicode Decode Decode Decode Decode decode Error讀取,您可能會遇到錯誤的錯誤:無法解碼字節 在位置2-3中:截斷\ uxxxxxxxx逃脫當CSV文件包含特殊字符或Unicode的路徑逃...
    程式設計 發佈於2025-05-17
  • Spark DataFrame添加常量列的妙招
    Spark DataFrame添加常量列的妙招
    在Spark Dataframe ,將常數列添加到Spark DataFrame,該列具有適用於所有行的任意值的Spark DataFrame,可以通過多種方式實現。使用文字值(SPARK 1.3)在嘗試提供直接值時,用於此問題時,旨在為此目的的使用column方法可能會導致錯誤。 df.with...
    程式設計 發佈於2025-05-17
  • 人臉檢測失敗原因及解決方案:Error -215
    人臉檢測失敗原因及解決方案:Error -215
    錯誤處理:解決“ error:((-215)!empty()in Function Multultiscale中的“ openCV 要解決此問題,必須確保提供給HAAR CASCADE XML文件的路徑有效。在提供的代碼片段中,級聯分類器裝有硬編碼路徑,這可能對您的系統不准確。相反,OPENCV提...
    程式設計 發佈於2025-05-17

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3