HR Automation のための API と Web スクレイピングの使用に関するレッスン

表紙 > プログラミング > HR Automation のための API と Web スクレイピングの使用に関するレッスン

HR Automation のための API と Web スクレイピングの使用に関するレッスン

2024 年 11 月 5 日に公開

ブラウズ：281

Lesson Working with APIs and Web Scraping for HR Automation

Python 0 から Hero まで シリーズへようこそ!これまでのところ、給与および人事システムに関連するタスクでデータを操作し、強力な外部ライブラリを使用する方法を学びました。しかし、リアルタイムデータを取得したり、外部サービスとやり取りしたりする必要がある場合はどうすればよいでしょうか?そこでAPIとウェブスクレイピングが登場します。

このレッスンでは次の内容を取り上げます:

API とは何か、そしてそれらが役立つ理由。
Python のリクエストライブラリを使用して REST API を操作する方法。
ウェブスクレイピング技術を適用してウェブサイトからデータを抽出する方法。
給与計算のためのリアルタイムの税率の取得や、Web サイトからの従業員福利厚生データのスクレイピングなどの実用的な例。

このレッスンを終了するまでに、外部データの取得を自動化し、人事システムをより動的でデータ主導型にすることができるようになります。

1. API とは何ですか?

API (アプリケーションプログラミングインターフェイス) は、さまざまなソフトウェアアプリケーションが相互に通信できるようにする一連のルールです。簡単に言うと、コードから直接別のサービスやデータベースと対話できるようになります。

例えば：

API を使用して、給与計算用の リアルタイム税率を取得できます。
HR ソフトウェア API と統合して、従業員データをシステムに直接取り込むことができます。
または、気象 API を使用して、異常気象条件に基づいて従業員にいつ特別手当を提供するかを知ることもできます。

ほとんどの API は、REST (Representational State Transfer) と呼ばれる標準を使用します。これにより、HTTP リクエスト (GET や POST など) を送信してデータにアクセスしたり、データを更新したりできます。

2. リクエストライブラリを使用して API と対話する

Python のリクエストライブラリを使用すると、API を簡単に操作できます。次を実行してインストールできます:

pip install requests

基本的な API リクエストの作成

GET リクエストを使用して API からデータを取得する方法の簡単な例から始めましょう。

import requests

# Example API to get public data
url = "https://jsonplaceholder.typicode.com/users"
response = requests.get(url)

# Check if the request was successful (status code 200)
if response.status_code == 200:
    data = response.json()  # Parse the response as JSON
    print(data)
else:
    print(f"Failed to retrieve data. Status code: {response.status_code}")

この例では:

requests.get() 関数を使用して API からデータを取得します。
リクエストが成功すると、データは JSON として解析され、処理できるようになります。

人事アプリケーションの例: リアルタイムの税金データの取得

給与計算のために、リアルタイムの税率を取得したいとします。多くの国が税率のパブリック API を提供しています。

この例では、税務 API からのデータの取得をシミュレートします。実際の API を使用する場合も、ロジックは同様になります。

import requests

# Simulated API for tax rates
api_url = "https://api.example.com/tax-rates"
response = requests.get(api_url)

if response.status_code == 200:
    tax_data = response.json()
    federal_tax = tax_data['federal_tax']
    state_tax = tax_data['state_tax']

    print(f"Federal Tax Rate: {federal_tax}%")
    print(f"State Tax Rate: {state_tax}%")

    # Use the tax rates to calculate total tax for an employee's salary
    salary = 5000
    total_tax = salary * (federal_tax   state_tax) / 100
    print(f"Total tax for a salary of ${salary}: ${total_tax:.2f}")
else:
    print(f"Failed to retrieve tax rates. Status code: {response.status_code}")

このスクリプトは、実際の税率 API で動作するように調整でき、給与システムを最新の税率で最新の状態に保つことができます。

3. Webスクレイピングによるデータ収集

API はデータを取得するための推奨される方法ですが、すべての Web サイトが API を提供しているわけではありません。このような場合、ウェブスクレイピングを使用してウェブページからデータを抽出できます。

Python の BeautifulSoup ライブラリとリクエストを使用すると、Web スクレイピングが簡単になります。次を実行してインストールできます:

pip install beautifulsoup4

例: Web サイトから従業員福利厚生データを収集する

会社の人事 Web サイトから 従業員福利厚生 に関するデータを収集したいと考えていると想像してください。基本的な例を次に示します:

import requests
from bs4 import BeautifulSoup

# URL of the webpage you want to scrape
url = "https://example.com/employee-benefits"
response = requests.get(url)

# Parse the page content with BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Find and extract the data you need (e.g., benefits list)
benefits = soup.find_all("div", class_="benefit-item")

# Loop through and print out the benefits
for benefit in benefits:
    title = benefit.find("h3").get_text()
    description = benefit.find("p").get_text()
    print(f"Benefit: {title}")
    print(f"Description: {description}\n")

この例では:

requests.get() を使用して Web ページのコンテンツをリクエストします。
BeautifulSoup オブジェクトは HTML コンテンツを解析します。
次に、find_all() を使用して、関心のある特定の要素 (特典のタイトルや説明など) を抽出します。

この手法は、福利厚生、求人情報、給与ベンチマークなどの人事関連データを Web から収集する場合に役立ちます。

4. 人事アプリケーションでの API と Web スクレイピングの組み合わせ

すべてをまとめて、実際の人事シナリオ向けの API の使用と Web スクレイピングを組み合わせたミニアプリケーションを作成しましょう。従業員の総コストを計算します。

良い：

API を使用してリアルタイムの税率を取得します。
追加の従業員福利厚生費のためにウェブページをスクレイピングします。

例: 総従業員コスト計算ツール

import requests
from bs4 import BeautifulSoup

# Step 1: Get tax rates from API
def get_tax_rates():
    api_url = "https://api.example.com/tax-rates"
    response = requests.get(api_url)

    if response.status_code == 200:
        tax_data = response.json()
        federal_tax = tax_data['federal_tax']
        state_tax = tax_data['state_tax']
        return federal_tax, state_tax
    else:
        print("Error fetching tax rates.")
        return None, None

# Step 2: Scrape employee benefit costs from a website
def get_benefit_costs():
    url = "https://example.com/employee-benefits"
    response = requests.get(url)

    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        # Let's assume the page lists the monthly benefit cost
        benefit_costs = soup.find("div", class_="benefit-total").get_text()
        return float(benefit_costs.strip("$"))
    else:
        print("Error fetching benefit costs.")
        return 0.0

# Step 3: Calculate total employee cost
def calculate_total_employee_cost(salary):
    federal_tax, state_tax = get_tax_rates()
    benefits_cost = get_benefit_costs()

    if federal_tax is not None and state_tax is not None:
        # Total tax deduction
        total_tax = salary * (federal_tax   state_tax) / 100

        # Total cost = salary   benefits   tax
        total_cost = salary   benefits_cost   total_tax
        return total_cost
    else:
        return None

# Example usage
employee_salary = 5000
total_cost = calculate_total_employee_cost(employee_salary)

if total_cost:
    print(f"Total cost for the employee: ${total_cost:.2f}")
else:
    print("Could not calculate employee cost.")

仕組み:

get_tax_rates() 関数は、API から税率を取得します。
get_benefit_costs() 関数は、従業員福利厚生費の Web ページを取得します。
calculate_total_employee_cost() 関数は、給与、税金、福利厚生を組み合わせて総コストを計算します。

これは簡略化された例ですが、さまざまなソース (API と Web スクレイピング) からのデータを組み合わせて、より動的で有用な HR アプリケーションを作成する方法を示しています。

Webスクレイピングのベストプラクティス

Web スクレイピングは強力ですが、従うべき重要なベストプラクティスがいくつかあります:

ウェブサイトの robots.txt を尊重します: 一部のウェブサイトではスクレイピングが許可されていないため、スクレイピングする前に robots.txt ファイルを確認する必要があります。
リクエスト間に適切な間隔を使用する: time.sleep() 関数を使用してリクエスト間に遅延を追加することで、サーバーの過負荷を回避します。
機密データや著作権で保護されたデータのスクレイピングを避ける: データをスクレイピングするときは、法的ルールや倫理的ルールに違反していないことを常に確認してください。

結論

このレッスンでは、APIを使用して外部サービスと対話する方法と、ウェブスクレイピングを通じてウェブサイトからデータを抽出する方法を学びました。これらのテクニックは、特に HR コンテキストにおいて、外部データを Python アプリケーションに統合するための無限の可能性を開きます。

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/dazevedo/lesson-7-working-with-apis-and-web-scraping-for-hr-automation-lmj?1 侵害がある場合は、study_golang にご連絡ください。 @163.com 削除

最新のチュートリアルもっと>

jQueryを使用して「：After」pseudo-elementのCSS属性を効果的に変更するにはどうすればよいですか？
jQueryにおける擬似要素の制限を理解する： "after" after "selector in web開発のように、「擬似要素のような」：後の「擬似要素」：後の視覚的拡張を追加することができます。ただし、jQueryを使用してこれらの要素にアクセス...

プログラミング 2025-05-22に投稿されました
`console.log`は、変更されたオブジェクト値の例外の理由を示しています
objects and console.log：Objects and offeried を操作する場合、奇妙なことは独特の行動に遭遇する場合があります。このコードスニペットを分析することにより、この謎を解明しましょう： foo = [{id：1}、{id：2}、{id：3}、{id：...

プログラミング 2025-05-22に投稿されました
PHPで空の配列を効率的に検出する方法は？
チェックアレイ空虚のphp の空の配列は、さまざまなアプローチを通じてPHPで決定できます。アレイ要素の存在を確認する必要がある場合、PHPのルーズタイピングにより、配列自体の直接評価が可能になります。 //リストは空です。 } if (!$playerlist) { ...

プログラミング 2025-05-22に投稿されました
PHPの2つの等しいサイズの配列から値を同期して反復して印刷するにはどうすればよいですか？
同じサイズの2つの配列の2つの配列から値を同期して反復して印刷する場合、同サイズの2つの配列を使用してselectboxを作成する場合、1つは対応する名前を含む1つを使用して、困難が不適切なsyntaxに起因する可能性があります。アレイ： foreach（$ codes as $ code、...

プログラミング 2025-05-22に投稿されました
Async void vs. asyncタスクのasp.net：Async voidメソッドが例外を投げることがあるのはなぜですか？
ASP.NETにおける非同期voidと非同期タスクの区別を理解するは、ASP.NETアプリケーションで、非同期プログラミングはパフォーマンスと応答性を高める上で重要な役割を果たします。ただし、Async voidと非同期タスクメソッドの重要な違いを誤解すると、予期しないエラーが発生する...

プログラミング 2025-05-22に投稿されました
Spring Security 4.1以降でCORSの問題を解決するためのガイド
スプリングセキュリティCORSフィルター：一般的な問題のトラブルシューティング既存のプロジェクトにスプリング関連エラーを統合する場合、「Access-Control-Origin」のようなヘッダーが応答に設定されていない場合にCORS関連のエラーに遭遇する場合があります。これを解決するに...

プログラミング 2025-05-22に投稿されました
Javaのコレクショントラバーサルのために、for-for-eachループとイテレーターを使用することにパフォーマンスの違いはありますか？
vs. Iterator：コレクショントラバーサルの効率この記事では、これら2つのアプローチの効率の違いを調査します。内部的にiteratorを使用します： list a = new ArrayList （）; for（整数整数：a）{ integer.toString（）; } ...

プログラミング 2025-05-22に投稿されました
PHPを使用してBlob（画像）をMySQLに適切に挿入する方法は？
php mysqlデータベースを持つmysqlデータベースにブロブを挿入すると、mysqlデータベースに画像を保存しようとすると、遭遇するかもしれません問題。このガイドは、画像データを正常に保存するためのソリューションを提供します。 ImageId、image） values（ &...

プログラミング 2025-05-22に投稿されました
Firefoxバックボタンを使用すると、JavaScriptの実行が停止するのはなぜですか？
navigational Historyの問題：JavaScriptは、Firefoxバックボタンを使用した後に実行を停止しますユーザーは、JavaScriptスクリプトが以前の訪問ページを介して回復したときに実行されない問題に遭遇する可能性があります。この問題は、ChromeやInt...

プログラミング 2025-05-22に投稿されました
PostgreSQLの各一意の識別子の最後の行を効率的に取得するにはどうすればよいですか？
postgresql：各一意の識別子の最後の行を抽出します。次のデータを検討してください： select distinct on (id) id, date, another_info from the_table order by id, date desc; データセット内の一...

プログラミング 2025-05-22に投稿されました
Microsoft Visual C ++が2フェーズテンプレートのインスタンス化を正しく実装できないのはなぜですか？
Microsoft Visual Cの「壊れた」2フェーズテンプレートのインスタンス化の謎問題声明：ユーザーは、Microsoft Visual C（MSVC）の懸念を表現する一般的な懸念を表明します。メカニズムの特定の側面は、予想どおりに動作できませんか？ただし、このチェックがテンプ...

プログラミング 2025-05-22に投稿されました
JavaScriptオブジェクトにキーを動的に設定する方法は？
JavaScriptオブジェクト変数の動的キーを作成する方法この構文jsObj['key' i] = 'example' 1; はjavascriptで、アレイは特殊なタイプのオブジェクトです。この特別な動作は標準のオブジェクトによって模倣されていませんが、四角いブラケット演算子は...

プログラミング 2025-05-22に投稿されました
CSS「コンテンツ」プロパティを使用してFirefoxが画像を表示しないのはなぜですか？
firefox のコンテンツURLを使用して画像を表示します。これは、提供されたCSSクラスで見ることができます： .googlePic { content: url('../../img/googlePlusIcon.PNG'); margin-top: -6.5%;...

プログラミング 2025-05-22に投稿されました
Python環境変数のアクセスおよび管理方法
Python の環境変数へのアクセスPythonの環境変数にアクセスするには、 os.environ オブジェクトを利用します。デフォルトでは、マッピング内の変数にアクセスすると、インタープリターにPython辞書の値を検索するように促します。 print（os.environ [&#...

プログラミング 2025-05-22に投稿されました
テキストからHTMLタグを削除するPython効率的な方法
htmlタグをpythonで削除するために、html応答を操作することがよくあると、html応答を操作することがしばしば抽出され、形式のタグを排除します。これは、HTMLタグを効果的に剥がし、目的のプレーンテキストを残すことで実現できます。 mlstripperはHTML入力を取り、それを...

プログラミング 2025-05-22に投稿されました