"यदि कोई कर्मचारी अपना काम अच्छी तरह से करना चाहता है, तो उसे पहले अपने औजारों को तेज करना होगा।" - कन्फ्यूशियस, "द एनालेक्ट्स ऑफ कन्फ्यूशियस। लू लिंगगोंग"
मुखपृष्ठ > प्रोग्रामिंग > पायथन के साथ अटलांटा, जॉर्जिया में अटॉर्नी डेटा को स्क्रैप करने के लिए एक तकनीकी गाइड

पायथन के साथ अटलांटा, जॉर्जिया में अटॉर्नी डेटा को स्क्रैप करने के लिए एक तकनीकी गाइड

2024-11-08 को प्रकाशित
ब्राउज़ करें:647

A Technical Guide to Scraping Attorney Data in Atlanta, Georgia with Python

इस गाइड में, हम अटलांटा, जॉर्जिया में वकीलों पर ध्यान केंद्रित करते हुए, कानूनी वेबसाइटों से वकील डेटा को स्क्रैप करने के लिए पायथन का उपयोग कैसे करें, इसका पता लगाएंगे। यह जानकारी उन लोगों के लिए मूल्यवान हो सकती है जो वकील ढूंढना चाहते हैं, कानूनी फर्मों पर शोध करना चाहते हैं, या आस-पास के वकीलों पर डेटा संकलित करना चाहते हैं। हम एक मजबूत स्क्रेपर बनाने के लिए लोकप्रिय पायथन लाइब्रेरी का उपयोग करेंगे जो आपको अटलांटा क्षेत्र में वकील वकीलों के बारे में जानकारी इकट्ठा करने में मदद कर सकता है।

आवश्यकताएँ
शुरू करने से पहले, सुनिश्चित करें कि आपने निम्नलिखित इंस्टॉल कर लिया है:

  • पायथन 3.x
  • पिप (पायथन पैकेज इंस्टॉलर)

आपको इन पुस्तकालयों को स्थापित करने की आवश्यकता होगी:

pip install requests lxml csv

स्क्रेपर की स्थापना
सबसे पहले, आइए आवश्यक लाइब्रेरी आयात करें और अपने हेडर और कुकीज़ सेट करें:

from lxml import html
import os
import csv
import requests
cookies = {
 ‘OptanonAlertBoxClosed’: ‘2024–08–29T14:38:29.268Z’,
 ‘_ga’: ‘GA1.2.1382693123.1724942310’,
 ‘_gid’: ‘GA1.2.373246331.1724942310’,
 ‘_gat’: ‘1’,
 ‘OptanonConsent’: ‘isIABGlobal=false&datestamp=Fri Aug 30 2024 00:17:14 GMT+0600 (Bangladesh Standard Time)&version=5.9.0&landingPath=NotLandingPage&groups=0_106263:1,0_116595:1,0_104533:1,101:1,1:1,0_116597:1,103:1,104:1,102:1,3:1,0_104532:1,2:1,4:1&AwaitingReconsent=false’,
 ‘_ga_JHNLZ3FY7V’: ‘GS1.2.1724954588.3.1.1724955436.0.0.0’,
}
headers = {
 ‘accept’: ‘text/html,application/xhtml xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7’,
 ‘accept-language’: ‘en-US,en;q=0.9,bn;q=0.8’,
 ‘cache-control’: ‘no-cache’,
 ‘dnt’: ‘1’,
 ‘pragma’: ‘no-cache’,
 ‘sec-ch-ua’: ‘“Chromium”;v=”128", “Not;A=Brand”;v=”24", “Google Chrome”;v=”128"’,
 ‘sec-ch-ua-mobile’: ‘?0’,
 ‘sec-ch-ua-platform’: ‘“Windows”’,
 ‘sec-fetch-dest’: ‘document’,
 ‘sec-fetch-mode’: ‘navigate’,
 ‘sec-fetch-site’: ‘cross-site’,
 ‘sec-fetch-user’: ‘?1’,
 ‘upgrade-insecure-requests’: ‘1’,
 ‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36’,
}

अनुरोध करना
अब, आइए वकील डेटा प्राप्त करने के लिए वेबसाइट से अनुरोध करें:

response = requests.get(
 ‘https://www.kslaw.com/people?capability_id=&locale=en&office_id=1&page=1&per_page=400&q=&school_id=&starts_with=&title_id',
 cookies=cookies,
 headers=headers,
)

HTML को पार्स करना
हम HTML सामग्री को पार्स करने के लिए lxml का उपयोग करेंगे:

webp = html.fromstring(response.content)
all_people_elems = webp.xpath(“//*[@id=’people_grid’]/div[@class=’person’]”)

सीएसवी में डेटा सहेजा जा रहा है
आइए अपने स्क्रैप किए गए डेटा को CSV फ़ाइल में सहेजने के लिए एक फ़ंक्शन बनाएं:

def save_csv(filename, data_list, isFirst=False, removeAtStarting=True):
 “””Save data to csv file”””
 if isFirst:
 if os.path.isfile(filename):
 if removeAtStarting:
 os.remove(filename)
 else:
 pass
with open(f’{filename}’, “a”, newline=’’, encoding=’utf-8-sig’) as fp:
 wr = csv.writer(fp, dialect=’excel’)
 wr.writerow(data_list)
# Initialize the CSV file
people_file = f”kslaw_people.csv”
save_csv(people_file, [‘URL’, ‘Name’, ‘Status’, ‘Fax’, ‘Telephone’, ‘Email’, ‘Address’], isFirst=True)

अटार्नी डेटा निकालना
अब, आइए वकील तत्वों पर नज़र डालें और प्रासंगिक जानकारी निकालें:

for each_people in all_people_elems:
 name = each_people.xpath(“.//h2/a/text()”)[0]
 href = each_people.xpath(“.//h2/a/@href”)[0]
 full_url = f”https://www.kslaw.com{href}" if href else “URL not found”
 status = each_people.xpath(“.//p/text()”)[0].strip()
 fax = ‘ — ‘
 address = ‘ — ‘
# Extract the Atlanta telephone number
 phone_numbers = each_people.xpath(“.//p[@class=’contacts’]/a[starts-with(@href, ‘tel:’)]/text()”)
 phone_numbers = [phone.strip() for phone in phone_numbers]
 phone_numbers_str = ‘, ‘.join(phone_numbers) if phone_numbers else “Phone numbers not found”
# Extract the email address
 email = each_people.xpath(“.//p[@class=’contacts’]/a[contains(@href, ‘mailto:’)]/text()”)
 email = email[0].strip() if email else “Email not found”
data_list = [full_url, name, status, fax, phone_numbers_str, email, address]
 save_csv(people_file, data_list)
 print(data_list)

निष्कर्ष
यह पायथन स्क्रिप्ट आपको अटलांटा, जॉर्जिया के वकीलों पर ध्यान केंद्रित करते हुए एक विशिष्ट कानूनी वेबसाइट से वकील डेटा को स्क्रैप करने की अनुमति देती है। इस स्क्रिप्ट को चलाकर, आप तुरंत कानूनी फर्मों की एक सूची संकलित कर सकते हैं और आस-पास के वकील ढूंढ सकते हैं। यह डेटा उन लोगों के लिए अमूल्य हो सकता है जो वकील वकीलों से जुड़ना चाहते हैं या अटलांटा में कानूनी परिदृश्य पर शोध करना चाहते हैं।

इस डेटा का उपयोग जिम्मेदारी से और वेबसाइट की सेवा की शर्तों और प्रासंगिक कानूनों के अनुपालन में करना याद रखें। उन व्यक्तियों की गोपनीयता का हमेशा सम्मान करें जिनका डेटा आप एकत्र कर रहे हैं।

जो लोग वकील ढूंढना चाहते हैं या कानूनी फर्मों पर शोध करना चाहते हैं, उनके लिए यह स्क्रैप किया गया डेटा एक शुरुआती बिंदु प्रदान कर सकता है। हालाँकि, इस जानकारी को अतिरिक्त शोध के साथ पूरक करना महत्वपूर्ण है, जैसे कि समीक्षाएँ पढ़ना, बार एसोसिएशन के रिकॉर्ड की जाँच करना और वकीलों से व्यक्तिगत रूप से संपर्क करके यह सुनिश्चित करना कि वे आपकी कानूनी आवश्यकताओं के लिए सही हैं।

पायथन और वेब स्क्रैपिंग तकनीकों का लाभ उठाकर, आप अटलांटा, जॉर्जिया में वकीलों के बारे में कुशलतापूर्वक जानकारी एकत्र कर सकते हैं, कानूनी प्रतिनिधित्व खोजने या कानूनी क्षेत्र में बाजार अनुसंधान करने की प्रक्रिया को सुव्यवस्थित कर सकते हैं।

अपनी वेब उपस्थिति बढ़ाने के लिए तैयार हैं?


मैं आपकी विशिष्ट आवश्यकताओं के अनुरूप प्रतिक्रियाशील React.js वेब एप्लिकेशन बनाने में विशेषज्ञ हूं। आइए आपके दृष्टिकोण को जीवन में लाएं!



मुझे Fiverr पर किराये पर लें →
विज्ञप्ति वक्तव्य इस लेख को इस पर पुनर्मुद्रित किया गया है: https://dev.to/fazlay/a-technical-guide-to-scraping-atorney-data-in-atlanta-georgia-with-python-3efg?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए अध्ययन करें।
नवीनतम ट्यूटोरियल अधिक>

चीनी भाषा का अध्ययन करें

अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।

Copyright© 2022 湘ICP备2022001581号-3