इस गाइड में, हम अटलांटा, जॉर्जिया में वकीलों पर ध्यान केंद्रित करते हुए, कानूनी वेबसाइटों से वकील डेटा को स्क्रैप करने के लिए पायथन का उपयोग कैसे करें, इसका पता लगाएंगे। यह जानकारी उन लोगों के लिए मूल्यवान हो सकती है जो वकील ढूंढना चाहते हैं, कानूनी फर्मों पर शोध करना चाहते हैं, या आस-पास के वकीलों पर डेटा संकलित करना चाहते हैं। हम एक मजबूत स्क्रेपर बनाने के लिए लोकप्रिय पायथन लाइब्रेरी का उपयोग करेंगे जो आपको अटलांटा क्षेत्र में वकील वकीलों के बारे में जानकारी इकट्ठा करने में मदद कर सकता है।
आवश्यकताएँ
शुरू करने से पहले, सुनिश्चित करें कि आपने निम्नलिखित इंस्टॉल कर लिया है:
आपको इन पुस्तकालयों को स्थापित करने की आवश्यकता होगी:
pip install requests lxml csv
स्क्रेपर की स्थापना
सबसे पहले, आइए आवश्यक लाइब्रेरी आयात करें और अपने हेडर और कुकीज़ सेट करें:
from lxml import html import os import csv import requests cookies = { ‘OptanonAlertBoxClosed’: ‘2024–08–29T14:38:29.268Z’, ‘_ga’: ‘GA1.2.1382693123.1724942310’, ‘_gid’: ‘GA1.2.373246331.1724942310’, ‘_gat’: ‘1’, ‘OptanonConsent’: ‘isIABGlobal=false&datestamp=Fri Aug 30 2024 00:17:14 GMT+0600 (Bangladesh Standard Time)&version=5.9.0&landingPath=NotLandingPage&groups=0_106263:1,0_116595:1,0_104533:1,101:1,1:1,0_116597:1,103:1,104:1,102:1,3:1,0_104532:1,2:1,4:1&AwaitingReconsent=false’, ‘_ga_JHNLZ3FY7V’: ‘GS1.2.1724954588.3.1.1724955436.0.0.0’, } headers = { ‘accept’: ‘text/html,application/xhtml xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7’, ‘accept-language’: ‘en-US,en;q=0.9,bn;q=0.8’, ‘cache-control’: ‘no-cache’, ‘dnt’: ‘1’, ‘pragma’: ‘no-cache’, ‘sec-ch-ua’: ‘“Chromium”;v=”128", “Not;A=Brand”;v=”24", “Google Chrome”;v=”128"’, ‘sec-ch-ua-mobile’: ‘?0’, ‘sec-ch-ua-platform’: ‘“Windows”’, ‘sec-fetch-dest’: ‘document’, ‘sec-fetch-mode’: ‘navigate’, ‘sec-fetch-site’: ‘cross-site’, ‘sec-fetch-user’: ‘?1’, ‘upgrade-insecure-requests’: ‘1’, ‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36’, }
अनुरोध करना
अब, आइए वकील डेटा प्राप्त करने के लिए वेबसाइट से अनुरोध करें:
response = requests.get( ‘https://www.kslaw.com/people?capability_id=&locale=en&office_id=1&page=1&per_page=400&q=&school_id=&starts_with=&title_id', cookies=cookies, headers=headers, )
HTML को पार्स करना
हम HTML सामग्री को पार्स करने के लिए lxml का उपयोग करेंगे:
webp = html.fromstring(response.content) all_people_elems = webp.xpath(“//*[@id=’people_grid’]/div[@class=’person’]”)
सीएसवी में डेटा सहेजा जा रहा है
आइए अपने स्क्रैप किए गए डेटा को CSV फ़ाइल में सहेजने के लिए एक फ़ंक्शन बनाएं:
def save_csv(filename, data_list, isFirst=False, removeAtStarting=True): “””Save data to csv file””” if isFirst: if os.path.isfile(filename): if removeAtStarting: os.remove(filename) else: pass with open(f’{filename}’, “a”, newline=’’, encoding=’utf-8-sig’) as fp: wr = csv.writer(fp, dialect=’excel’) wr.writerow(data_list) # Initialize the CSV file people_file = f”kslaw_people.csv” save_csv(people_file, [‘URL’, ‘Name’, ‘Status’, ‘Fax’, ‘Telephone’, ‘Email’, ‘Address’], isFirst=True)
अटार्नी डेटा निकालना
अब, आइए वकील तत्वों पर नज़र डालें और प्रासंगिक जानकारी निकालें:
for each_people in all_people_elems: name = each_people.xpath(“.//h2/a/text()”)[0] href = each_people.xpath(“.//h2/a/@href”)[0] full_url = f”https://www.kslaw.com{href}" if href else “URL not found” status = each_people.xpath(“.//p/text()”)[0].strip() fax = ‘ — ‘ address = ‘ — ‘ # Extract the Atlanta telephone number phone_numbers = each_people.xpath(“.//p[@class=’contacts’]/a[starts-with(@href, ‘tel:’)]/text()”) phone_numbers = [phone.strip() for phone in phone_numbers] phone_numbers_str = ‘, ‘.join(phone_numbers) if phone_numbers else “Phone numbers not found” # Extract the email address email = each_people.xpath(“.//p[@class=’contacts’]/a[contains(@href, ‘mailto:’)]/text()”) email = email[0].strip() if email else “Email not found” data_list = [full_url, name, status, fax, phone_numbers_str, email, address] save_csv(people_file, data_list) print(data_list)
निष्कर्ष
यह पायथन स्क्रिप्ट आपको अटलांटा, जॉर्जिया के वकीलों पर ध्यान केंद्रित करते हुए एक विशिष्ट कानूनी वेबसाइट से वकील डेटा को स्क्रैप करने की अनुमति देती है। इस स्क्रिप्ट को चलाकर, आप तुरंत कानूनी फर्मों की एक सूची संकलित कर सकते हैं और आस-पास के वकील ढूंढ सकते हैं। यह डेटा उन लोगों के लिए अमूल्य हो सकता है जो वकील वकीलों से जुड़ना चाहते हैं या अटलांटा में कानूनी परिदृश्य पर शोध करना चाहते हैं।
इस डेटा का उपयोग जिम्मेदारी से और वेबसाइट की सेवा की शर्तों और प्रासंगिक कानूनों के अनुपालन में करना याद रखें। उन व्यक्तियों की गोपनीयता का हमेशा सम्मान करें जिनका डेटा आप एकत्र कर रहे हैं।
जो लोग वकील ढूंढना चाहते हैं या कानूनी फर्मों पर शोध करना चाहते हैं, उनके लिए यह स्क्रैप किया गया डेटा एक शुरुआती बिंदु प्रदान कर सकता है। हालाँकि, इस जानकारी को अतिरिक्त शोध के साथ पूरक करना महत्वपूर्ण है, जैसे कि समीक्षाएँ पढ़ना, बार एसोसिएशन के रिकॉर्ड की जाँच करना और वकीलों से व्यक्तिगत रूप से संपर्क करके यह सुनिश्चित करना कि वे आपकी कानूनी आवश्यकताओं के लिए सही हैं।
पायथन और वेब स्क्रैपिंग तकनीकों का लाभ उठाकर, आप अटलांटा, जॉर्जिया में वकीलों के बारे में कुशलतापूर्वक जानकारी एकत्र कर सकते हैं, कानूनी प्रतिनिधित्व खोजने या कानूनी क्षेत्र में बाजार अनुसंधान करने की प्रक्रिया को सुव्यवस्थित कर सकते हैं।
मैं आपकी विशिष्ट आवश्यकताओं के अनुरूप प्रतिक्रियाशील React.js वेब एप्लिकेशन बनाने में विशेषज्ञ हूं। आइए आपके दृष्टिकोण को जीवन में लाएं!
अस्वीकरण: उपलब्ध कराए गए सभी संसाधन आंशिक रूप से इंटरनेट से हैं। यदि आपके कॉपीराइट या अन्य अधिकारों और हितों का कोई उल्लंघन होता है, तो कृपया विस्तृत कारण बताएं और कॉपीराइट या अधिकारों और हितों का प्रमाण प्रदान करें और फिर इसे ईमेल पर भेजें: [email protected] हम इसे आपके लिए यथाशीघ्र संभालेंगे।
Copyright© 2022 湘ICP备2022001581号-3