पायथन के साथ अटलांटा, जॉर्जिया में अटॉर्नी डेटा को स्क्रैप करने के लिए एक तकनीकी गाइड

मुखपृष्ठ > प्रोग्रामिंग > पायथन के साथ अटलांटा, जॉर्जिया में अटॉर्नी डेटा को स्क्रैप करने के लिए एक तकनीकी गाइड

पायथन के साथ अटलांटा, जॉर्जिया में अटॉर्नी डेटा को स्क्रैप करने के लिए एक तकनीकी गाइड

2024-11-08 को प्रकाशित

ब्राउज़ करें:647

A Technical Guide to Scraping Attorney Data in Atlanta, Georgia with Python

इस गाइड में, हम अटलांटा, जॉर्जिया में वकीलों पर ध्यान केंद्रित करते हुए, कानूनी वेबसाइटों से वकील डेटा को स्क्रैप करने के लिए पायथन का उपयोग कैसे करें, इसका पता लगाएंगे। यह जानकारी उन लोगों के लिए मूल्यवान हो सकती है जो वकील ढूंढना चाहते हैं, कानूनी फर्मों पर शोध करना चाहते हैं, या आस-पास के वकीलों पर डेटा संकलित करना चाहते हैं। हम एक मजबूत स्क्रेपर बनाने के लिए लोकप्रिय पायथन लाइब्रेरी का उपयोग करेंगे जो आपको अटलांटा क्षेत्र में वकील वकीलों के बारे में जानकारी इकट्ठा करने में मदद कर सकता है।

आवश्यकताएँ
शुरू करने से पहले, सुनिश्चित करें कि आपने निम्नलिखित इंस्टॉल कर लिया है:

पायथन 3.x
पिप (पायथन पैकेज इंस्टॉलर)

आपको इन पुस्तकालयों को स्थापित करने की आवश्यकता होगी:

pip install requests lxml csv

स्क्रेपर की स्थापना
सबसे पहले, आइए आवश्यक लाइब्रेरी आयात करें और अपने हेडर और कुकीज़ सेट करें:

from lxml import html
import os
import csv
import requests
cookies = {
 ‘OptanonAlertBoxClosed’: ‘2024–08–29T14:38:29.268Z’,
 ‘_ga’: ‘GA1.2.1382693123.1724942310’,
 ‘_gid’: ‘GA1.2.373246331.1724942310’,
 ‘_gat’: ‘1’,
 ‘OptanonConsent’: ‘isIABGlobal=false&datestamp=Fri Aug 30 2024 00:17:14 GMT+0600 (Bangladesh Standard Time)&version=5.9.0&landingPath=NotLandingPage&groups=0_106263:1,0_116595:1,0_104533:1,101:1,1:1,0_116597:1,103:1,104:1,102:1,3:1,0_104532:1,2:1,4:1&AwaitingReconsent=false’,
 ‘_ga_JHNLZ3FY7V’: ‘GS1.2.1724954588.3.1.1724955436.0.0.0’,
}
headers = {
 ‘accept’: ‘text/html,application/xhtml xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7’,
 ‘accept-language’: ‘en-US,en;q=0.9,bn;q=0.8’,
 ‘cache-control’: ‘no-cache’,
 ‘dnt’: ‘1’,
 ‘pragma’: ‘no-cache’,
 ‘sec-ch-ua’: ‘“Chromium”;v=”128", “Not;A=Brand”;v=”24", “Google Chrome”;v=”128"’,
 ‘sec-ch-ua-mobile’: ‘?0’,
 ‘sec-ch-ua-platform’: ‘“Windows”’,
 ‘sec-fetch-dest’: ‘document’,
 ‘sec-fetch-mode’: ‘navigate’,
 ‘sec-fetch-site’: ‘cross-site’,
 ‘sec-fetch-user’: ‘?1’,
 ‘upgrade-insecure-requests’: ‘1’,
 ‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36’,
}

अनुरोध करना
अब, आइए वकील डेटा प्राप्त करने के लिए वेबसाइट से अनुरोध करें:

response = requests.get(
 ‘https://www.kslaw.com/people?capability_id=&locale=en&office_id=1&page=1&per_page=400&q=&school_id=&starts_with=&title_id',
 cookies=cookies,
 headers=headers,
)

HTML को पार्स करना
हम HTML सामग्री को पार्स करने के लिए lxml का उपयोग करेंगे:

webp = html.fromstring(response.content)
all_people_elems = webp.xpath(“//*[@id=’people_grid’]/div[@class=’person’]”)

सीएसवी में डेटा सहेजा जा रहा है
आइए अपने स्क्रैप किए गए डेटा को CSV फ़ाइल में सहेजने के लिए एक फ़ंक्शन बनाएं:

def save_csv(filename, data_list, isFirst=False, removeAtStarting=True):
 “””Save data to csv file”””
 if isFirst:
 if os.path.isfile(filename):
 if removeAtStarting:
 os.remove(filename)
 else:
 pass
with open(f’{filename}’, “a”, newline=’’, encoding=’utf-8-sig’) as fp:
 wr = csv.writer(fp, dialect=’excel’)
 wr.writerow(data_list)
# Initialize the CSV file
people_file = f”kslaw_people.csv”
save_csv(people_file, [‘URL’, ‘Name’, ‘Status’, ‘Fax’, ‘Telephone’, ‘Email’, ‘Address’], isFirst=True)

अटार्नी डेटा निकालना
अब, आइए वकील तत्वों पर नज़र डालें और प्रासंगिक जानकारी निकालें:

for each_people in all_people_elems:
 name = each_people.xpath(“.//h2/a/text()”)[0]
 href = each_people.xpath(“.//h2/a/@href”)[0]
 full_url = f”https://www.kslaw.com{href}" if href else “URL not found”
 status = each_people.xpath(“.//p/text()”)[0].strip()
 fax = ‘ — ‘
 address = ‘ — ‘
# Extract the Atlanta telephone number
 phone_numbers = each_people.xpath(“.//p[@class=’contacts’]/a[starts-with(@href, ‘tel:’)]/text()”)
 phone_numbers = [phone.strip() for phone in phone_numbers]
 phone_numbers_str = ‘, ‘.join(phone_numbers) if phone_numbers else “Phone numbers not found”
# Extract the email address
 email = each_people.xpath(“.//p[@class=’contacts’]/a[contains(@href, ‘mailto:’)]/text()”)
 email = email[0].strip() if email else “Email not found”
data_list = [full_url, name, status, fax, phone_numbers_str, email, address]
 save_csv(people_file, data_list)
 print(data_list)

निष्कर्ष
यह पायथन स्क्रिप्ट आपको अटलांटा, जॉर्जिया के वकीलों पर ध्यान केंद्रित करते हुए एक विशिष्ट कानूनी वेबसाइट से वकील डेटा को स्क्रैप करने की अनुमति देती है। इस स्क्रिप्ट को चलाकर, आप तुरंत कानूनी फर्मों की एक सूची संकलित कर सकते हैं और आस-पास के वकील ढूंढ सकते हैं। यह डेटा उन लोगों के लिए अमूल्य हो सकता है जो वकील वकीलों से जुड़ना चाहते हैं या अटलांटा में कानूनी परिदृश्य पर शोध करना चाहते हैं।

इस डेटा का उपयोग जिम्मेदारी से और वेबसाइट की सेवा की शर्तों और प्रासंगिक कानूनों के अनुपालन में करना याद रखें। उन व्यक्तियों की गोपनीयता का हमेशा सम्मान करें जिनका डेटा आप एकत्र कर रहे हैं।

जो लोग वकील ढूंढना चाहते हैं या कानूनी फर्मों पर शोध करना चाहते हैं, उनके लिए यह स्क्रैप किया गया डेटा एक शुरुआती बिंदु प्रदान कर सकता है। हालाँकि, इस जानकारी को अतिरिक्त शोध के साथ पूरक करना महत्वपूर्ण है, जैसे कि समीक्षाएँ पढ़ना, बार एसोसिएशन के रिकॉर्ड की जाँच करना और वकीलों से व्यक्तिगत रूप से संपर्क करके यह सुनिश्चित करना कि वे आपकी कानूनी आवश्यकताओं के लिए सही हैं।

पायथन और वेब स्क्रैपिंग तकनीकों का लाभ उठाकर, आप अटलांटा, जॉर्जिया में वकीलों के बारे में कुशलतापूर्वक जानकारी एकत्र कर सकते हैं, कानूनी प्रतिनिधित्व खोजने या कानूनी क्षेत्र में बाजार अनुसंधान करने की प्रक्रिया को सुव्यवस्थित कर सकते हैं।

अपनी वेब उपस्थिति बढ़ाने के लिए तैयार हैं?

मैं आपकी विशिष्ट आवश्यकताओं के अनुरूप प्रतिक्रियाशील React.js वेब एप्लिकेशन बनाने में विशेषज्ञ हूं। आइए आपके दृष्टिकोण को जीवन में लाएं!

मुझे Fiverr पर किराये पर लें →

विज्ञप्ति वक्तव्य इस लेख को इस पर पुनर्मुद्रित किया गया है: https://dev.to/fazlay/a-technical-guide-to-scraping-atorney-data-in-atlanta-georgia-with-python-3efg?1 यदि कोई उल्लंघन है, तो कृपया इसे हटाने के लिए अध्ययन करें।

नवीनतम ट्यूटोरियल अधिक>

Sqlalchemy फ़िल्टर क्लॉज़ में `Flake8` फ्लैगिंग बूलियन तुलना क्यों है?
] हालांकि, यह आम तौर पर "यदि कंडे गलत है:" या "अगर कंडे नहीं:" का उपयोग करने के लिए अनुशंसित है, तो बूलियन तुलनाओं के लिए कहीं और,...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
मुझे अपनी सिल्वरलाइट LINQ क्वेरी में "क्वेरी पैटर्न का कार्यान्वयन" त्रुटि क्यों नहीं मिल रही है?
] यह त्रुटि आम तौर पर तब होती है जब या तो Linq नेमस्पेस को छोड़ दिया जाता है या queried प्रकार में ienumerable कार्यान्वयन का अभाव होता है। इस विशिष्...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
बहु-आयामी सरणियों के लिए PHP में JSON पार्सिंग को सरल कैसे करें?
] To simplify the process, it's recommended to parse the JSON as an array rather than an object.To do this, use the json_decode function with the ...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
मैं पायथन का उपयोग करके रिवर्स ऑर्डर में एक बड़ी फ़ाइल को कुशलता से कैसे पढ़ सकता हूं?
] इस कार्य से निपटने के लिए एक कुशल समाधान है: रिवर्स लाइन रीडर जनरेटर निम्न कोड एक जनरेटर फ़ंक्शन को परिभाषित करता है, reverse_readline, जो ए...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
क्या C ++ 20 Consteval फ़ंक्शन में टेम्पलेट पैरामीटर फ़ंक्शन मापदंडों पर निर्भर कर सकते हैं?
] संकलन-समय। हालाँकि, यह सवाल बना हुआ है: क्या इसका मतलब है कि टेम्पलेट पैरामीटर अब फ़ंक्शन तर्कों पर निर्भर कर सकते हैं? पेपर स्वीकार करता है कि मापद...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
दो तिथियों के बीच दिनों की संख्या की गणना करने के लिए जावास्क्रिप्ट विधि
] दिनांक:

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
PHP में कर्ल के साथ एक कच्ची पोस्ट अनुरोध कैसे भेजें?
] यह लेख एक कच्चे पोस्ट अनुरोध करने के लिए कर्ल का उपयोग करने का तरीका प्रदर्शित करेगा, जहां डेटा को अनएन्कोडेड फॉर्म में भेजा जाता है। फिर, निम्न विक...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
आप Laravel ब्लेड टेम्प्लेट में चर को कैसे परिभाषित कर सकते हैं?
] "{{}}}" का उपयोग करके चर असाइन करते समय, यह सीधा है, यह हमेशा सबसे सुरुचिपूर्ण समाधान नहीं हो सकता है। $ old_section = "जो भी"...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
मेरी रैखिक ढाल पृष्ठभूमि में धारियां क्यों हैं, और मैं उन्हें कैसे ठीक कर सकता हूं?
] इन भद्दे कलाकृतियों को एक जटिल पृष्ठभूमि प्रसार घटना के लिए जिम्मेदार ठहराया जा सकता है। इसके बाद, रैखिक-ग्रेडिएंट इस पूरी ऊंचाई पर फैलता है, दोहराए...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
ऑब्जेक्ट-फिट: कवर IE और एज में विफल रहता है, कैसे ठीक करें?
] सीएसएस में लगातार छवि ऊंचाई बनाए रखने के लिए ब्राउज़रों में मूल रूप से काम करता है। हालांकि, IE और एज में, एक अजीबोगरीब मुद्दा उठता है। ब्राउज़र को ...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
ASP.NET में Async void बनाम Async कार्य: Async void विधि कभी -कभी अपवादों को क्यों फेंकती है?
] हालांकि, Async void और Async कार्य विधियों के बीच महत्वपूर्ण अंतर को गलत समझना अप्रत्याशित त्रुटियों को जन्म दे सकता है। यह प्रश्न यह बताता है कि क्...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
संस्करण 5.6.5 से पहले MySQL में टाइमस्टैम्प कॉलम के साथ current_timestamp का उपयोग करने पर क्या प्रतिबंध थे?
] Current_timestamp क्लॉज। यह सीमा INT, BigInt, और SmallInt पूर्णांक को वापस बढ़ाती है जब उन्हें शुरू में 2008 में पेश किया गया था। यह सीमा विरासत क...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
Microsoft Visual C ++ दो-चरण टेम्पलेट तात्कालिकता को सही ढंग से लागू करने में विफल क्यों होता है?
तंत्र के कौन से विशिष्ट पहलू अपेक्षित रूप से संचालित करने में विफल होते हैं? हालाँकि, इस बारे में संदेह उत्पन्न होता है कि क्या यह चेक सत्यापित करता ...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
मैं माउस क्लिक पर एक DIV के भीतर सभी पाठ का चयन कैसे कर सकता हूं?
] This allows users to easily drag and drop the selected text or copy it directly.SolutionTo select the text within a DIV element on a single mouse cl...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया
एक पांडस डेटाफ्रेम कॉलम को डेटटाइम प्रारूप में कैसे परिवर्तित करें और तिथि तक फ़िल्टर करें?
] अस्थायी डेटा के साथ काम करते समय, टाइमस्टैम्प शुरू में तार के रूप में दिखाई दे सकते हैं, लेकिन सटीक विश्लेषण के लिए एक डेटाइम प्रारूप में परिवर्तित ...

प्रोग्रामिंग 2025-05-06 पर पोस्ट किया गया