الصفحة الأمامية > برمجة > دليل لبناء تطبيق بسيط لتخريد الويب بيثون

دليل لبناء تطبيق بسيط لتخريد الويب بيثون

تم النشر بتاريخ 2024-08-29

تصفح:320

Guide to Building a Simple Python Web Scraping Application

عادةً ما يتضمن استخراج بيانات الويب في Python إرسال طلبات HTTP إلى موقع الويب المستهدف وتحليل بيانات HTML أو JSON التي تم إرجاعها. فيما يلي مثال لتطبيق بسيط لتجميع الويب يستخدم مكتبة الطلبات لإرسال طلبات HTTP ويستخدم BeautifulSouplibrary لتحليل HTML. ‌

تقوم بايثون ببناء حالة تجريف ويب بسيطة

أولاً، تأكد من تثبيت الطلبات ومكتبات beautifulsoup4. إذا لم يكن الأمر كذلك، فيمكنك تثبيتها باستخدام الأمر التالي:‌

طلبات تثبيت النقاط beautifulsoup4
بعد ذلك، يمكنك كتابة برنامج Python النصي كما يلي لاستخراج بيانات الشبكة:

import requests 
from bs4 import BeautifulSoup 

# URL of the target website 
url = 'http://example.com' 

# Sending HTTP GET request 
response = requests.get(url) 

# Check if the request was successful 
if response.status_code == 200: 
    # Parsing HTML with BeautifulSoup 
    soup = BeautifulSoup(response.text, 'html.parser') 

    # Extract the required data, for example, extract all the titles 
    titles = soup.find_all('h1') 

    # Print title 
    for title in titles: 
        print(title.text) 
else: 
    print('Request failed,status code:', response.status_code)

في هذا المثال، قمنا أولاً باستيراد الطلبات والمكتبات الجميلة. بعد ذلك، قمنا بتحديد عنوان URL لموقع الويب المستهدف وأرسلنا طلب HTTP GET باستخدام طريقة request.get(). إذا كان الطلب ناجحًا (رمز الحالة هو 200)، فإننا نقوم بتحليل HTML الذي تم إرجاعه باستخدام BeautifulSoup واستخراج جميع علامات

، والتي تحتوي عادةً على العنوان الرئيسي للصفحة. وأخيرًا، نقوم بطباعة المحتوى النصي لكل عنوان.

يرجى ملاحظة أنه في مشروع تجريف الويب الفعلي، يتعين عليك الالتزام بقواعد ملف robots.txt لموقع الويب المستهدف واحترام حقوق الطبع والنشر وشروط الاستخدام الخاصة بموقع الويب. بالإضافة إلى ذلك، قد تستخدم بعض مواقع الويب تقنيات مضادة للزاحف، مثل تحميل المحتوى ديناميكيًا، والتحقق من رمز التحقق، وما إلى ذلك، مما قد يتطلب استراتيجيات معالجة أكثر تعقيدًا.

لماذا تحتاج إلى استخدام وكيل لتجريد الويب؟

يعد استخدام وكيل للزحف إلى مواقع الويب طريقة شائعة للتحايل على قيود IP وآليات مكافحة الزحف. يمكن للخوادم الوكيلة أن تعمل كوسطاء، حيث تقوم بإعادة توجيه طلباتك إلى موقع الويب المستهدف وإعادة الرد إليك، بحيث يتمكن موقع الويب المستهدف من رؤية عنوان IP الخاص بالخادم الوكيل فقط بدلاً من عنوان IP الحقيقي الخاص بك.

مثال بسيط على تجريف الويب باستخدام الوكيل

في بايثون، يمكنك استخدام مكتبة الطلبات لإعداد الوكيل. فيما يلي مثال بسيط يوضح كيفية استخدام الوكيل لإرسال طلب HTTP:

import requests 

# The IP address and port provided by swiftproxy 
proxy = { 
    'http': 'http://45.58.136.104:14123', 
    'https': 'http://119.28.12.192:23529', 
} 

# URL of the target website 
url = 'http://example.com' 

# Sending requests using a proxy 
response = requests.get(url, proxies=proxy) 

# Check if the request was successful 
if response.status_code == 200: 
    print('Request successful, response content：‌', response.text) 
else: 
    print('Request failed,status code：‌', response.status_code)

لاحظ أنك بحاجة إلى استبدال عنوان IP للخادم الوكيل والمنفذ بعنوان الخادم الوكيل الفعلي. تأكد أيضًا من أن الخادم الوكيل موثوق به ويدعم موقع الويب الذي تريد الزحف إليه. قد تكتشف بعض مواقع الويب الطلبات الواردة من خوادم بروكسي معروفة وتحظرها، لذلك قد تحتاج إلى تغيير خوادم بروكسي بانتظام أو استخدام خدمة بروكسي أكثر تقدمًا.

بيان الافراج يتم استنساخ هذه المقالة على: https://dev.to/lewis_kerr_2d0d4c5b886b02/guide-to-building-a-simple-python-web-scraping-application- aj3؟1 إذا كان هناك أي انتهاك ، يرجى الاتصال study_golang@golang@d

أحدث البرنامج التعليمي أكثر>

لماذا تتطلب تعبيرات Lambda متغيرات "نهائية" أو "نهائية صالحة" في جافا؟
النهائي. في قصاصة الكود المقدمة: // الرمز المفقود cal.getcomponents (). getComponents ("VTimeZone"). // الرمز المفقود ...

برمجة نشر في 2025-05-07
Ubuntu 12.04 دليل إصلاح خطأ الاتصال MySQL المحلي

برمجة نشر في 2025-05-07
كيفية تكرار أحرف السلسلة بكفاءة للمسافة البادئة في C#؟
مُنشئ إذا كنت تنوي فقط تكرار نفس الحرف ، فيمكنك استخدام مُنشئ السلسلة الذي يقبل حرفًا وعدد الأوقات لتكراره: String ('-' ، 5) ؛ سيعو...

برمجة نشر في 2025-05-07
كيف يمكنني التعامل مع أسماء ملفات UTF-8 في وظائف نظام ملفات PHP؟
url تشفير أسماء الملفات لحل هذه المشكلة ، استخدم وظيفة urlencode لتحويل اسم المجلد المطلوب إلى تنسيق آمن لـ url قبل تمريره إلى mkdir: MKDIR (...

برمجة نشر في 2025-05-07
نصائح لإيجاد موقع العنصر في مجموعة Java
استرداد موضع العنصر في صفائف Java ضمن فئة صفائف Java ، لا توجد طريقة مباشرة "indexof" لتحديد موضع عنصر محدد داخل صفيف. ومع ذلك ، توف...

برمجة نشر في 2025-05-07
دليل لحل مشكلات CORS في Spring Security 4.1 وما فوق
مرشحات أمان الربيع: استكشاف الأخطاء وإصلاحها في المشكلات الشائعة لحل هذا ، يمكنك تنفيذ مرشح مخصص ، مثل MyFilter في مقتطف الرمز الخاص بك. ومع ذل...

برمجة نشر في 2025-05-07
كيفية تنفيذ وظيفة التجزئة العامة لل tuples في مجموعات غير مرتبة؟
وظيفة تجزئة عامة للتجمعات في المجموعات غير المرتبة ومع ذلك ، يمكن أن يؤدي استخدام tuples كمفاتيح في هذه المجموعات دون تحديد وظيفة التجزئة المخ...

برمجة نشر في 2025-05-07
هل أحتاج إلى حذف تخصيصات الكومة بشكل صريح في C ++ قبل خروج البرنامج؟
هذه المقالة تتعطل في هذا الموضوع. في الوظيفة الرئيسية C ، يتم استخدام مؤشر لمتغير مخصص ديناميكيًا (ذاكرة الكومة). مع خروج التطبيق ، هل تم إصدار ه...

برمجة نشر في 2025-05-07
كيفية اكتشاف أنواع حزم التصدير ديناميكيًا في لغة GO؟
العثور على أنواع الحزمة المصدرة ديناميكيًا لاحقًا) في GO 1.5 والإصدارات اللاحقة ، تقدم الأنواع وحزم المستورد طريقة قوية لفحص الحزم. إليك كيف...

برمجة نشر في 2025-05-07
كيفية إضافة محاور وعلامات إلى ملفات PNG في Java؟
بدلاً من محاولة التعديلات التي يمكن أن تؤدي إلى أخطاء وتناقضات ، يوصى بدمج التعليقات التوضيحية أثناء عملية إنشاء المخطط. يوضح المثال التالي كيفية...

برمجة نشر في 2025-05-07
لماذا تفشل Microsoft Visual C ++ في تنفيذ إنشاء مثيل للقالب ثنائي المراحل بشكل صحيح؟
] ما هي الجوانب المحددة للآلية تفشل في العمل كما هو متوقع؟ ومع ذلك ، تنشأ الشكوك فيما يتعلق بما إذا كان هذا الشيك يتحقق مما إذا كان يتم الإعلان عن الأ...

برمجة نشر في 2025-05-07
كيفية إدراج البيانات بكفاءة في جداول MySQL متعددة في معاملة واحدة؟
mysql إدراج في جداول متعددة على الرغم من أن الأمر قد يبدو أن استفسارات متعددة من شأنه حل المشكلة ، فإن ربط معرف الدخل التلقائي من جدول المستخدم...

برمجة نشر في 2025-05-07
لماذا توجد خطوط في خلفية التدرج الخطية ، وكيف يمكنني إصلاحها؟
لحفر خطوط الخلفية من التدرج الخطي عند توظيف خاصية الدرجات الخطية لخلفية ، قد تواجه خطوطًا ملحوظة عندما يتم ضبط الاتجاه على الأعلى أو الأسفل. ي...

برمجة نشر في 2025-05-07
كيفية استرداد الصف الأخير بكفاءة لكل معرف فريد في postgresql؟
postgresql: استخراج الصف الأخير لكل معرف فريد في postgresql ، قد تواجه مواقف حيث تحتاج إلى استخراج المعلومات من الصف الأخير المرتبط بكل معرف م...

برمجة نشر في 2025-05-07
كيفية تحليل صفائف JSON في GO باستخدام حزمة `json`؟
مثال: صفيف [] سلسلة } Func Main () { DataJson: = `[" 1 "،" 2 "،" 3 "]` ` ARR: = jsontype {} unmars...

برمجة نشر في 2025-05-07