استخدام Scrapy: دليل بسيط لكشط الويب

الصفحة الأمامية > برمجة > استخدام Scrapy: دليل بسيط لكشط الويب

استخدام Scrapy: دليل بسيط لكشط الويب

تم النشر بتاريخ 2024-08-23

تصفح:492

Using Scrapy: A Simple Guide to Web Scraping

‌Scrapy هو إطار عمل سريع وعالي المستوى لزحف الويب تم تطويره في Python، ويستخدم للزحف إلى مواقع الويب واستخراج البيانات المنظمة من الصفحات. ‌لديها مجموعة واسعة من الاستخدامات ويمكن استخدامها لاستخراج البيانات والمراقبة والاختبار الآلي. ‌

نظرة عامة على سكرابي

يتكون إطار عمل Scrapy من خمسة مكونات رئيسية: المجدول، وأداة التنزيل، والزاحف، وخط أنابيب الكيان، ومحرك Scrapy. ‌
من بينها، يحدد المجدول عنوان URL التالي الذي سيتم الزحف إليه، ويستخدم برنامج التنزيل لتنزيل موارد الشبكة بسرعة عالية، ويستخدم الزاحف لاستخراج المعلومات المطلوبة من صفحة ويب معينة، ويقوم خط أنابيب الكيان بمعالجة البيانات المستخرجة بواسطة الزاحف ، ويتحكم محرك Scrapy في تدفق البيانات في جميع مكونات النظام. ‌
السبب وراء استخدام Scrapy غالبًا هو أنه إطار عمل يمكن لأي شخص تعديله بسهولة وفقًا لاحتياجاته، ويوفر فئات أساسية لأنواع مختلفة من تجريف الويب.

مزايا Scrapy للزحف إلى صفحات الويب

تشمل مزايا Scrapy للزحف إلى صفحات الويب بشكل أساسي ما يلي: ‌
1‌.كفاءة عالية‌: يستخدم Scrapy المعالجة غير المتزامنة والطلبات المتزامنة، والتي يمكنها التعامل بكفاءة مع مهام الزحف واسعة النطاق وتحسين كفاءة الزحف على الويب. ‌
2.Flexibility‌: يوفر Scrapy مجموعة غنية من المكونات وآليات المكونات الإضافية، ويمكن للمستخدمين تخصيصها وتوسيعها وفقًا لاحتياجاتهم لتلبية احتياجات الزحف المختلفة على الويب.
3.الاستقرار‌: يتمتع Scrapy بقدرة جيدة على تحمل الأخطاء واستقرار، ويمكنه التعامل مع بيئات الشبكة المعقدة والمتغيرة. ‌
4.وظائف غنية‌: يدعم Scrapy تحليل ومعالجة تنسيقات البيانات المتعددة، بما في ذلك HTML وXML وJSON وما إلى ذلك، ويوفر وظائف مثل المعالجة الآلية واستخراج البيانات وتخزين البيانات. ‌
‌5.قابلية التوسع القوية‌: يدعم Scrapy الزحف الموزع، والذي يمكنه الزحف إلى البيانات ومعالجتها في وقت واحد من خلال عقد الزاحف المتعددة لتحسين كفاءة الزحف.

الخطوات الأساسية لكشط صفحات الويب باستخدام برنامج Scrapy

Scrapy هو إطار عمل سريع ومتقدم للزحف على الويب وتجميع الويب، يُستخدم للزحف إلى مواقع الويب واستخراج البيانات المنظمة من الصفحات. ‌إليك الخطوات الأساسية لاستخدام Scrapy لتجريد الويب:‌

1.‌تثبيت Scrapy‌

أولاً، تأكد من تثبيت Scrapy. ‌إذا لم يتم تثبيته بعد، يمكنك تثبيته من خلال النقطة:‌
تثبيت النقطة سكرابي

2. إنشاء مشروع Scrapy

استخدم أمر Scrapy startproject لإنشاء مشروع Scrapy جديد. على سبيل المثال، قم بإنشاء مشروع باسم myproject:
بداية متقطعةمشروعيمشروعي

3. تحديد العنصر

تحديد العنصر في المشروع لتخزين البيانات التي تم الزحف إليها. على سبيل المثال، حدد عنصرًا في myproject/myproject/items.py:

import scrapy

class MyprojectItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

4. اكتب العنكبوت

قم بإنشاء عنكبوت في مشروعك لتحديد موقع الويب الذي سيتم الزحف إليه وكيفية الزحف إليه. على سبيل المثال، قم بإنشاء ملف Spider باسم example.py في الدليل myproject/myproject/spiders:

import scrapy
from myproject.items import MyprojectItem

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        items = []
        for sel in response.xpath('//ul/li'):
            item = MyprojectItem()
            item['title'] = sel.xpath('a/text()').get()
            item['link'] = sel.xpath('a/@href').get()
            item['desc'] = sel.xpath('text()').get()
            items.append(item)
        return items

5. قم بتشغيل العنكبوت

استخدم أمر الزحف Scrapy لتشغيل Spider. على سبيل المثال، قم بتشغيل المثال Spider الذي تم إنشاؤه أعلاه:
مثال للزحف المتقطع

6. حفظ البيانات

يمكنك معالجة البيانات التي تم الزحف إليها عن طريق تحديد مسار العنصر، مثل حفظه في ملف أو قاعدة بيانات.

7. مزيد من التكوين

يمكنك أيضًا تكوين مشروع Scrapy حسب الحاجة، مثل إعداد البرامج الوسيطة، وأداة التنزيل، والسجل، وما إلى ذلك.

هذه هي الخطوات الأساسية للزحف إلى مواقع الويب باستخدام Scrapy. اعتمادًا على احتياجاتك الخاصة، قد تحتاج إلى إجراء بعض عمليات التهيئة والتحسين الإضافية.

كيفية إعداد Scrapy لاستخدام وكيل المستخدم الديناميكي؟

يعد وكيل المستخدم الديناميكي إستراتيجية فعالة لمنع التعرف على برامج الزحف بواسطة مواقع الويب. ‌ في Scrapy، يمكن تعيين وكيل المستخدم الديناميكي بعدة طرق: ‌ ‌

أضف سمة custom_settings في فئة Spider: ‌ هذه السمة عبارة عن قاموس يستخدم لتعيين تكوين Scrapy المخصص. ‌ أضف مفتاح "USER_AGENT" في قاموس الإعدادات المخصصة وقم بتعيين قيمة وكيل المستخدم المقابلة. ‌ ‌
استخدم مكتبة fake_useragent: ‌ تحتوي هذه المكتبة على عدد كبير من وكلاء المستخدم المدمجين الذين يمكن استبدالهم بشكل عشوائي. ‌ بعد تثبيت حزمة fake_useragent، قم باستيراد واستخدام المكتبة في ملف تكوين إعدادات Scrapy لإنشاء وكيل مستخدم عشوائي. ‌ ‌
تنفيذ برنامج وسيط لوكيل المستخدم العشوائي: ‌ قم بإنشاء برنامج وسيط يستخدم مكتبة fake_useragent لتعيين وكيل مستخدم مختلف لكل طلب. ‌ ‌ ‌
من خلال هذه الطرق، يمكنك محاكاة سلوك المستخدم العادي بشكل فعال وتقليل خطر تعريف موقع الويب على أنه زاحف. ‌ ‌

لماذا تحتاج إلى إعداد وكيل عند استخدام Scrapy للزحف على الويب؟

عند استخدام إطار عمل Scrapy لتجميع الويب، من الضروري جدًا إعداد وكيل. الأسباب الرئيسية هي كما يلي:

تجنب حظر IP: عندما يصل الزاحف إلى موقع الويب، إذا تم استخدام عنوان IP الأصلي مباشرة، فمن السهل التعرف عليه وحظره بواسطة موقع الويب. يمكن أن يؤدي استخدام الوكيل إلى إخفاء عنوان IP الحقيقي، وبالتالي تجنب الحظر وحماية هوية الزاحف. ‌
اختراق قيود الوصول: ستضع بعض مواقع الويب قيودًا على الوصول. يمكن أن يؤدي استخدام الوكيل إلى اختراق هذه القيود والحصول بحرية على البيانات على موقع الويب المستهدف. ‌
تحسين كفاءة الزاحف: في بعض السيناريوهات التي تتطلب قدرًا كبيرًا من بيانات الزحف، يمكن أن يؤدي استخدام الوكيل إلى تجنب حظر عناوين IP بشكل فعال، وبالتالي ضمان التشغيل العادي لبرنامج الزاحف وتحسين كفاءة الزاحف. ‌
باختصار، من أجل جمع البيانات بشكل أفضل في إطار عمل Scrapy، من المهم جدًا إعداد وكيل.

كيفية إعداد خادم وكيل في Scrapy؟

يمكن تعيين وكيل في Scrapy عن طريق تعديل ملف settings.py الخاص بالمشروع. ‌الخطوات المحددة هي كما يلي:‌

إعداد الخادم الوكيل:‌أولاً،‌تحتاج إلى الحصول على IP من مزود خدمة وكيل موثوق وحفظه في ملف‌أو استخدام واجهة برمجة تطبيقات الوكيل. ‌
تمكين الوكيل‌:‌Set PROXY_ENABLED = True في ملف settings.py لتمكين الوكيل. ‌
تعيين عنوان IP للوكيل والمنفذ‌:‌يمكنك تحديد الوكيل والمنفذ عن طريق تعيين متغير PROXY،‌على سبيل المثال، PROXY = 'http://your_proxy_ip:port'. ‌
تكوين البرنامج الوسيط لبرنامج التنزيل‌:‌للتأكد من تفعيل إعدادات الوكيل،‌تحتاج إلى إضافة أو تعديل إعدادات البرنامج الوسيط المتعلق بالوكيل في تكوين DOWNLOADER_MIDDLEWARES في ملف settings.py. ‌

من خلال فهم هذه المقالة، يمكنك تعلم كيفية استخدام Scrapy للزحف إلى صفحات الويب، ومحاولة تجنب المشكلات التي تواجهها أثناء الزحف إلى الويب عن طريق تعيين وكيل المستخدم والوكلاء ديناميكيًا.

بيان الافراج يتم استنساخ هذه المقالة على: https://dev.to/lewis_kerr_2d0d4c5b886b02/using-scrapy-a-simple-guide-to-web-scraping-3a47؟1 إذا كان هناك أي انتهاك ، يرجى الاتصال بالدراسة [email protected] لحذف ذلك.

أحدث البرنامج التعليمي أكثر>

كيف يمكنني اتحاد جداول قاعدة البيانات مع أرقام مختلفة من الأعمدة؟
الجداول مجتمعة مع أعمدة مختلفة ] يمكن أن تواجه تحديات عند محاولة دمج جداول قاعدة البيانات بأعمدة مختلفة. تتمثل الطريقة المباشرة في إلحاق القيم ...

برمجة نشر في 2025-07-01
$كيفية حل خطأ \ "الاستخدام غير صالح لوظيفة المجموعة \" في MySQL عند العثور على عدد أقصى؟$
كيفية حل خطأ \ "الاستخدام غير صالح لوظيفة المجموعة \" في MySQL عند العثور على عدد أقصى؟
كيفية استرداد الحد الأقصى لعد باستخدام mysql حدد ماكس (العد (*)) من مجموعة EMP1 بالاسم ؛ خطأ 1111 (hy000): الاستخدام غير الصحيح لوظيفة المجموعة...

برمجة نشر في 2025-07-01
كيفية إعادة توجيه أنواع متعددة للمستخدمين (الطلاب والمعلمين والمسؤولين) إلى أنشطتهم في تطبيق Firebase؟
تسجيل الدخول. يدير الكود الحالي بنجاح إعادة التوجيه لنوعين للمستخدمين ، ولكنه يواجه تحديات عند محاولة دمج النوع الثالث (المسؤول). يخطط المخطط الأص...

برمجة نشر في 2025-07-01
كيفية تحويل عمود DataFrame Pandas إلى تنسيق DateTime وتصفية حسب التاريخ؟
تحويل عمود DataFrame pandas إلى تنسيق DateTime عند العمل مع البيانات الزمنية ، قد تظهر الطوابع الزمنية في البداية كسلاسل ولكن يجب تحويلها إلى تنس...

برمجة نشر في 2025-07-01
هل تسمح Java بأنواع عائدات متعددة: نظرة فاحصة على الطرق العامة؟
أنواع عائدات متعددة في java: تم الكشف عن المفاهيم الخاطئة getResult (String s) ؛ حيث Foo فئة مخصصة. يبدو أن إعلان الطريقة يضم نوعين من الإرج...

برمجة نشر في 2025-07-01
كيف يمكنك استخدام مجموعة من خلال محور البيانات في MySQL؟
هنا ، نتعامل مع تحد شائع: تحويل البيانات من الصف إلى الصفوف المستندة إلى الأعمدة باستخدام. لننظر في الاستعلام التالي: حدد البيانات مجموعة بوا...

برمجة نشر في 2025-07-01
كيف تتعامل مع شرائح الذاكرة في مجموعة Go Language Garbage؟
مجموعة garbage في شرائح GO: تحليل مفصل عند العمل مع الشرائح ، من الأهمية بمكان فهم سلوك جمع القمامة لتجنب تسرب الذاكرة المحتملة. فكر في التنف...

برمجة نشر في 2025-07-01
كيف يمكنني إنشاء رخويات ملائمة عناوين URL بكفاءة من سلاسل Unicode في PHP؟
صياغة دالة لتوليد سبيكة فعالة تقدم هذه المقالة حلاً موجزًا لتوليد الرخويات بكفاءة ، وتحويل الأحرف الخاصة والأحرف غير ASCII إلى تنسيقات سهلة U...

برمجة نشر في 2025-07-01
لماذا لا يعرض Firefox صورًا باستخدام خاصية CSS `content`؟
يمكن ملاحظة ذلك في فئة CSS المقدمة: . Googlepic { المحتوى: url ('../../ img/googleplusicon.png') ؛ الهامش: -6.5 ٪ ؛ حشو اليمين...

برمجة نشر في 2025-07-01
كيف يمكنني التعامل مع أسماء ملفات UTF-8 في وظائف نظام ملفات PHP؟
url تشفير أسماء الملفات لحل هذه المشكلة ، استخدم وظيفة urlencode لتحويل اسم المجلد المطلوب إلى تنسيق آمن لـ url قبل تمريره إلى mkdir: MKDIR (...

برمجة نشر في 2025-07-01
كيفية إزالة معالجات أحداث JavaScript المجهولة بشكل نظيف؟
العنصر؟ لا توجد طريقة لإزالة معالج الأحداث المجهول بشكل نظيف ما لم يتم تخزين إشارة إلى المعالج في الإنشاء. لمعالجة هذه المشكلة ، فكر في تخزين معا...

برمجة نشر في 2025-07-01
كيفية حل الخطأ "لا يمكن تخمين نوع الملف ، واستخدام التطبيق/ثنائي الثماني ..." في AppEngine؟
التطبيق/actet-stream ... " دقة مشكلة لتصحيح هذه المشكلة وتحديد نوع mime الصحيح للملفات الثابتة ، اتبع الخطوات هذه: /etc/mime.types file...

برمجة نشر في 2025-07-01
كيفية تحليل الأرقام في تدوين الأسي باستخدام decimal.parse ()؟
تحليل رقم من الترميز الأسي عند محاولة تحليل سلسلة معبر عنها في ترميز أسي باستخدام decimal.parse ("1.2345e-02") ، قد تصادف خطأ. وذلك ...

برمجة نشر في 2025-07-01
كيف يمكنني تنفيذ عبارات SQL متعددة في استعلام واحد باستخدام Node-MySQL؟
نصف كولون (؛) لفصل العبارات. ومع ذلك ، ينتج عن هذا خطأ يوضح أن هناك خطأ في بناء جملة SQL. لتمكين هذه الميزة ، تحتاج إلى تعيين تعدد الأطوار على صواب...

برمجة نشر في 2025-07-01
لماذا لا تستطيع Java إنشاء صفائف عامة؟
ArrayList [2] ؛ تقارير Java عن "إنشاء صفيف عام". لماذا هذا غير مسموح به؟ الإجابة: على وجه التحديد ، يتحقق جهاز Java Virtual Machi...

برمجة نشر في 2025-07-01