"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > Programação > Guia para construir um aplicativo simples de web scraping em Python

Guia para construir um aplicativo simples de web scraping em Python

Publicado em 2024-08-29
Navegar:419

Guide to Building a Simple Python Web Scraping Application

A extração de dados da web em Python geralmente envolve o envio de solicitações HTTP ao site de destino e a análise dos dados HTML ou JSON retornados. ‌ Abaixo está um exemplo de um aplicativo simples de web scraping que usa a biblioteca de solicitações para enviar solicitações HTTP e usa o BeautifulSouplibrary para analisar HTML. ‌

Python constrói um caso simples de web scraping

Primeiro, certifique-se de ter instalado as bibliotecas requests e beautifulsoup4. Caso contrário, você pode instalá-los com o seguinte comando:‌

solicitações de instalação de pip beautifulsoup4
Em seguida, você pode escrever um script Python como o seguinte para extrair dados da rede:

import requests 
from bs4 import BeautifulSoup 

# URL of the target website 
url = 'http://example.com' 

# Sending HTTP GET request 
response = requests.get(url) 

# Check if the request was successful 
if response.status_code == 200: 
    # Parsing HTML with BeautifulSoup 
    soup = BeautifulSoup(response.text, 'html.parser') 

    # Extract the required data, for example, extract all the titles 
    titles = soup.find_all('h1') 

    # Print title 
    for title in titles: 
        print(title.text) 
else: 
    print('Request failed,status code:', response.status_code) 

Neste exemplo, primeiro importamos as solicitações e BeautifulSouplibraries. Em seguida, definimos a URL do site de destino e enviamos uma solicitação HTTP GET usando o método requests.get(). Se a solicitação for bem-sucedida (o código de status é 200), analisamos o HTML retornado usando BeautifulSoup e extraímos todas as tags

, que geralmente contêm o título principal da página. Por fim, imprimimos o conteúdo do texto de cada título.

Observe que em um projeto real de web scraping, você precisa cumprir as regras do arquivo robots.txt do site de destino e respeitar os direitos autorais e os termos de uso do site. Além disso, alguns sites podem utilizar técnicas anti-crawler, como carregamento dinâmico de conteúdo, verificação de captcha, etc., o que pode exigir estratégias de tratamento mais complexas.

Por que você precisa usar um proxy para web scraping?

Usar um proxy para rastrear sites é um método comum para contornar restrições de IP e mecanismos anti-rastreador. Os servidores proxy podem atuar como intermediários, encaminhando suas solicitações para o site de destino e retornando a resposta para você, de modo que o site de destino possa ver apenas o endereço IP do servidor proxy em vez do seu endereço IP real.

Um exemplo simples de web scraping usando um proxy

Em Python, você pode usar a biblioteca de solicitações para configurar um proxy. Aqui está um exemplo simples que mostra como usar um proxy para enviar uma solicitação HTTP:

import requests 

# The IP address and port provided by swiftproxy 
proxy = { 
    'http': 'http://45.58.136.104:14123', 
    'https': 'http://119.28.12.192:23529', 
} 

# URL of the target website 
url = 'http://example.com' 

# Sending requests using a proxy 
response = requests.get(url, proxies=proxy) 

# Check if the request was successful 
if response.status_code == 200: 
    print('Request successful, response content:‌', response.text) 
else: 
    print('Request failed,status code:‌', response.status_code) 

Observe que você precisa substituir o IP e a porta do servidor proxy pelo endereço real do servidor proxy. Além disso, certifique-se de que o servidor proxy seja confiável e ofereça suporte ao site que você deseja rastrear. Alguns sites podem detectar e bloquear solicitações de servidores proxy conhecidos, portanto, pode ser necessário alterar os servidores proxy regularmente ou usar um serviço de proxy mais avançado.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/lewis_kerr_2d0d4c5b886b02/guide-to-building-a-simple-python-web-scraping-application-aj3?1 Se houver alguma violação, entre em contato com [email protected] para excluí-lo
Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3