」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 使用 JavaScript 進行網頁抓取和代理設定的初學者指南

使用 JavaScript 進行網頁抓取和代理設定的初學者指南

發佈於2024-11-09
瀏覽:886

Beginner

使用JavaScript程式碼模擬使用者操作,以取得所需資訊。包括模擬使用者開啟網頁、點擊連結、輸入關鍵字等操作,並從網頁中提取所需資訊。

Javascript網頁抓取的核心原理

使用JavaScript程式碼模擬使用者操作來取得所需資訊。包括模擬使用者開啟網頁、點擊連結、輸入關鍵字等操作,並從網頁中提取所需資訊。

Javascript 網頁抓取常用工具

您可以選擇使用Xmlhttprequest物件、Fetch Api、jQuery的Ajax方法等來請求和擷取資料。這些方法可讓您傳送 Http 請求並取得伺服器回應。

Javascript Web 抓取如何處理跨域問題?

由於瀏覽器的同源策略限制,Javascript無法直接存取其他網域下的資源。可以使用Jsonp、Cors等技術實現跨域請求,或使用代理、設定瀏覽器參數等方式解決跨域問題。

使用 Javascript 進行網頁抓取時設定代理 IP

使用Javascript進行網頁抓取時,設定代理可以有效隱藏真實IP位址、提高安全性或繞過某些存取限制。設定代理IP的步驟通常包括:

1. 獲取代理

首先,您需要獲得一個可用的代理。
代理通常由第三方服務提供者提供。您可以透過搜尋引擎或相關技術論壇找到可用的代理,並對其進行測試以確保其可用性。

2.設定代理伺服器

在JavaScript中,您可以透過設定係統屬性或使用特定的HTTP庫來指定代理伺服器資訊。
例如,使用http或https模組時,您可以建立新的Agent物件並設定其代理屬性。

3.發起請求

設定代理伺服器後,您可以透過代理發起網路請求來抓取網頁。

使用 Javascript 抓取時設定代理程式的範例

使用Javascript進行網頁抓取時設定代理程式的範例如下:

const http = require('http');
const https = require('https');

// Set IP address and port
const proxy = 'http://IP address:port';

http.globalAgent = new http.Agent({ proxy: proxy });
https.globalAgent = new https.Agent({ proxy: proxy });

// Use the http or https modules to make requests, they will automatically use the configured proxy
https.get('http://example.com', (res) => {
  let data = '';

  // Receive data fragment
  res.on('data', (chunk) => {
    data  = chunk;
  });

  // Data received
  res.on('end', () => {
    console.log(data);
  });
}).on('error', (err) => {
  console.error('Error: '   err.message);
});

‌注意‌:‌ 您需要將「http://IP位址:連接埠」替換為您實際取得的IP位址和連接埠號碼。 ‌‌

如何使用JavaScript在本機上儲存資料?

使用 JavaScript 在本地儲存資料有多種方法:

  • localStorage:長期資料儲存。除非手動刪除,否則資料將保留在瀏覽器中。您可以使用 localStorage.setItem(key, value) 儲存數據,使用 localStorage.getItem(key) 讀取數據,使用 localStorage.removeItem(key) 刪除資料。

  • sessionStorage:會話級儲存。瀏覽器關閉後資料就會消失。其用法與localStorage類似。

  • Cookie:儲存字串。大小限制約為 4KB。儲存時效性預設為會話等級。過期時間可以是

  • 手動設定。操作必須依賴伺服器。

  • IndexedDB:用於儲存大量結構化數據,包括檔案/blob。儲存容量理論上是無限的。
    透過以上步驟,就可以完成JavaScript抓取網頁資料並儲存的流程了。

版本聲明 本文轉載於:https://dev.to/lewis_kerr_2d0d4c5b886b02/beginners-guide-to-web-scraping-and-proxy-setup-with-javascript-2fdk?1如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • C++成員函數指針正確傳遞方法
    C++成員函數指針正確傳遞方法
    如何將成員函數置於c 的函數時,接受成員函數指針的函數時,必須同時提供對象的指針,並提供指針和指針到函數。需要具有一定簽名的功能指針。要通過成員函數,您需要同時提供對象指針(此)和成員函數指針。這可以通過修改Menubutton :: SetButton()(如下所示:[&& && && &&華)...
    程式設計 發佈於2025-05-16
  • 如何使用組在MySQL中旋轉數據?
    如何使用組在MySQL中旋轉數據?
    在關係數據庫中使用mySQL組使用mySQL組進行查詢結果,在關係數據庫中使用MySQL組,轉移數據的數據是指重新排列的行和列的重排以增強數據可視化。在這裡,我們面對一個共同的挑戰:使用組的組將數據從基於行的基於列的轉換為基於列。 Let's consider the following ...
    程式設計 發佈於2025-05-16
  • 為什麼我的CSS背景圖像出現?
    為什麼我的CSS背景圖像出現?
    故障排除:CSS背景圖像未出現 ,您的背景圖像儘管遵循教程說明,但您的背景圖像仍未加載。圖像和样式表位於相同的目錄中,但背景仍然是空白的白色帆布。 而不是不棄用的,您已經使用了CSS樣式: bockent {背景:封閉圖像文件名:背景圖:url(nickcage.jpg); 如果您的html,cs...
    程式設計 發佈於2025-05-16
  • 在JavaScript中如何獲取實際渲染的字體,當CSS字體屬性未定義時?
    在JavaScript中如何獲取實際渲染的字體,當CSS字體屬性未定義時?
    Accessing Actual Rendered Font when Undefined in CSSWhen accessing the font properties of an element, the JavaScript object.style.fontFamily and objec...
    程式設計 發佈於2025-05-16
  • 如何同步迭代並從PHP中的兩個等級陣列打印值?
    如何同步迭代並從PHP中的兩個等級陣列打印值?
    同步的迭代和打印值來自相同大小的兩個數組使用兩個數組相等大小的selectbox時,一個包含country代碼的數組,另一個包含鄉村代碼,另一個包含其相應名稱的數組,可能會因不當提供了exply for for for the uncore for the forsion for for ytry...
    程式設計 發佈於2025-05-16
  • 在Oracle SQL中如何提取下劃線前的子字符串?
    在Oracle SQL中如何提取下劃線前的子字符串?
    [ 在oracle sql 解決方案: Explanation:SUBSTR function extracts a substring starting from the specified position (0) and continuing for a specified length.IN...
    程式設計 發佈於2025-05-16
  • 表單刷新後如何防止重複提交?
    表單刷新後如何防止重複提交?
    在Web開發中預防重複提交 在表格提交後刷新頁面時,遇到重複提交的問題是常見的。要解決這個問題,請考慮以下方法: 想像一下具有這樣的代碼段,看起來像這樣的代碼段:)){ //數據庫操作... 迴聲“操作完成”; 死(); } ? > ...
    程式設計 發佈於2025-05-16
  • 如何限制動態大小的父元素中元素的滾動範圍?
    如何限制動態大小的父元素中元素的滾動範圍?
    在交互式接口中實現垂直滾動元素的CSS高度限制,控制元素的滾動行為對於確保用戶體驗和可訪問性是必不可少的。一種這樣的方案涉及限制動態大小的父元素中元素的滾動範圍。 問題:考慮一個佈局,其中我們具有與用戶垂直滾動一起移動的可滾動地圖div,同時與固定的固定sidebar保持一致。但是,地圖的滾動無限...
    程式設計 發佈於2025-05-16
  • PHP陣列鍵值異常:了解07和08的好奇情況
    PHP陣列鍵值異常:了解07和08的好奇情況
    PHP數組鍵值問題,使用07&08 在給定數月的數組中,鍵值07和08呈現令人困惑的行為時,就會出現一個不尋常的問題。運行print_r($月)返回意外結果:鍵“ 07”丟失,而鍵“ 08”分配給了9月的值。 此問題源於PHP對領先零的解釋。當一個數字帶有0(例如07或08)的前綴時,PHP將...
    程式設計 發佈於2025-05-16
  • 為什麼不````''{margin:0; }`始終刪除CSS中的最高邊距?
    為什麼不````''{margin:0; }`始終刪除CSS中的最高邊距?
    在CSS 問題:不正確的代碼: 全球範圍將所有餘量重置為零,如提供的代碼所建議的,可能會導致意外的副作用。解決特定的保證金問題是更建議的。 例如,在提供的示例中,將以下代碼添加到CSS中,將解決餘量問題: body H1 { 保證金頂:-40px; } 此方法更精確,避免了由全局保證金重置...
    程式設計 發佈於2025-05-16
  • Python中嵌套函數與閉包的區別是什麼
    Python中嵌套函數與閉包的區別是什麼
    嵌套函數與python 在python中的嵌套函數不被考慮閉合,因為它們不符合以下要求:不訪問局部範圍scliables to incling scliables在封裝範圍外執行範圍的局部範圍。 make_printer(msg): DEF打印機(): 打印(味精) ...
    程式設計 發佈於2025-05-16
  • MySQL中如何高效地根據兩個條件INSERT或UPDATE行?
    MySQL中如何高效地根據兩個條件INSERT或UPDATE行?
    在兩個條件下插入或更新或更新 solution:的答案在於mysql的插入中...在重複鍵更新語法上。如果不存在匹配行或更新現有行,則此功能強大的功能可以通過插入新行來進行有效的數據操作。如果違反了唯一的密鑰約束。 實現所需的行為,該表必須具有唯一的鍵定義(在這種情況下為'名稱'...
    程式設計 發佈於2025-05-16
  • `console.log`顯示修改後對象值異常的原因
    `console.log`顯示修改後對象值異常的原因
    foo = [{id:1},{id:2},{id:3},{id:4},{id:id:5},],]; console.log('foo1',foo,foo.length); foo.splice(2,1); console.log('foo2', foo, foo....
    程式設計 發佈於2025-05-16
  • 如何使用替換指令在GO MOD中解析模塊路徑差異?
    如何使用替換指令在GO MOD中解析模塊路徑差異?
    在使用GO MOD時,在GO MOD 中克服模塊路徑差異時,可能會遇到衝突,其中3個Party Package將另一個PAXPANCE帶有導入式套件之間的另一個軟件包,並在導入式套件之間導入另一個軟件包。如迴聲消息所證明的那樣: go.etcd.io/bbolt [&&&&&&&&&&&&&&&&...
    程式設計 發佈於2025-05-16
  • eval()vs. ast.literal_eval():對於用戶輸入,哪個Python函數更安全?
    eval()vs. ast.literal_eval():對於用戶輸入,哪個Python函數更安全?
    稱量()和ast.literal_eval()中的Python Security 在使用用戶輸入時,必須優先確保安全性。強大的python功能eval()通常是作為潛在解決方案而出現的,但擔心其潛在風險。 This article delves into the differences betwee...
    程式設計 發佈於2025-05-16

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3