scrapy 2.3 安裝指南
1. scrapy 2.3 安裝教程
2. scrapy 2.3 Windows環(huán)境搭建教程
3. scrapy 2.3 Ubuntu環(huán)境搭建教程
4. scrapy 2.3 macOS環(huán)境搭建教程
5. scrapy 2.3 PyPy環(huán)境搭建教程
6. scrapy 2.3 故障排除
scrapy 2.3 教程
1. scrapy 2.3 創(chuàng)建項(xiàng)目
2. scrapy 2.3 創(chuàng)建蜘蛛
3. scrapy 2.3 如何運(yùn)行我們的蜘蛛
4. scrapy 2.3 請(qǐng)求方法快捷方式
5. scrapy 2.3 提取數(shù)據(jù)
6. scrapy 2.3 在蜘蛛中提取數(shù)據(jù)
7. scrapy 2.3 存儲(chǔ)抓取的數(shù)據(jù)
8. scrapy 2.3 數(shù)據(jù)抓取實(shí)例
9. scrapy 2.3 蜘蛛?yún)?shù)
scrapy 2.3 命令行工具
1. scrapy 2.3 配置設(shè)置
2. scrapy 2.3 報(bào)廢項(xiàng)目的默認(rèn)結(jié)構(gòu)
3. scrapy 2.3 在項(xiàng)目之間共享根目錄
4. scrapy 2.3 工具
5. scrapy 2.3 可用工具命令
6. scrapy 2.3 自定義項(xiàng)目命令
scrapy 2.3 蜘蛛
1. scrapy 2.3 scrapy.Spider
2. scrapy 2.3 蜘蛛爬取參數(shù)
3. scrapy 2.3 類蜘蛛CrawlSpider
4. scrapy 2.3 XMLFeedSpider
5. scrapy 2.3 CSVFeedSpider
6. scrapy 2.3 SitemapSpider
scrapy 2.3 選擇器
1. scrapy 2.3 使用選擇器
2. scrapy 2.3 使用xpaths
3. scrapy 2.3 內(nèi)置選擇器引
  1. scrapy 2.3 SelectorList對(duì)象
4. scrapy 2.3 選擇器實(shí)例
  1. scrapy 2.3 HTML響應(yīng)的選擇器示例
  2. scrapy 2.3 XML響應(yīng)的選擇器示例
scrapy 2.3 項(xiàng)目
1. scrapy 2.3 項(xiàng)目類型
2. scrapy 2.3 使用項(xiàng)目對(duì)象
3. scrapy 2.3 支持所有項(xiàng)目類型
4. scrapy 2.3 與項(xiàng)目相關(guān)的其他類別
scrapy 2.3 項(xiàng)目加載器
1. scrapy 2.3 使用項(xiàng)目加載器填充項(xiàng)目
2. scrapy 2.3 使用dataclass項(xiàng)
3. scrapy 2.3 輸入和輸出處理器
4. scrapy 2.3 聲明項(xiàng)加載器
5. scrapy 2.3 聲明輸入和輸出處理器
6. scrapy 2.3 項(xiàng)目加載器上下文
7. scrapy 2.3 嵌套裝載機(jī)
8. scrapy 2.3 重復(fù)使用和擴(kuò)展項(xiàng)目加載器
scrapy 2.3 shell
1. scrapy 2.3 配置shell
2. scrapy 2.3 shell啟動(dòng)外殼
3. scrapy 2.3 shell使用外殼
  1. scrapy 2.3 shell可用快捷方式
  2. scrapy 2.3 Shell可用對(duì)象
4. scrapy 2.3 Shell會(huì)話示例
5. scrapy 2.3 從spiders調(diào)用shell來(lái)檢查響應(yīng)
scrapy 2.3 項(xiàng)目管道
1. scrapy 2.3 編寫自己的項(xiàng)目管道
2. scrapy 2.3 項(xiàng)目管道示例
3. scrapy 2.3 激活項(xiàng)目管道組件
scrapy 2.3 Feed導(dǎo)出
1. scrapy 2.3 序列化格式
2. scrapy 2.3 儲(chǔ)藏室
3. scrapy 2.3 存儲(chǔ)URI參數(shù)
4. scrapy 2.3 存儲(chǔ)后端
5. scrapy 2.3 Feed導(dǎo)出設(shè)置
scrapy 2.3 請(qǐng)求和響應(yīng)
1. 無(wú)標(biāo)題文章
2. scrapy 2.3 停止下載響應(yīng)
3. scrapy 2.3 請(qǐng)求子類
  1. scrapy 2.3 FormRequest對(duì)象
4. scrapy 2.3 響應(yīng)子類
scrapy 2.3 鏈接提取器
scrapy 2.3 設(shè)置
1. scrapy 2.3 填充設(shè)置
2. scrapy 2.3 導(dǎo)入路徑和類
3. scrapy 2.3 如何訪問設(shè)置
4. scrapy 2.3 內(nèi)置設(shè)置參考
scrapy 2.3 內(nèi)置異常引用
scrapy 2.3 登錄
1. scrapy 2.3 日志級(jí)別
2. scrapy 2.3 如何記錄消息
3. scrapy 2.3 從蜘蛛記錄
4. scrapy 2.3 日志記錄配置
scrapy 2.3 統(tǒng)計(jì)數(shù)據(jù)集合
1. scrapy 2.3 常用統(tǒng)計(jì)信息收集器使用
scrapy 2.3 發(fā)送電子郵件
1. scrapy 2.3 郵件設(shè)置
scrapy 2.3 遠(yuǎn)程登錄控制臺(tái)
1. scrapy 2.3 telnet控制臺(tái)中的可用變量
2. scrapy 2.3 telnet控制臺(tái)使用示例
3. scrapy 2.3 Telnet控制臺(tái)信號(hào)
4. scrapy 2.3 遠(yuǎn)程登錄設(shè)置
scrapy 2.3 常見問題
1. Scrapy與BeautifulSoup或LXML相比如何
2. BeautifulSoup能和Scrapy一起使用嗎？
3. Scrapy是否從Django“竊取”X？
4. Scrapy能與HTTP代理一起工作嗎？
5. Scrapy是以廣度優(yōu)先還是深度優(yōu)先的順序爬行？
6. 響應(yīng)狀態(tài)代碼999是什么意思？
7. 我可以從我的蜘蛛調(diào)用``pdb.set_trace（）``來(lái)調(diào)試它們嗎？
8. 如何將我的所有抓取項(xiàng)轉(zhuǎn)儲(chǔ)到j(luò)son/csv/xml文件中？
9. 我應(yīng)該使用蜘蛛?yún)?shù)或設(shè)置來(lái)配置我的蜘蛛嗎？
10. 如何在項(xiàng)目管道中將項(xiàng)目拆分為多個(gè)項(xiàng)目？
scrapy 2.3 調(diào)試spiders
1. scrapy 2.3 解析命令
2. scrapy 2.3 Scrapy Shell
3. scrapy 2.3 在瀏覽器中打開
4. scrapy 2.3 登錄
scrapy 2.3 蜘蛛合約
1. scrapy 2.3 正在檢測(cè)檢查運(yùn)行
scrapy 2.3 常用做法
1. scrapy 2.3 怎么從腳本中運(yùn)行
2. scrapy 2.3 在同一進(jìn)程中運(yùn)行多個(gè)spider
3. scrapy 2.3 分布式爬行
4. scrapy 2.3 避免被禁止
scrapy 2.3 寬爬行
1. scrapy 2.3 使用權(quán)利
2. scrapy 2.3 增加并發(fā)性
3. scrapy 2.3 增加Twisted IO線程池的最大大小
4. scrapy 2.3 設(shè)置您自己的DNS
5. scrapy 2.3 降低日志級(jí)別
6. scrapy 2.3 禁用Cookie
7. scrapy 2.3 禁用重試
8. scrapy 2.3 減少下載超時(shí)
9. scrapy 2.3 禁用重定向
10. scrapy 2.3 啟用“Ajax可爬行頁(yè)”的爬行
11. scrapy 2.3 按BFO順序爬行
12. scrapy 2.3 注意內(nèi)存泄漏
13. scrapy 2.3 安裝一個(gè)特殊的扭曲反應(yīng)器
scrapy 2.3 使用瀏覽器的開發(fā)人員工具進(jìn)行抓取
1. scrapy 2.3 檢查實(shí)時(shí)瀏覽器DOM時(shí)的注意事項(xiàng)
2. scrapy 2.3 查看網(wǎng)站
3. scrapy 2.3 網(wǎng)絡(luò)工具
scrapy 2.3 選擇動(dòng)態(tài)加載的內(nèi)容
1. scrapy 2.3 查找數(shù)據(jù)源
2. scrapy 2.3 檢查網(wǎng)頁(yè)的源代碼
3. scrapy 2.3 復(fù)制請(qǐng)求
4. scrapy 2.3 處理不同的響應(yīng)格式
5. scrapy 2.3 分析javascript代碼
6. scrapy 2.3 預(yù)渲染JavaScript
7. scrapy 2.3 使用無(wú)頭瀏覽器
scrapy 2.3 調(diào)試內(nèi)存泄漏
1. scrapy 2.3 內(nèi)存泄漏的常見原因
2. scrapy 2.3 使用調(diào)試內(nèi)存泄漏 trackref
3. scrapy 2.3 用muppy調(diào)試內(nèi)存泄漏
4. scrapy 2.3 無(wú)泄漏泄漏
scrapy 2.3 下載和處理文件和圖像
1. scrapy 2.3 使用文件管道
2. scrapy 2.3 使用圖像管道
3. scrapy 2.3 啟用媒體管道
4. scrapy 2.3 支持的存儲(chǔ)
5. scrapy 2.3 圖像處理實(shí)例
6. scrapy 2.3 下載處理其他功能
7. scrapy 2.3 擴(kuò)展媒體管道
8. scrapy 2.3 自定義圖像管道示例
scrapy 2.3 如何部署蜘蛛
scrapy 2.3 AutoThrottle擴(kuò)展
scrapy 2.3 標(biāo)桿管理
scrapy 2.3 暫停和恢復(fù)爬行
scrapy 2.3 協(xié)同程序
scrapy 2.3 asyncio

閱讀(1.6k) 書簽贊(0) 我要糾錯(cuò)

scrapy 2.3 AutoThrottle擴(kuò)展

2021-06-17 16:13 更新

這是一個(gè)擴(kuò)展，基于Scrapy服務(wù)器和您正在爬行的網(wǎng)站的負(fù)載，自動(dòng)限制爬行速度。

設(shè)計(jì)目標(biāo)

對(duì)站點(diǎn)更好，而不是使用默認(rèn)的下載延遲為零
自動(dòng)調(diào)整Scrapy到最佳的爬行速度，因此用戶不必調(diào)整下載延遲來(lái)找到最佳的。用戶只需要指定它允許的最大并發(fā)請(qǐng)求，其余的由擴(kuò)展來(lái)完成。

它是如何工作的

AutoThrottle 擴(kuò)展動(dòng)態(tài)調(diào)整下載延遲，使蜘蛛發(fā)送 ?AUTOTHROTTLE_TARGET_CONCURRENCY? 平均每個(gè)遠(yuǎn)程網(wǎng)站的并發(fā)請(qǐng)求。

它使用下載延遲來(lái)計(jì)算延遲。主要思想如下：如果服務(wù)器需要 ?latency? 響應(yīng)時(shí)間為秒，客戶端應(yīng)每秒鐘發(fā)送一個(gè)請(qǐng)求 ?latency/N? 秒有 ?N? 并行處理的請(qǐng)求。

不需要調(diào)整延遲，只需設(shè)置一個(gè)小的固定下載延遲，并對(duì)使用 ?CONCURRENT_REQUESTS_PER_DOMAIN? 或 ?CONCURRENT_REQUESTS_PER_IP? 選項(xiàng)。它會(huì)產(chǎn)生類似的效果，但有一些重要的區(qū)別：

因?yàn)橄螺d延遲很小，偶爾會(huì)有突發(fā)的請(qǐng)求；
通常，非200（錯(cuò)誤）響應(yīng)的返回速度比常規(guī)響應(yīng)快，因此，只要有一個(gè)較小的下載延遲和硬并發(fā)限制，當(dāng)服務(wù)器開始返回錯(cuò)誤時(shí)，爬蟲程序?qū)⒏斓叵蚍?wù)器發(fā)送請(qǐng)求。但這與爬蟲應(yīng)該做的相反——如果出現(xiàn)錯(cuò)誤，放慢速度更有意義：這些錯(cuò)誤可能是由高請(qǐng)求率引起的。

AutoThrottle 沒有這些問題。

節(jié)流算法

AutoThrottle 算法根據(jù)以下規(guī)則調(diào)整下載延遲：

蜘蛛總是以下載延遲開始 ?AUTOTHROTTLE_START_DELAY? ；
當(dāng)收到響應(yīng)時(shí)，目標(biāo)下載延遲計(jì)算為 ?latency / N? 在哪里？ ?latency? 是響應(yīng)的延遲，并且 ?N? 是 ?AUTOTHROTTLE_TARGET_CONCURRENCY? .
下一個(gè)請(qǐng)求的下載延遲設(shè)置為上一個(gè)下載延遲和目標(biāo)下載延遲的平均值；
不允許非200響應(yīng)的延遲減少延遲；
下載延遲不能小于 ?DOWNLOAD_DELAY? 或大于 ?AUTOTHROTTLE_MAX_DELAY?

注解

autothrottle擴(kuò)展支持并發(fā)和延遲的標(biāo)準(zhǔn) Scrapy 設(shè)置。這意味著它將尊重 ?CONCURRENT_REQUESTS_PER_DOMAIN? 和 ?CONCURRENT_REQUESTS_PER_IP? 選項(xiàng)，并且從不將下載延遲設(shè)置為低于 ?DOWNLOAD_DELAY? .

在scrappy中，下載延遲是以建立TCP連接和接收HTTP頭之間所經(jīng)過的時(shí)間來(lái)度量的。

注意，在一個(gè)合作的多任務(wù)環(huán)境中，這些延遲很難精確測(cè)量，因?yàn)閟crapy可能正忙于處理spider回調(diào)，例如，無(wú)法參加下載。然而，這些延遲仍然應(yīng)該對(duì)Scrapy（最終是服務(wù)器）有多忙給出一個(gè)合理的估計(jì)，并且這個(gè)擴(kuò)展是在這個(gè)前提下構(gòu)建的。

設(shè)置

用于控制 AutoThrottle 擴(kuò)展的設(shè)置為：

?AUTOTHROTTLE_ENABLED?
?AUTOTHROTTLE_START_DELAY?
?AUTOTHROTTLE_MAX_DELAY?
?AUTOTHROTTLE_TARGET_CONCURRENCY?
?AUTOTHROTTLE_DEBUG?
?CONCURRENT_REQUESTS_PER_DOMAIN?
?CONCURRENT_REQUESTS_PER_IP?
?DOWNLOAD_DELAY?

有關(guān)詳細(xì)信息，請(qǐng)參閱它是如何工作的 .

AUTOTHROTTLE_ENABLED

違約： ?False?

啟用AutoThrottle 擴(kuò)展。

AUTOTHROTTLE_START_DELAY

違約： ?5.0?

初始下載延遲（秒）。

AUTOTHROTTLE_MAX_DELAY

違約： ?60.0?

在高延遲情況下設(shè)置的最大下載延遲（秒）。

AUTOTHROTTLE_TARGET_CONCURRENCY

違約： ?1.0?

Scrapy的平均請(qǐng)求數(shù)應(yīng)與遠(yuǎn)程網(wǎng)站并行發(fā)送。

默認(rèn)情況下，autothrottle會(huì)調(diào)整延遲以向每個(gè)遠(yuǎn)程網(wǎng)站發(fā)送單個(gè)并發(fā)請(qǐng)求。將此選項(xiàng)設(shè)置為更高的值（例如 ?2.0? ）以增加遠(yuǎn)程服務(wù)器的吞吐量和負(fù)載。下層 ?AUTOTHROTTLE_TARGET_CONCURRENCY? 價(jià)值（例如） ?0.5? ）讓爬蟲人更加保守和禮貌。

注意 ?CONCURRENT_REQUESTS_PER_DOMAIN? 和 ?CONCURRENT_REQUESTS_PER_IP? 啟用 AutoThrottle 擴(kuò)展功能時(shí)，仍會(huì)遵循選項(xiàng)。這意味著如果 ?AUTOTHROTTLE_TARGET_CONCURRENCY? 設(shè)置為大于的值 ?CONCURRENT_REQUESTS_PER_DOMAIN? 或 ?CONCURRENT_REQUESTS_PER_IP? ，爬蟲程序?qū)o(wú)法達(dá)到此數(shù)量的并發(fā)請(qǐng)求。

在每個(gè)給定的時(shí)間點(diǎn)上，scrapy可以發(fā)送的并發(fā)請(qǐng)求多于或少于 ?AUTOTHROTTLE_TARGET_CONCURRENCY? ；這是爬蟲嘗試接近的建議值，而不是硬限制。

AUTOTHROTTLE_DEBUG

違約： ?False?

啟用 AutoThrottle 調(diào)試模式，該模式將顯示收到的每個(gè)響應(yīng)的統(tǒng)計(jì)信息，以便您可以看到如何實(shí)時(shí)調(diào)整節(jié)流參數(shù)。

以上內(nèi)容是否對(duì)您有幫助：

← scrapy 2.3 如何部署蜘蛛

scrapy 2.3 標(biāo)桿管理 →

寫筆記

我要補(bǔ)充