scrapy 2.3 項(xiàng)目管道

2021-06-08 14:15 更新

在一個(gè)項(xiàng)目被蜘蛛抓取之后,它被發(fā)送到項(xiàng)目管道,該管道通過幾個(gè)按順序執(zhí)行的組件來處理它。

每個(gè)項(xiàng)管道組件(有時(shí)稱為“項(xiàng)管道”)都是一個(gè)實(shí)現(xiàn)簡(jiǎn)單方法的Python類。它們接收一個(gè)項(xiàng)目并對(duì)其執(zhí)行操作,還決定該項(xiàng)目是否應(yīng)繼續(xù)通過管道,或者是否應(yīng)刪除并不再處理。

項(xiàng)目管道的典型用途有:

  • 清理HTML數(shù)據(jù)
  • 驗(yàn)證抓取的數(shù)據(jù)(檢查項(xiàng)目是否包含某些字段)
  • 檢查重復(fù)項(xiàng)(并刪除它們)
  • 將爬取的項(xiàng)目存儲(chǔ)在數(shù)據(jù)庫中


以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)