Bryan's Notes for Big Data & Career: [Python][教學] 網路爬蟲（crawler）實務（下）--爬蟲策略以及設定

2014年12月29日星期一

[Python][教學] 網路爬蟲（crawler）實務（下）--爬蟲策略以及設定

在知道目標之後，接著就要決定如何達成。網路爬蟲的概念很簡單，就是進入網頁之後，將網站中的原始碼擷取下來，透過Xpath或是Html節點的方式來找到目標字串。根據上次[Python][教學] 網路爬蟲（crawler）實務（上）--網頁元件解析分析的內容，我們的爬網策略大致上會是：

進入搜尋頁面>找到店家網址>進入店家頁面>擷取資料

根據這樣的流程，將他拆解成更符合爬蟲程式的邏輯：

進入搜尋頁面
搜尋頁面有多個頁面，透過參數一次抓取n個搜尋頁面(搜尋網頁數n)
從搜尋頁面中解析出店家的網址，每頁有m個店家網址(店家網頁數m)
進入店家網址，解析出需要用的資訊(搜尋網頁數=n * m)

廢話不多說直接看code：

這次的爬網流程雖然簡單，但是還是有幾個要注意的地方：

time.sleep: 這次總共抓了n * m 個網頁，短時間的大量抓取會消耗網站資源，影響網站運行，所以通常有品的爬網者會設定睡眠時間，避免造成對方主機的負擔
try except: 當需要自動抓大量欄位時，一定要考慮或是注意到你要抓的欄位可能不是每個頁面都有提供，所以要加上例外處理才能避免錯誤而跳出程式
更為普遍的xpath設定: 如果只抓一兩個頁面，xpath要怎樣設都可以，也可以很簡單的利用數數的方式去取得標籤。但是如果要抓大量網頁，每個網頁的每個節點的數量可能會不一樣，最好多看幾個網頁原始碼，找到每個標籤在結構上的固定位置，避免抓錯欄位。

24 則留言:

Running Man2015年2月10日晚上11:08
你好我是teddy 請問你第13行的 str(i+1)，是做什麼用的?
當作變數來翻頁嗎?
回覆刪除
回覆
Ken的網誌2015年3月14日下午3:54
請問你的程式是怎麼Run的，比如說要爬一個網站的載點網址伊莉討論區-->電影下載區-->玩命關頭-->把網站載點爬下來是這樣嗎?
還有可不可以把你程式附註解然後寄給我，因為才剛開始學PYTHON，不知道行不行，如果不行就不用麻煩了，謝謝。
回覆刪除
回覆
Ken的網誌2015年3月14日下午3:55
作者已經移除這則留言。
回覆刪除
回覆
Bryan Yang2015年3月15日晚上11:21
方便留下錯誤訊息嗎？我這邊程式沒有錯誤喔
回覆刪除
回覆
Ken的網誌2015年3月19日晚上11:27
以解決了，不好意思，另外我想跟您請教一下該如何用PYTHON下載種子載點到指定目錄下(目前卡在怎樣丟到指定目錄下)
回覆刪除
回覆
jj2015年5月19日凌晨12:14
shop = header.h1.string.strip()
請問為何這行會有錯誤
ttributeError: 'NoneType' object has no attribute 'h1'

初學python問題比較淺感謝Bryan 大大指教
回覆刪除
回覆
Running Man2016年1月15日下午4:19
作者已經移除這則留言。
回覆刪除
回覆
Running Man2016年1月16日下午4:00
你好想跟你詢問第19行的程式碼 -> [tag['href'] 這是什麼意思?

ps 超愛你的程式碼簡單好懂!
回覆刪除
回覆
匿名2016年4月11日中午12:26
謝謝版大！
回覆刪除
回覆

新增留言

2014年12月29日 星期一

[Python][教學] 網路爬蟲（crawler）實務（下）--爬蟲策略以及設定

24 則留言:

2014年12月29日星期一