運行平臺:Windows Python版本:Python3.6 ide:Sublime Text 其他工具:chrome瀏覽器
- 獲取單頁內容 首先,在Chrome瀏覽器中打開貓眼電影首頁,點擊“榜單”,然后選擇”TOP100榜”,即可查看所需內容。
接下來,我們通過編寫代碼來提取網頁的html內容。
運行結果如下:
- 使用正則表達式提取關鍵信息 在上圖中,我們已經標記了需要提取的內容,下面通過代碼實現這一步驟:
運行結果如下:
- 存儲獲取的電影信息 在獲取電影信息后,我們需要將這些數據保存起來,包括文本信息和電影封面。
保存結果如下:
- 下載TOP100所有電影信息 通過點擊標簽頁,我們發現只是URL發生了變化:
修改main函數以動態改變URL:
至此,我們已經成功獲取了TOP100的電影信息和封面。
以下是普通抓取和多進程抓取的時間對比:
以下是完整代碼:
立即學習“Python免費學習筆記(深入)”;