1.初識(shí)爬蟲:什么是爬蟲、爬蟲的工作流程 2.抓包分析:charles 及 fiddler的使用 3.獲取內(nèi)容:urllib、urllib3、requests等庫(kù)的使用 4.HTML解析:正則表達(dá)式、beautifulsoup4 5.數(shù)據(jù)保存:保存為文件、保存進(jìn)數(shù)據(jù)庫(kù) 6.基礎(chǔ)爬蟲實(shí)戰(zhàn):url 管理器、html 下載器、html 解析器、數(shù)據(jù)存儲(chǔ)器、爬蟲調(diào)度器 7.反爬與突破反爬蟲:設(shè)置 ip 代理、驗(yàn)證碼、動(dòng)態(tài)渲染等 8.selenium 框架 |