python爬蟲 - Python:網(wǎng)頁(yè)爬取Ajax地址,結(jié)果與瀏覽器顯示的不一致?
問(wèn)題描述
1.我用在火狐上獲取的Ajax地址來(lái)爬取統(tǒng)計(jì)局的信息:
獲取的地址如下;
http://data.stats.gov.cn/easy...{'wdcode':'zb','valuecode':'A0201'}]&dfwds=[{'wdcode':'sj','valuecode':'199807'}]
我的理解是地址中包含了兩個(gè)參數(shù):'A0201'和'199807'可以通過(guò)改變著兩個(gè)參數(shù)來(lái)獲取不同表中不同時(shí)間的信息我在瀏覽器中直接輸入地址參數(shù)為'199807'時(shí)顯示結(jié)果為:
參數(shù)為'199907'時(shí)顯示結(jié)果為:
證明應(yīng)該是行得通的
但是當(dāng)我用這個(gè)地址去爬蟲時(shí)爬下來(lái)的結(jié)果卻不是瀏覽器上看到的這些數(shù)據(jù),應(yīng)該是爬取到了別的表里的數(shù)據(jù),但是我的參數(shù)不是已經(jīng)設(shè)置好了嗎?在瀏覽器也證明參數(shù)是有效的,但是為什么就是爬不到這些數(shù)據(jù)?是不是網(wǎng)頁(yè)緩存方面出現(xiàn)了問(wèn)題?應(yīng)該如何解決呢?勞煩大神指教
問(wèn)題解答
回答1:server端可以驗(yàn)證你的cookie從而將你拒之門外,或者返回其他錯(cuò)誤數(shù)據(jù)給你也是可以的,你可以從瀏覽器復(fù)制出來(lái)里偽造cookie,放在請(qǐng)求頭里面。

網(wǎng)公網(wǎng)安備