问题:使用访问不全,如京东商品页等 。
方法:考虑网址是异步加载,使用+,模拟浏览器打开网址
问题:网站需要手机号接受登录
方法:尝试其他登陆方法,最好可以跳转使用微博登录 , 依然使用
问题:网页的结构混乱,爬取过程经常出现错误
【你在写爬虫时碰到的问题和解决方法】方法:使用try语句,或者进入手机浏览器,搜索该网站,查看是否有手机端的网页,复制url,手机端网页代码一般较为统一,错误较少,而且反爬虫较弱 。另外有的网页在电脑端需要登录,在手机端不需要登录 。
问题:滑块验证码打开网页http500错误,网上拖动教程过不了
方法:拖动过程需要模拟人工拖动 , 先快后慢打开网页http500错误,上下抖动 , 而且注意速度不要太慢,拖动距离要尽量准确一些 。
问题:限制爬取频率
方法:使用库和库时 , 考虑使用代理ip 。使用时,出现异常时 , 尝试点击网页中存在的元素,通过验证,即可继续爬取 。
本文到此结束,希望对大家有所帮助!
猜你喜欢
- 如果商家不支持用花呗付款怎么办?其实支付宝还有“当面花”
- 微信分付即将上线,它能是支付宝“花呗”的对手吗?
- 户主是父亲,房子的名字是儿子的,母亲去世了,父亲又和别人结婚了
- 一文教你开机密码,BIOS密码设置和密码破解
- 校园市场成金融化新场景,理财产品如何介入?
- 各省市区实力排名前五的高校,总有一所是你的菜!
- 8月计算机科学ESI指数揭晓:清华进入世界前十,东大西电紧随其后
- 为什么每年有大量的俄罗斯、乌克兰女性南下中国工作?
- 亲属间房产过户你所不知的秘密?
