伍佰目录 短网址
  当前位置:海洋目录网 » 站长资讯 » 站长资讯 » 文章详细 订阅RssFeed

当年pass到很多扒手的题

来源:本站原创 浏览:108次 时间:2022-10-08
经典的爬虫面试题

网站:http://datamining.comratings.com/exam

如何抓取10个ip,这题很经典,当时淘汰了很多扒手,去年我也搞了很久。

在这里插入图片描述

先查看网页源代码,啥也没有

 <iframe src="/exam2" frameborder="no" width="750" height="500"></iframe>

看不懂就抓包

在这里插入图片描述

可以看到经过了2次请求,最后在http://datamining.comratings.com/exam3中得到数据,现在注意resquesr中的hearder传入的参数

那就先请求一次,第二次带上hearders

在这里插入图片描述

去掉hearders中的参数

在这里插入图片描述

有经验的人就知道cookie是重要参数

思路
  • 分析cookie 的三个值怎么来

  • 用seesion来保存cookie

  • cookie中有一个值是session,说明了用session访问时,必须拿到session的值

  • 将cookie搞定,访问最后的链接http://datamining.comratings.com/exam3

在这里插入图片描述
就是三个值而已,到底从哪里来的,摆明就是js生成的,那赶紧找第一次的js


在这里插入图片描述

复制js

在这个http://tool.oschina.net/codeformat/js/ 网站js格式化

在这里插入图片描述

在控制台运行一下,就是返回一样的页面

在这里插入图片描述
之后下一次请求在抓包没有发现js,而且cookies已经生成


在这里插入图片描述
  • 神坑:这里的js还要需要html渲染

那就写个html 将上面js直接渲染,看看发生了啥?

在这里插入图片描述

果然不出我料,这个cookies生成的js终于找到了

在这里插入图片描述

格式化,将之前的js 替换

在这里插入图片描述

两张图片连在一起

在这里插入图片描述
  • 难点:将js用python复写

补充下JavaScript charAt() 方法

将这个js函数用python改写

在这里插入图片描述

将js中的变量复到python文件中,调用自己写的f1

在这里插入图片描述

测试,输出了c2的值

在这里插入图片描述

现在问题转成了怎么搞定session

  • debug搞定

用debug看下r.cookies 中的seesion位置

在这里插入图片描述在这里插入图片描述

还要正则处理将session匹对出来

在这里插入图片描述

再看下js,这个c1和c2怎么来的,具体调用了什么方法

在这里插入图片描述

不就是取前面几个切片,再调用f1函数

在这里插入图片描述

将参数传入,搞定

在这里插入图片描述

我终于看到了数字ip了

说明下:现在网站访问不了,好像被封了,所以代码不提供。



最后,祝有所学习,有所成长



转发,好看支持一下,感谢


你的转发,就是对我最大的支持


  推荐站点

  • At-lib分类目录At-lib分类目录

    At-lib网站分类目录汇集全国所有高质量网站,是中国权威的中文网站分类目录,给站长提供免费网址目录提交收录和推荐最新最全的优秀网站大全是名站导航之家

    www.at-lib.cn
  • 中国链接目录中国链接目录

    中国链接目录简称链接目录,是收录优秀网站和淘宝网店的网站分类目录,为您提供优质的网址导航服务,也是网店进行收录推广,站长免费推广网站、加快百度收录、增加友情链接和网站外链的平台。

    www.cnlink.org
  • 35目录网35目录网

    35目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向35目录推荐、提交优秀网站。

    www.35mulu.com
  • 就要爱网站目录就要爱网站目录

    就要爱网站目录,按主题和类别列出网站。所有提交的网站都经过人工审查,确保质量和无垃圾邮件的结果。

    www.912219.com
  • 伍佰目录伍佰目录

    伍佰网站目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向伍佰目录推荐、提交优秀网站。

    www.wbwb.net