普通的爬虫程序或web库(例如scratch/urllib/requests)无法实现此功能,因为它们所做的与您使用thunderbolt等下载工具下载web文本时所做的没有区别。为了实现对后续网页的访问,通常有两种解决方案。
1.自动控制浏览器访问。这里的浏览器可以是普通浏览器,也可以是资源较少的无窗口浏览器,主要是因为浏览器有解析js脚本的功能,可以跳转。一般来说,实现方案是使用selenium防火墙或seleniumphantomjs。许多教程可以在网上找到。它的使用相对简单,但占用更多的资源。
2.截获请求或反向获取网站前端代码,找到请求链接和格式从服务器获取试卷代码,并模拟获取试卷。
有很多技术可以算出,但大多数网站不具备这种技术能力。
使用python模仿者访问网站,我认为主要有以下几个方面:
以上是python爬虫和浏览器的区别,我认为这是不完整的。我希望你能给我一些建议
首先,我们需要弄清楚,我们能看到的所有网页,无论是文字、图片还是动画,都用html标记,然后浏览器会把它放进浏览器如果我们想成为一个网络爬虫,那么我们的爬虫就没有视觉,只有逻辑。在爬虫的眼中,只有html标记。其他样式在爬虫的眼中是浮云,所以爬虫实际上是在读取html标记(这里涉及的一个知识点是,要获取html标记,我们需要使用一个名为request的库),通过networkrequest获取html元素),然后从html标记中提取您想要的内容。这是一个网络爬虫。逻辑就这么简单。如果您有使用python的经验,建议您使用crawler框架scratch