网络爬虫(英语:webcrawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。
简单来说,网络爬虫就是一种程序,当我们搜索引擎信息时,这个程序可以帮助我们建立相关的数据库,我们可以轻松寻找到想要的资料。网络爬虫可以帮助我们更快速,高效的工作学习,建立数据库,找到有用的信息。
首先以我个人的自学经历来说,兴趣是第一位,你要确定你是否对编程十分热爱,如果你足够热爱,那么一切困难都变得没有意义。
其次,我个人觉得网上免费的视频教程非常多,可以下载一两部看看,不要多,但是我觉得看视频自学的人都是非常有自制力的,不然你会听着睡着。
那么我把我的自学方法讲一下:读书,选一两本好的python基础教程书去入门,认认真真读,认认真真做笔记,把书上的每一个案例自己动手都多敲几次,并且搞清楚其中的道理,之后完完整整去做一个项目,比如你喜欢做网站,那么python基础学完,去学学框架。
推荐的基本入门书:python编程从入门到实践【强烈推荐】,python快速上手让繁琐工作自动化【强烈推荐】我基本上就是读这两本书入门,并且进入实战,把这两本书弄精,弄透,已经具备了自学的能力了,可以去看一些更高级的东西。
其实python非常适合初学者入门。相比较其他不少主流编程语言,有更好的可读性,因此上手相对容易。自带的各种模块加上丰富的第三方模块,免去了很多“重复造轮子”的工作,可以更快地写出东西。配置开发环境也不是很复杂,mac和linux都内置了python。
如果想学习python的话,最重要的是有一套比较好的学习教程,可以提高学习效率。可以按照黑马程序员总结的这一套学习路线图来学习。
一、python入门
首先要入门,了解python都有哪些知识点。
以上的知识点可以按照这个教程来学习:http://pan.baidu.com/s/1miwz1ww
学完这些知识点,基本就可以入门教程。最后的飞机大战项目很实用,通过使用学习过的基础知识开发出这个经典的游戏,会大大提升你学习的信心!
然后在学习一下,8天深入理解python教程:http://pan.baidu.com/s/1kvnmoar
此教程,让你对python有更深入的理解!
接下来可以学习一些框架,比如scrapy,django
scrapy视频教程:http://pan.baidu.com/s/1df3qhfv
django框架教程:http://pan.baidu.com/s/1nvflfu5
首先我们要清晰一点是,所有的网页我们能看到的不管是文字还是图片还是动画,都是以html标记的,然后浏览器把这些标记可视化的美观的展示给我们,如果我们要做网络爬虫,那么我们的爬虫是没有视觉的,只有逻辑,在爬虫眼里只有html标签,其他的样式在爬虫眼里都是浮云,所以爬虫其实就是读取html标签(这里涉及一个知识点就是要能得到html标签,需要用到一个库是request库,通过网络请求拿到html元素),然后把html标签中自己想要的东西给提取出来,这个就是一个网络爬虫了。逻辑就这么简单。如果有python使用经验的,建议使用爬虫框架scrapy