话题 首页 > Python2 教程 > Python2 教程话题列表 > 详情

Python爬虫具体应该怎么使用?

精华
renyuanzhou 2016-10-21 11:14:37 浏览(14083) 回复(10) 赞(1)
刚好编程,经常在各个地方看到Python爬虫这个概念,但是不这个到底什么原理,怎么使用?求大神指点一二。
python

回答(10)

TimberSwift 2016-10-21

爬虫是利用互联网超链接的技术产生的数据爬取的工具(就是用来“抄”网站的资源)

python和爬虫是不能混为一谈的,大家经常提python爬虫的原因是有成熟的基于python实现的爬虫框架。 爬虫的原因有多种,最普通的是深搜广搜:

深搜就是先把第一个链走到头,再回溯走支路;

广搜就是先把第一层都遍历一遍,再遍历第二层......

LIGHT 2017-02-23

1.首先,什么时候我们需要爬虫呢?

当我们需要某网站上的海量数据的时候,会发现,如果人工去把几百页,每页几十条到几百条的数据一条一条地复制下来,就太费时费力了,甚至根本就不可能。但是你做研究却需要这样的大量数据的支持。这个时候就可以用到爬虫了。

2.爬虫是什么原理呢?

爬虫我也给不出精确的定义,按照我自己的理解,爬虫就是让电脑程序模仿人去网页上查询信息的过程,来帮助人们自动地迅速地获取网页信息的一个技术。常用的方法就是让电脑程序去扫描网页的源代码,按照你的指示去寻找对应的内容(比如你需要所有标签p的内容,或者你需要某个class的内容)。爬虫时还经常涉及翻页,那你也需要去翻看网页源代码,找到各个页的网址的关系(通常网址的前面都是一样的,就是后面的一个数字在不断递增),然后告诉程序按照这样的规律去爬所有的页面。这样每一页的所有你需要的内容就到手了。

我个人觉得爬虫最耗时的过程倒是不写代码,而是分析网页源代码的HTML结构,找到你需要的内容对应的精确的标签。这样你的爬虫程序才能有的放矢地迅速获取你想要的内容。

3.用什么去爬虫?

我个人也是个菜鸟,对于我这个菜鸟来说,Python简直就是简单好用让人感动!而且我用PyCharm的IDE自带很多工具包,我写爬虫就用BeautifulSoup包,十分的简单,爬一般的网站的文本数据,10-20行代码肯定没问题。你可以去了解一下BeautifulSoup,相信学起来很有趣味的!嘻嘻~~

祝你学得开心~欢迎互相交流哦!

Silence广 2018-01-20

当我们需要某网站上的海量数据的时候,会发现,如果人工去把几百页,每页几十条到几百条的数据一条一条地复制下来,就太费时费力了,甚至根本就不可能。但是你做研究却需要这样的大量数据的支持。这个时候就可以用到爬虫了。

爬虫能爬视频、音频数据吗?如何实现呢

一笔荒芜 2018-05-31

刚学习程序,过来学习学习!!!!...

1144100656 2018-05-31

这个问题我也不清楚,等大佬来解决吧。。

1152696398 2018-05-31

刚学习程序,过来学习学习!!!!...

404leader 2018-12-22

刚开始学习,很希望做好爬虫

Hoang6689 2019-01-01

比如我要写一篇论文吧,刚好某个网站有大量我需要的资源,而且那个网站数据量很大,我总不能花时间一篇一篇的去找吧,那样需要花费大量的时间,我也没那么多精力。需求数据、获取数据、分析数据、提取有用数据。

码友1526043 2019-10-22

刚开始学习,很希望做好爬虫

要回复,请先登录 或者注册