您的位置: 小萌情感小站 > 人物

python十行代码爬取豆瓣网电影

2019-09-11来源:小萌情感小站

python十行代码爬取豆瓣网电影


这次小编直接上教程,坚持看下去~~





采集豆瓣豆瓣电影top 250

第一步:先进行分析

打开网址:

https://movie.douban.com/top250?start=0&filter=

鼠标右键点击检查:




我们要获取的数据是:










要获取的就是排名,缩略图, 电影名称 ,外加一个评分

打开Pycharm 的ide 新建一个文件:

(没有装这个IDE的同学可以用python自带的IDE--->新建文本文档,后缀名改为.py就可以啦)



导入用到库名称

requests是用来网站请求,pyquery用来作为选择器。

请求网址源码:

url = "https://movie.douban.com/top250?start=0&filter="
html = requests.get(url).text

requests获取到一个页面的源代码,然后需要用pq进行选择器选择pq(html)('.item').items(),进行迭代,

for item in pq(html)('.item').items():
print(item)

再次对item选择出 title num star img

最后一步,现在是请求的一个页面,咱们要请求的所有的页面:

https://movie.douban.com/top250?start=0
https://movie.douban.com/top250?start=25
https://movie.douban.com/top250?start=50
https://movie.douban.com/top250?start=75
https://movie.douban.com/top250?start=100
https://movie.douban.com/top250?start=125
https://movie.douban.com/top250?start=150
https://movie.douban.com/top250?start=175
https://movie.douban.com/top250?start=200
https://movie.douban.com/top250?start=225
找个规律 从零开始 到 225结束,而且步长是 25.大家很容易想到 range(初始值,结束值,步长)
所以就可以构造<code>url</code>了
for page_num in range(0, 250 ,25):
url = 'https://movie.douban.com/top250?start={}'.format(page_num)
print(url)



完整代码:!!!!!!!!!!!




关注继续学习

本文由小萌情感小站整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。

相关阅读