欢迎访问优讯网!
您当前的位置:首页 > 爱电影

简单的Python爬虫程序实现爬取豆瓣电影排行榜

时间:2019-04-19 13:45:02  来源:优讯网  作者:小卡司  浏览次数:
简单的Python爬虫程序 Python爬虫实现爬取豆瓣电影排行榜  一直以来都对爬虫这个东西很好奇,今天下手试一下做一个简单的小DemoPython爬虫实现爬取豆瓣电影排行榜,借鉴了网上的一些代码,下面来记录一下实现的过程吧!

 
手下我们需要找到想要爬取的网站地址,今天我们的目标就是传说中被无数爬虫洗礼过的豆瓣电影排行榜,我们上网搜一下爬虫加电影排行榜就会发现很多人都是拿豆瓣电影的排行榜作为练手的工具的,今天我们也不例外的选择这一网站的地址来试一试,具体的地址为:http://movie.douban.com/top250/

我们通过查看网页源码的方法先来看一下网站的Dom节点,找到我们今天需要进行爬取的内容相关的区域快,如下图所示:

可以看到我们需要的电影的名字在一个class="title"的Span标签中,而全部的电影排名的内容则放在属性class="grid_view"的ol标签中。

弄明白了这些内容就可以开始分析代码的实现过程了,首先我们需要加载整个页面的内容到BeautifulSoup中,之后开始分析判断查找上面说到的各个标签的内容,最后把电影名字所在的标签的内容给输出出来,因为我们没有做数据库相关的功能,所以直接输出结果就行。源代码简陋这里就不贴代码了,网上一搜一大堆的。运行结果如下图:

另外,本次使用的环境为腾讯云的在线开发平台,关于在线开发平台的内容可以看我的另一篇文章:
强烈推荐超级好用的腾讯云在线开发平台CloudStudio

代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
test_url = 'http://movie.douban.com/top250/'
def download_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}
data = requests.get(url,headers=headers).content
return data
movie_name_list = []
def parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
if movie_list_soup != None:
for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()
movie_name_list.append(movie_name)
next_page = soup.find('span', attrs={'class': 'next'}).find('a')
if next_page:
parse_html(download_page(test_url + next_page['href']))
return movie_name_list
def main():
handle = parse_html(download_page(test_url))
if handle != None:
handle = list(handle)
for ele in handle:
print ele
if __name__ == '__main__':
main()

以上就是关于 简单的Python爬虫程序实现爬取豆瓣电影排行榜 的全部内容了,喜欢的小伙伴别忘了点赞分享一下哦,关注优讯网,优讯有你更精彩!
来顶一下
返回首页
返回首页
推荐资讯
计算机的正确使用姿势 电脑痴如何正确的使用电脑
计算机的正确使用姿势
好用的后台管理的前端框架模版H-ui H-ui框架模版分享
好用的后台管理的前端
微信电脑多开方法 无需辅助电脑版微信双开方法分享
微信电脑多开方法 无
Python实现网站百度主动推送 python实现主动推送网站地图
Python实现网站百度主
相关文章
    无相关信息
栏目更新
栏目热门