下载此文档

Python网络爬虫实习报告.doc


文档分类:IT计算机 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
:..Python网络爬虫实****报告在能力与知识结构方面,要求学生应具有扎实的专业和日语语言基础,熟练掌握日语听、说、读、写、译的基本技能;了解日本社会及日本文化等方面的基本知识,熟悉日本国情,具有一定的日本人文知识及运用这些知识与日本人进行交流的能力。Python网络爬虫实****报告)目录HYPERLINK\l"_Toc"一、选题背景 -2-HYPERLINK\l"_Toc"二、爬虫原理 -2-HYPERLINK\l"_Toc"三、爬虫历史和分类 -2-HYPERLINK\l"_Toc"四、常用爬虫框架比较 -5-HYPERLINK\l"_Toc"五、数据爬取实战(豆瓣网爬取电影数据) -6-HYPERLINK\l"_Toc"1分析网页 -6-HYPERLINK\l"_Toc"2爬取数据 -7-HYPERLINK\l"_Toc"3数据整理、转换 -10-HYPERLINK\l"_Toc"4数据保存、展示 -12-HYPERLINK\l"_Toc"5技术难点关键点 -12-HYPERLINK\l"_Toc"六、总结 -14-一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签五、数据爬取实战(豆瓣网爬取电影数据)1分析网页#获取html源代码def__getHtml():data=[]pageNum=1pageSize=0try:while(pageSize<=125):#headers={'User-Agent':'Mozilla/()AppleWebKit/(KHTML,likeGecko)Chrome/',#'Referer':None#注意如果依然不能抓取的话,这里可以设置抓取网站的host#}#opener=()#=[headers]url="https://movie./top250?start="+str(pageSize)+"&filter="+str(pageNum)#data['html%s'%i]=(url).read().decode("utf-8")((url).read().decode("utf-8"))pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取数据def__getData(html):title=[]#电影标题#rating_num=[]#评分range_num=[]#排名#rating_people_num=[]#评价人数movie_author=[]#导演data={}#bs4解析htmlsoup=BeautifulSoup(html,"")("ol",attrs={'class':'grid_view'}).find_all("li"):(("span",class_="title").text)#(("div",class_='star').find("span",class_='rating_num').text)(("div",class_='pic').find("em").text)#spans=("div",class_='star').fi

Python网络爬虫实习报告 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人bai1968104
  • 文件大小156 KB
  • 时间2019-09-05