网络爬虫——用Python爬取新浪新闻材料

  • 2023-02-26
  • John Dowson

  沉寂多年的琶洲宅地市场,终于“上新”了。   下周一(10月26日),广州将卖2宗商住、商业地,总起拍价371689万元。其中广州“明星板块”琶洲,推出新港东路2437号AH041405宅地,地块起始价本站

网络爬虫——用Python爬取新浪新闻材料本站

  最近一个星期都在学习网络爬虫,秉着有学习输入就要有学习输出(学以致用)的原则,把整个学习过程记录下来,并分享给大家。

  我是在Windows系统下用Python的Anaconda集成开发环境实现网络爬取新浪新闻项目。用Anaconda实现网络爬虫有如下几个好处:第一,该软件是免费的;第二,该集成开发环境已经具备网络爬虫所需的库,不需要我们安装第三方库。下载谷歌浏览器的一个第三方插件SelectorGadget,主要是用来辅助定位网页元素的位置以及查找出各网页元素的共同规律。具体用法可以上网搜索。

  一个轻量级的网络爬虫项目,应该具备如下两个步骤。第一,获取网页上的目标链接(URL);第二,目标网页解析,从网页中提取我们所需要的数据。

  在敲击键盘编写代码实现爬虫项目的过程中,主要用到Python中三个第三方库——requests 、BeautifulSoup和json以及用于存储数据的pandas库。requests库主要用途获取目标网页的内容,爬虫过程中主要用到它的get方法,接受参数URL,就返回一个包含目标内容的Response对象。详细用法请参考requests库的中文文档。链接如下:/zh_CN/latest/user/quickstart.html

  json库主要用来从网页中提取json格式的数据。json格式数据转换后,变成Python的字典。

  1、今天我要爬取的网页是新浪新闻国内新闻的最新消息一栏,先打开新浪新闻国内新闻网页,如下图所示:

  2、然后在网页空白地方点击右键,选择“检查”,然后选择‘element’选项卡,利用谷歌浏览器插件SelectorGadget,点击各新闻标题,寻找各新闻标题元素的位置。找到各新闻标题元素的位置后,寻找共同规律。我发现这些新闻标题的位置均在属性class=“newsitem”,并且这些新闻标题的链接都存储在标签a中href属性。具体代码如下:

  3、获取目标网页链接列表后,对每个链接的网页进行解析,从中提取目标新闻网页的的数据,包括标题、时间、来源、编辑者、文章内容,评论数、关键词。具体实现代码如下;

  上面只是一个网页的,因为一个新闻网页肯定有许多页,需要翻页看,如果想获取不同分页下的网页链接,就要重新编写代码,具体代码:

  这只是一个简单的网络爬虫,后面还有更多的内容需要学习,我也会把自己学到的最新的网络爬虫知识分享给大家。希望大家继续保持关注,也希望大家积极留言指出我的错误,教学相长。

本站 在生活中,女人之所以喜欢一个男人,多半是因为这个男人身上有女人真心欣赏或渴望得到的东西,如男人会心疼人,能够给女人关爱与照顾,抑或,男人有着良好的生活条件,能够给女人更好的物质、精神生活。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

评论留言

发表评论