• 找新知
  • 找课程
  • 找服务/产品
  • 找LIVE
  • 找活动
  • 找新知号/店
新知一下
海量新知
1 5 9 7 8 5 4

不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

Python爬虫 | 专注于python爬虫 2020/03/20 21:00

前言

已经好几天没写原创了,这些天主要是在学习一些新的知识,所以没时间去写文。前几天发现了一个比较有用的谷歌插件,大家看标题也许已经知道它有啥用了。下面给大家介绍一下这款插件的用法,文末也提供了下载链接。

使用

首先简单介绍一下是个啥插件:

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

如图所示

确保安装成功插件后,我们就可以愉快的玩耍了。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

第一步,打开熟悉的开发者工具。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

可以看到,最右边多了一个webscrapyer的选项栏。

找到地方后,我们找个网站来爬爬。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

https://www.runoob.com/w3cnote

接下来怎么做呢?

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

点击

Create Sitemap

创建一个项目。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

填写相关信息,在开始url那个框里,可能大家注意到后面加了个

[1-10:1]

这代表着我要爬取前十页的数据。这里也是对url进行了一个简单的分析。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

创建完成,增加一个选择器。

由于,我这里只是简单的给大家操作一下怎么爬取,所以我这里就爬取前十篇文章中的标题,插件了也有很多的爬取方式,大家可以试一试。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

首先我们锁定外面的红框

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

大家按照我的图片上操作,选择自己要爬取的元素。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

保存之后

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

点击id,进行下一步选定爬取元素。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

选定标题后,记得选择父节点,保存。

完事之后,我们就可以愉快的运行了!

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

点击爬取。等待它自动爬取。

新知图谱, 不用一行代码,就写了个爬虫!这款谷歌插件已经打包好了!

过一小会就可以看到数据了,

数据支持导出!

总结

这个插件对于一些简单的静态爬虫还是处理的很不错的。不用写一行代码,可以节省我们的时间,直接点几下鼠标就能写个简单的爬虫,所以推荐给大家。


相关推荐

更多“插件”相关内容

新知精选