谷歌搜索引擎入口 023dir(谷歌g363搜索)

spider_178_383 · 发表于 2023-9-13 17:08:39

有些时候我们需要

 构建一个自己的数据集

来训练模型。但是，却苦于没有大量的数据，此时就需要去

 谷歌

、

 百度

、

 必应

搜索引擎上去爬取一些图片作为自己的数据集。

很自然的，我们就会想到写一个爬虫的程序去爬取图片，然后就开始学习

 scrapy

、

 Beautiful Soup

、

 Selenium

，除此之外还需要学习一些

 HTML

和

 JS

来解析网页获取我们想要的数据。这样看起来，好像点复杂。毕竟我们只是想爬取点图片，为什么要搞的如此复杂。


 icrawler

就可以帮我们轻松解决这些问题，不需要去学习其他的库了，甚至连解析网页这样的工作也不需要我们做。

官网教程：https://icrawler.readthedocs.io/en/latest/


 icrawler

是一个mini的web爬虫框架，按照模块化的设计标准，我们能够很容易的去使用和继承它，支持图片、视频以及文本等信息的爬取。相对于功能强大的scrapy来说，icrawer要轻便小很多。icrawler也提供了很好的多线程、异常处理和线程调度的支持，提供了抓取搜索引擎网站(谷歌、百度、必应)上的图片的内置方法。

python版本：2.7+或3.4+


我们将通过示例来介绍，如何通过icrawler从百度上抓取图片，对于从必应和谷歌上抓取图片的方式类似，就不重复介绍了。

在从搜索引擎上爬取图片的过程中会从控制台输出一些信息


从百度爬取到的图片


有些图片肯定是不符合要求的，后续大家可以根据自己的要求做一下后处理工作，将部分图片剔除。


 爬取图片参数设置


在下载图片的时候，我们可以设置参数来过滤一些图片，还可以设置线程数来加快下载速度


不同的搜索引擎能够设置的参数会有一些差别，在调用crawl方法的时候我们可以设置filters参数设置下载图片的过滤条件，如上图红色方框中的参数。



 GoogleImageCrawler：




 BingImageCrawler：



 BaiduImageCrawler


如果需要爬取Google或者一些海外网站的数据，需要设置代理，icrawler提供了两种不同代理的设置方式，BaiduImageCrawler类继承了Crawler类，如果想要设置代理我们只需要重新set_proxy_pool方法

上面的程序会自动扫描10个有效代理，然后去请求网页下载图片数据

我们可以根据自己对于代理扫描的需求来自定义代理扫描函数

每次请求会从proxy_pool中获取一个代理然后发起请求，每个代理都会有一个proxy_weight参数，proxy_weight参数的取值范围在0到1之间，扫描程序会根据成功和失败的次数来增加或减少proxy_weight的大小，proxy_weight值越大，被选中的机会越大。

我们可以根据BaiduImageCrawler的结构来自定义一个类，爬取网站的数据，官网有详细介绍，这里就不说明了。

zFSW0633848 · 发表于 2023-12-22 23:38:40

好帖，来顶下

LF3aQ937468 · 发表于 2023-12-23 20:48:06

我是个凑数的。。。

vnU0s668222 · 发表于 2023-12-23 21:30:08

路过，支持一下啦

ZZyLo315788 · 发表于 2024-1-23 02:03:49

有点意思，谢谢楼主的无私分享！！！

zkEMZ250685 · 发表于 2024-1-23 02:03:50

不错，支持下楼主

CkWAo989782 · 发表于 2024-1-23 02:04:23

有竞争才有进步嘛

Iraon616854 · 发表于 2024-3-23 06:55:26

找到好贴不容易，兄弟们，顶起！

Tfr26702992 · 发表于 2024-3-23 07:02:10

不错不错，楼主您辛苦了。。。

txxKe908815 · 发表于 2024-4-18 13:52:32

这真是不错，顶给需要的人

谷歌搜索引擎入口 023dir(谷歌g363搜索)

浏览过的版块