python爬不同图片分别保存在不同文件夹中的实现

时间：2023-12-16

下面针对该话题给出完整的攻略，包括流程和示例说明。

流程说明

要实现python爬不同图片分别保存在不同文件夹中，大致的流程可以概括为以下几个步骤：

定位需要爬取的目标页面，了解其URL及HTML结构；
使用Python爬虫库（比如requests、BeautifulSoup等），获取目标页面的HTML代码；
从HTML代码中获取所需的图像URL、标题或标签等信息；
分别保存每个图像到不同的文件夹中，需要建立好文件夹目录；
将以上过程封装成一个函数供重复调用使用。

下面通过示例进行演示。

示例说明

示例一：爬取豆瓣电影封面，按照电影名称分类保存

以下示例演示如何从豆瓣电影中爬取电影封面，并按照电影名称分类保存。具体步骤如下：

打开豆瓣电影页面（比如“https://movie.douban.com/chart”），在页面中查找需要爬取的内容，并确定其HTML结构。
编写代码进行页面抓取、信息提取、分类保存等操作。其中，可以使用 requests 和 BeautifulSoup 库，具体代码如下：

import requests
from bs4 import BeautifulSoup
import os

# 网页地址
base_url = 'https://movie.douban.com/chart'
# 请求头信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

# 获取网页HTML代码
res = requests.get(base_url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')

# 查找电影信息
movie_list = soup.select('#content div div table tr')
for movie in movie_list:
    # 获取电影封面图片链接
    img_url = movie.select('.nbg img')[0].get('src')
    # 获取电影名称
    movie_name = movie.select('.pl2 a')[0].text.strip()
    # 保存路径（根据电影名称分类保存）
    save_path = os.path.join('douban_movies', movie_name)
    if not os.path.exists(save_path):
        os.makedirs(save_path)
    # 下载并保存图片
    img_data = requests.get(img_url).content
    with open(os.path.join(save_path, 'cover.jpg'), 'wb') as f:
        f.write(img_data)

以上代码首先使用requests库获取网页HTML代码，并使用BeautifulSoup库对HTML进行解析。通过查找对应元素的结构和属性，我们可以获取每部电影的封面图片链接和电影名称，并将它们保存到相应的变量中。接下来，利用os库来进行文件夹的创建和文件的保存操作。

运行以上代码后，即可在当前路径下生成一个名为douban_movies的文件夹，每部电影将按照其名称在该文件夹下创建一个子文件夹，并将其封面图片保存至该子文件夹下。

示例二：爬取Unsplash网站上的高清壁纸，按照标签分类保存

以下示例演示如何从Unsplash上爬取高清壁纸，并按照标签分类保存。具体步骤如下：

打开Unsplash页面（比如“https://unsplash.com/t/wallpapers”），在页面中查找需要爬取的内容，并确定其HTML结构。
编写代码进行页面抓取、信息提取、分类保存等操作。其中，同样可以使用 requests 和 BeautifulSoup 库，具体代码如下：

import requests
from bs4 import BeautifulSoup
import os

# 网页地址
base_url = 'https://unsplash.com/t/wallpapers'
# 请求头信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

# 获取网页HTML代码
res = requests.get(base_url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')

# 查找图片信息
photo_list = soup.select('.IEpfq')
for photo in photo_list:
    # 获取图片链接、名称和标签
    img_url = photo.select('._3fPsI')[0].get('src')
    img_name = photo.select('._2Mc8_')[0].text + '.jpg'
    img_tags = photo.select('.NpuHU')[0].text.strip().split('#')[1:]
    # 根据标签创建文件夹，下载并保存图片
    for tag in img_tags:
        save_path = os.path.join('unsplash', tag)
        if not os.path.exists(save_path):
            os.makedirs(save_path)
        img_data = requests.get(img_url).content
        with open(os.path.join(save_path, img_name), 'wb') as f:
            f.write(img_data)

以上代码与示例一类似，只是在信息提取后，将图片按照标签进行分类保存。具体来说，将图片标签通过split方法分割为一个个子标签，并将其作为文件夹名称，使用os库将其创建至对应路径下。

运行以上代码后，即可在当前路径下生成一个名为unsplash的文件夹，壁纸将按照标签名分类保存在该文件夹下的不同文件夹中。

综上所述，以上就是爬不同图片分别保存在不同文件夹中实现的完整攻略，希望对你有所帮助。

上一篇：python multiprocessing 多进程并行计算的操作 下一篇：python多进程实现进程间通信实例

python爬不同图片分别保存在不同文件夹中的实现

流程说明

示例说明

示例一：爬取豆瓣电影封面，按照电影名称分类保存

示例二：爬取Unsplash网站上的高清壁纸，按照标签分类保存

相关文章