进程是系统资源分配的最小单位,一个进程可以有多个线程,这些线程共享进程的内存空间和系统资源。在Python中,可以通过multiprocessing
模块实现多进程的功能。
使用multiprocessing
模块的Process
类可以实现简单的多进程,示例代码如下:
from multiprocessing import Process
def func():
print('子进程执行')
if __name__ == '__main__':
p = Process(target=func)
p.start()
p.join()
print('主进程执行')
代码解析:
multiprocessing
模块的Process
类创建子进程,并指定执行函数为func()
;p.join()
方法等待子进程执行完毕,再执行后续代码。使用进程池可以避免频繁创建和销毁进程,从而提高程序的执行效率。使用multiprocessing
模块的Pool
类可以实现进程池,示例代码如下:
from multiprocessing import Pool
import os
import time
def func(n):
print(f'子进程{os.getpid()}执行{n}')
time.sleep(1)
return n
if __name__ == '__main__':
p = Pool(3)
results = p.map(func, range(10))
print(results)
代码解析:
multiprocessing
模块的Pool
类创建进程池,并指定最大进程数为3
,即同时运行3个子进程;p.map()
方法向进程池中添加任务,并等待任务执行完毕;p.map()
方法返回一个结果集,结果集的元素按照任务添加的顺序排列。多进程和进程池是Python中实现并行计算的重要方式,能够充分利用多核CPU提高程序运行效率。multiprocessing
模块是Python标准库中提供的多进程处理模块,使用简单,功能强大,值得掌握和使用。
利用Python的并行计算,可以有效提升网络爬虫的效率。下面是一个简单的示例:
import requests
from bs4 import BeautifulSoup
from multiprocessing import Pool
def get_url(url):
response = requests.get(url)
soup = BeautifulSoup(response.content)
title = soup.select_one('title').text
return title
if __name__ == '__main__':
urls = ['https://www.baidu.com', 'https://www.google.com', 'https://www.bing.com']
p = Pool(len(urls))
results = p.map(get_url, urls)
print(results)
代码解析:
get_url()
函数中通过requests
和BeautifulSoup
模块获取网页标题;p.map()
方法返回所有子进程处理的结果。多进程能够大大提高图片的下载效率,下面是一个简单的示例:
import requests
from multiprocessing import Process
def download(image_url, path):
response = requests.get(image_url)
with open(path, 'wb') as f:
f.write(response.content)
if __name__ == '__main__':
urls = [
('https://www.google.com/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png', 'google.png'),
('https://www.baidu.com/img/bd_logo1.png', 'baidu.png')
]
processes = [Process(target=download, args=(url[0], url[1])) for url in urls]
for process in processes:
process.start()
for process in processes:
process.join()
代码解析:
download()
函数中通过requests
模块下载图片,并保存到指定路径;