爬取豆瓣电影 Top250 影名和评分

import random
import time
import re
import requests

for page in range(1,11):
    res = requests.get(
    url = f'https://movie.douban.com/top250?start={(page - 1) * 25}',
    # 如果不设置HTTP请求头中的User-Agent，豆瓣会检测出不是浏览器而阻止我们的请求。
    # 通过get函数的headers参数设置User-Agent的值，具体的值可以在浏览器的开发者工具查看到。
    # 用爬虫访问大部分网站时，将爬虫伪装成来自浏览器的请求都是非常重要的一步。
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0'
    })

    # 通过正则表达式获取class属性为title且标签体不以&开头的span标签并用捕获组提取标签内容
    pattern1 = re.compile(r'<span\sclass="title">([^&]*?)</span>')
    titles = pattern1.findall(res.text)

    # 通过正则表达式获取class属性为rating_num的span标签并用捕获组提取标签内容
    pattern2 = re.compile(r'<span class="rating_num".*?>(.*?)</span>')
    ranks = pattern2.findall(res.text)

    # 使用zip压缩两个列表，循环遍历所有的电影标题和评分
    for title, rank in zip(titles, ranks):
        print(title, rank)

    # 随机休眠1-5秒，避免爬取页面过于频繁
    time.sleep(random.random() * 4 + 1)