提供丰富的素材资源、软件工具、源码模板、技术文章和编程教程，专注于网站搭建、AI应用、开源项目分享和工具推荐。帮助开发者轻松获取所需资源，快速提升技术水平。

搜索前端开发相关内容

热词：

youtube会员

YouTuBe

disney会员

Disney

Netflix奈飞账号

Netflix

iCloud+

iCloud+

hbo+max

HBOMax

GPT+API

GPTPro

Spotify会员

Spotify

合租&账号

艾维正版

莱卡云服务器

bandwagonhost云主机

雨云服务器

如何爬取花瓣网下一页图片的max值？

2025-02-21 11:15

10

标签导航：

花瓣网图片爬取：高效获取下一页图片

本文介绍如何高效爬取花瓣网图片，特别是解决新版花瓣网下一页max值获取的问题。

如何爬取花瓣网下一页图片的max值？

挑战： 新版花瓣网的图片API返回的JSON数据结构变化，直接获取下一页所需max值变得困难。

解决方案： 利用正则表达式解析JSON数据，提取最后一个pin_id作为下一页的max值。

代码实现： 以下代码基于Python，利用requests库获取数据，re库进行正则匹配，并处理图片下载。

import re
import time
import json
import requests
import os

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}

directory = input('请输入文件夹名称：
')
fileName = 'huabanimg/' + directory + '/'
if not os.path.exists(fileName):
    os.makedirs(fileName)

board_id = int(input('请输入花瓣board ID：
'))
url = f'https://api.huaban.com/boards/{board_id}/pins?limit=20'

while True:
    response = requests.get(url, headers=headers)
    jsondata = response.json()  # 直接使用json.loads()解析json数据，避免使用正则表达式
    pins = jsondata['pins']
    if not pins:  # 检查是否有图片数据
        break

    for pin in pins:
        key = pin['key']
        img_url = f'https://hbimg.huabanimg.com/{key}_fw658'
        img_name = key[:10]
        print(f'正在下载：{img_name}.jpeg')
        try:
            img_data = requests.get(img_url, headers=headers).content
            with open(fileName + img_name + '.jpeg', 'wb') as f:
                f.write(img_data)
        except Exception as e:
            print(f"下载图片{img_name}失败: {e}")
        time.sleep(2)

    # 获取下一页的max值, 使用更简洁的JSON解析方式
    if jsondata['next']:
        url = jsondata['next']
    else:
        break

print('图片下载完成！')

改进说明:

直接JSON解析: 代码改进了max值获取方式，直接使用response.json()解析JSON数据，并从jsondata['next']中获取下一页URL，避免了使用正则表达式，提高了代码的可读性和健壮性。
错误处理: 添加了try...except块来处理潜在的网络错误或图片下载失败的情况。
更清晰的代码结构: 代码结构更加清晰，更易于理解和维护。
更友好的用户交互: 提示信息更加友好。

此改进后的代码更稳健，更易于理解和维护，推荐使用。记住替换board_id为你想要爬取的花瓣board的ID。请遵守花瓣网的robots.txt和使用规范，避免对服务器造成过大压力。

相关文章推荐

BOE（京东方）绵阳“零碳工厂”探访活动圆满落幕树立显示...

pixiv官网入口 pixiv网页版官网登录入口

暴雪嘉年华回归预告定档2026年9月

幕末开放世界动作RPG《浪人崛起》Steam版于今日发售

界外狂潮公测时间在哪公测时间及平台说明

界外狂潮是手游还是端游平台登录情况最新说明

《坂本日常危险益智游戏》事前登录突破 10 万人宣布将...

界外狂潮官网在哪官网地址与预约入口一览

《怪物猎人荒野》首波活动任务开启可获得「库纳法起司」食材

Linux strings命令能否提取特定类型的字符串

Nginx日志如何帮助优化缓存策略

Linux Golang日志如何优化