qiuxu/ygp-gdzwfw-gov-cn

秦秋旭 ac4492ffa7 add requirements.md

2026-02-04 17:36:57 +08:00

1.5 KiB

Raw Blame History

广东省公共资源交易平台数据抓取需求

1. 项目目标

开发一个 Python 爬虫程序，用于抓取广东省公共资源交易平台的特定招标公告数据。

2. 抓取范围

目标网站: https://ygp.gdzwfw.gov.cn/#/44/jygg
筛选条件: 只抓取公告标题中明确包含 “中标结果” 关键字的条目。

3. 数据提取要求

对于每一条符合条件的“中标结果”公告，需要提取以下三项信息：

项目标题: 公告的完整标题。
发布时间: 公告的发布日期。
详细链接: 指向公告详情页的完整、可直接访问的 URL。

4. 功能要求

4.1. 日期范围过滤

程序需要支持通过命令行参数传入开始日期和结束日期。
如果用户提供了日期范围，则只抓取发布时间在该范围内的公告。
如果用户未提供任何日期参数，程序应默认抓取今天发布的公告。

4.2. 分页处理

爬虫必须能够自动处理分页。
从第一页开始抓取，自动加载并解析后续所有页面的数据，直到最后一页，确保不遗漏任何数据。

4.3. 详情页链接处理

意识到详情页链接可能是通过 JavaScript 点击事件动态生成的。
在抓取过程中，需要分析页面交互逻辑（可能涉及加密或后端 API 调用），以正确解析出真实的详情页链接。

5. 开发语言

编程语言: Python