commit ac4492ffa7e518fea53f3855707f08ded578c774 Author: 秦秋旭 Date: Wed Feb 4 17:36:57 2026 +0800 add requirements.md diff --git a/requirements.md b/requirements.md new file mode 100644 index 0000000..9a991ed --- /dev/null +++ b/requirements.md @@ -0,0 +1,40 @@ +# 广东省公共资源交易平台数据抓取需求 + +## 1. 项目目标 + +开发一个 Python 爬虫程序,用于抓取[广东省公共资源交易平台](https://ygp.gdzwfw.gov.cn/#/44/jygg)的特定招标公告数据。 + +## 2. 抓取范围 + +- **目标网站**: `https://ygp.gdzwfw.gov.cn/#/44/jygg` +- **筛选条件**: 只抓取公告标题中明确包含 “**中标结果**” 关键字的条目。 + +## 3. 数据提取要求 + +对于每一条符合条件的“中标结果”公告,需要提取以下三项信息: + +1. **项目标题**: 公告的完整标题。 +2. **发布时间**: 公告的发布日期。 +3. **详细链接**: 指向公告详情页的完整、可直接访问的 URL。 + +## 4. 功能要求 + +### 4.1. 日期范围过滤 + +- 程序需要支持通过命令行参数传入`开始日期`和`结束日期`。 +- 如果用户提供了日期范围,则只抓取发布时间在该范围内的公告。 +- 如果用户**未提供**任何日期参数,程序应默认抓取**今天**发布的公告。 + +### 4.2. 分页处理 + +- 爬虫必须能够自动处理分页。 +- 从第一页开始抓取,自动加载并解析后续所有页面的数据,直到最后一页,确保不遗漏任何数据。 + +### 4.3. 详情页链接处理 + +- 意识到详情页链接可能是通过 JavaScript 点击事件动态生成的。 +- 在抓取过程中,需要分析页面交互逻辑(可能涉及加密或后端 API 调用),以正确解析出真实的详情页链接。 + +## 5. 开发语言 + +- **编程语言**: Python \ No newline at end of file