add requirements.md

2026-02-04 17:36:57 +08:00 · 2026-02-04 17:36:57 +08:00 · ac4492ffa7
commit ac4492ffa7
1 changed files with 40 additions and 0 deletions
--- a/requirements.md
+++ b/requirements.md
@ -0,0 +1,40 @@
 # 广东省公共资源交易平台数据抓取需求
 ## 1. 项目目标
 开发一个 Python 爬虫程序，用于抓取[广东省公共资源交易平台](https://ygp.gdzwfw.gov.cn/#/44/jygg)的特定招标公告数据。
 ## 2. 抓取范围
 - **目标网站**: `https://ygp.gdzwfw.gov.cn/#/44/jygg`
 - **筛选条件**: 只抓取公告标题中明确包含 “**中标结果**” 关键字的条目。
 ## 3. 数据提取要求
 对于每一条符合条件的“中标结果”公告，需要提取以下三项信息：
 1.  **项目标题**: 公告的完整标题。
 2.  **发布时间**: 公告的发布日期。
 3.  **详细链接**: 指向公告详情页的完整、可直接访问的 URL。
 ## 4. 功能要求
 ### 4.1. 日期范围过滤
 - 程序需要支持通过命令行参数传入`开始日期`和`结束日期`。
 - 如果用户提供了日期范围，则只抓取发布时间在该范围内的公告。
 - 如果用户**未提供**任何日期参数，程序应默认抓取**今天**发布的公告。
 ### 4.2. 分页处理
 - 爬虫必须能够自动处理分页。
 - 从第一页开始抓取，自动加载并解析后续所有页面的数据，直到最后一页，确保不遗漏任何数据。
 ### 4.3. 详情页链接处理
 - 意识到详情页链接可能是通过 JavaScript 点击事件动态生成的。
 - 在抓取过程中，需要分析页面交互逻辑（可能涉及加密或后端 API 调用），以正确解析出真实的详情页链接。
 ## 5. 开发语言
 - **编程语言**: Python