import axios from './axios.js'; import * as cheerio from 'cheerio'; import fs from 'fs/promises'; import path from 'path'; import { fileURLToPath } from 'url'; // Add fileURLToPath import import { getEncryptedUrl } from './getEncryptedUrl.js'; // Import shared encryption function const __filename = fileURLToPath(import.meta.url); // Define __filename const __dirname = path.dirname(__filename); // Define __dirname const BASE_URL = 'http://120.236.48.169:89/HEMS/'; const START_URL = BASE_URL + 'CompanyList.aspx'; /** * Extracts company data from HTML content. * @param {object} $ - Cheerio object. * @param {string} origin - The origin URL for resolving relative links. * @returns {Promise>} - An array of company data records. */ async function extractDataFromHtml($, origin) { const dataPromises = $('.resultlist table tr:has(td)').get().map(async (row) => { const columns = $(row).find('td'); if (columns.length < 5) { // Expecting 5 columns: 序号, 营业执照注册号, 企业名称, 法人代表, 地址 return null; } const companyNameCell = $(columns[2]); // 企业名称 is the 3rd column const companyNameLink = companyNameCell.find('a'); const rowData = { '序号': $(columns[0]).text().trim(), '营业执照注册号': $(columns[1]).text().trim(), '企业名称': companyNameLink.length ? companyNameLink.text().trim() : companyNameCell.text().trim(), '法人代表': $(columns[3]).text().trim(), '地址': $(columns[4]).text().trim(), '企业链接': '', // Initialize }; if (companyNameLink.length) { const onclickAttr = companyNameLink.attr('onclick'); if (onclickAttr) { const match = onclickAttr.match(/open_click\(['"]([^'"]+)['"]\)/); if (match && match[1]) { rowData['企业链接'] = await getEncryptedUrl(match[1], origin); } } } return rowData; }); const data = await Promise.all(dataPromises); return data.filter(item => item !== null); } /** * Scrapes all company data from the target website, handling pagination. * @returns {Promise>} - An array of all scraped data records. */ async function scrapeWebsite() { let allData = []; const origin = new URL(START_URL).origin; console.log('开始抓取公司列表第一页数据...'); let response = await axios.get(START_URL); let $ = cheerio.load(response.data); let firstPageData = await extractDataFromHtml($, origin); allData = allData.concat(firstPageData); console.log(`第一页抓取完成，获得 ${firstPageData.length} 条数据。`); // Get total pages for pagination const totalRecordsSpan = $('#PageNavigator1_LblRecordCount'); const totalPagesSpan = $('#PageNavigator1_LblPageCount'); const totalRecords = totalRecordsSpan.length ? parseInt(totalRecordsSpan.text(), 10) : 0; const totalPages = totalPagesSpan.length ? parseInt(totalPagesSpan.text(), 10) : 1; console.log(`共发现 ${totalRecords} 条记录，分为 ${totalPages} 页。`); // Collect form data for POST requests const formValues = {}; $('input[name^="txt"], select').each((idx, el) => { const name = $(el).attr('name'); if (name) { formValues[name] = $(el).val() || ''; } }); // Scrape remaining pages for (let i = 2; i <= totalPages; i++) { console.log(`正在抓取第 ${i} 页...`); const viewState = $('#__VIEWSTATE').val(); const viewStateGenerator = $('#__VIEWSTATEGENERATOR').val(); const eventValidation = $('#__EVENTVALIDATION').val(); if (!viewState) { console.log('无法找到 __VIEWSTATE，终止抓取。'); break; } const postData = new URLSearchParams(); postData.append('__EVENTTARGET', 'PageNavigator1$LnkBtnNext'); postData.append('__EVENTARGUMENT', ''); postData.append('__VIEWSTATE', viewState); postData.append('__VIEWSTATEGENERATOR', viewStateGenerator); if (eventValidation) { postData.append('__EVENTVALIDATION', eventValidation); } // Add form fields for (const name in formValues) { postData.append(name, formValues[name]); } postData.append('PageNavigator1$txtNewPageIndex', (i - 1).toString()); response = await axios.post(START_URL, postData, { headers: { 'Content-Type': 'application/x-www-form-urlencoded', 'Referer': START_URL, } }); $ = cheerio.load(response.data); const nextPageData = await extractDataFromHtml($, origin); console.log(`第 ${i} 页抓取完成，获得 ${nextPageData.length} 条数据。`); if (nextPageData.length === 0) { console.log(`第 ${i} 页没有数据，抓取结束。`); break; } allData = allData.concat(nextPageData); } console.log(`\n抓取全站公司数据完毕！共 ${allData.length} 条原始记录。`); return allData; } /** * Performs post-processing on the scraped data: * 1. Re-indexes "序号" sequentially. * @param {Array