Cheerio 爬取动态页面为什么拿不到数据？怎么解决？

Question

Levenx · Accepted Answer

Cheerio 只是 HTML 解析器，不执行 JavaScript，所以通过 JS 动态渲染的内容（SPA、AJAX 加载、无限滚动）用 Cheerio 直接解析会拿到空壳 HTML。解决方案有三条路径：1) 用 Puppeteer/Playwright 先渲染页面拿到完整 HTML 再交给 Cheerio 解析；2) 拦截网络请求直接找到数据 API 端点，用 axios 请求 JSON；3) 分析页面源码中的内联数据（如 window.INITIAL_STATE）直接提取。追问方案 2（直接请求 API）相比方案 1 有什么优势？速度快、资源消耗低、无需启动浏览器。缺点是 API 可能有签名/鉴权，需要逆向分析请求参数。Puppeteer 和 Playwright 选哪个？Playwright API 更现代，原生支持多浏览器，自动等待机制更智能；Puppeteer 生态更成熟、Chrome 专项优化更好。新项目推荐 Playwright。如何优化 Puppeteer + Cheerio 方案的性能？拦截非必要资源（图片/字体/CSS）不加载，复用浏览器实例而非每次新建，设置合理

追问

写段代码