Cheerio 性能怎么优化？大文件和高并发场景怎么处理？

Question

Levenx · Accepted Answer

Cheerio 性能优化抓住三个方向：选择器、内存、并发。选择器方面：用 .find() 配合具体 class 替代深层后代选择器，缓存 $container 后链式调用避免重复查询。内存方面：大文件用 stream 分块解析代替一次 load，批量 DOM 操作先拼字符串再一次性 .html() 插入，用完的 $ 引用及时置空触发 GC。并发方面：多 URL 用 Promise.all 并行请求 + 逐个解析，超大数据集用 Worker 线程分片处理。load 选项中 decodeEntities: false 和 withDomLvl1: false 也能减少不必要的解析开销。追问为什么 .find() 比层级选择器快？$('.container .item .title') 每次都从根节点全量匹配三层；$('.container').find('.item').find('.title') 先锁定容器再在子集中查找，搜索范围逐层缩小。差距在元素数量大时（万级以上）才明显。大文件怎么避免内存溢出？不要 cheerio.load(wholeFile)，改用 stream 按 <

追问

写段代码