乐闻个人主页 - 乐闻世界

乐闻

主页文章专栏面试题问题

服务端2月21日 19:08

Cheerio 使用中有哪些常见坑？怎么解决？最常见的五大坑：①中文乱码——需要用 iconv-lite 按实际编码解码，别依赖 axios 自动处理；②选择器找不到元素——先 `$.html()` 检查 HTML 是否完整加载，再逐步缩小选择器范围调试；③拿不到动态内容——Cheerio 不执行 JS，要么换 Puppeteer 要么直接调后端 API；④大文件内存溢出——分批处理或流式解析，别一次全 load 进来；⑤XML 解析报错——必须加 `{ xmlMode: true }` 选项，否则自闭合标签和命名空间都会出问题。 ## 追问 **中文乱码具体怎么处理？** axios 设置 `responseType: 'ar...

服务端2月21日 19:01

Cheerio 加载 HTML 有哪几种方式？核心方法是 cheerio.load(html, options)，支持三种输入源：HTML 字符串、fs.readFileSync 读取的文件内容、Buffer。第二个参数控制解析行为：xmlMode 用于 XML 文档，decodeEntities 控制是否解码 HTML 实体（如 & → &），withDomLvl1 决定是否遵循 DOM Level1 规范。对大文件可用流式读取拼接后再 load。 ## 追问 **xmlMode 什么时候必须开启？** 解析 XML/RSS/Atom feed 时必须开启，否则标签大小写会被统一转小写，XML 的自闭合标签也会被错误处...

服务端2月21日 19:03

如何用 Cheerio 实现网页爬虫和数据抓取？核心流程三步走：用 axios/fetch 获取 HTML → cheerio.load() 加载 → 选择器提取数据。Cheerio 只负责解析，HTTP 请求需搭配其他库。关键要注意设置 User-Agent、处理相对 URL 转绝对路径、以及加入请求延迟避免被封禁。 ## 追问 **如何处理分页爬取？** 循环拼接页码参数逐页请求，每页之间加 1-2 秒延迟，收集数据后统一存储。注意检测是否有下一页（如"下一页"按钮或总页数标识）来决定终止条件。 **爬取的数据如何清洗？** 用 .trim() 去空白，正则移除 HTML 标签和特殊字符，parseFloat/parseIn...

服务端2月21日 19:03

Cheerio 和 Puppeteer 有什么区别？爬虫场景怎么选？Cheerio 是纯 HTML 解析器，不执行 JavaScript，解析速度比 Puppeteer 快 100 倍以上，内存占用极低；Puppeteer 启动真实 Chromium，能执行 JS、处理动态渲染、模拟用户交互，但资源消耗大、速度慢。选择依据很简单：目标页面内容是否由 JS 动态生成——查看网页源码（Ctrl+U）能看到数据就用 Cheerio，看不到就用 Puppeteer。 ## 追问 **Puppeteer 能不能用 Cheerio 解析页面？** 可以，这是常见的混合模式：Puppeteer 负责加载动态页面拿到渲染后的 HTML，再传给 Cheerio 做数据...

NodeJS Puppeteer Cheerio

服务端2月21日 19:01

Cheerio 和 jQuery 有什么区别？Cheerio 是 Node.js 端的 HTML 解析库，实现了 jQuery 核心 API，但剥离了浏览器依赖——不渲染 DOM、不处理 CSS 布局、不执行 JavaScript，因此比 jQuery 轻量且解析速度快 8 倍以上。jQuery 运行在浏览器中操作真实 DOM，Cheerio 则在服务端解析 HTML 字符串构建虚拟 DOM 树，只做数据提取与结构操作。 ## 追问 **Cheerio 为什么比 jsdom 快？** jsdom 会构建完整的浏览器环境（CSSOM、布局计算等），Cheerio 仅构建 DOM 树，跳过了渲染管线，所以解析速度快一个数量级。 *...

前端2月16日 23:15

Bun 在 I/O 性能方面做了哪些优化？Bun用Zig语言编写，I/O优化的核心是**绕过libuv，直接走系统调用**。具体优化：**文件I/O**使用`Bun.file()`API，底层通过mmap内存映射和直接syscall读写，Linux上利用io_uring实现异步，避免Node.js经libuv线程池的开销；**HTTP服务**用`Bun.serve()`构建，基于零拷贝响应和原生HTTP解析器（不用Node的http-parser），基准吞吐量高出Node.js约3倍；**SQLite**内置驱动直接编译进运行时，省去FFI调用开销；**启动优化**通过原生TypeScript执行（无需tsc编译步骤）和全局缓存...

前端2月16日 23:22

Dify 支持哪些类型的输入输出格式？如何自定义数据处理逻辑？Dify工作流的输入支持：**文本**（短文本/段落）、**结构化数据**（下拉选择/数字/复选框/JSON）、**文件上传**（PDF/Word/TXT/Markdown，也支持图片和音频）。输出默认为LLM生成的文本，可配置为结构化JSON（通过JSON Schema约束）。自定义数据处理有三种方式：**代码节点**直接写Python/Node.js脚本做数据转换、JSON拼接、算术运算；**模板节点**用Jinja2语法灵活格式化输出文本；**变量赋值节点**对字符串/数字/数组进行覆盖、追加、扩展等操作。此外**参数提取器**能用LLM从自然语言中推理出结构化参数，**迭代节点*...

前端2月16日 23:32

FFmpeg支持哪些常见的音视频格式？FFmpeg支持100+容器格式和200+编解码器，需区分**容器**和**编码**两层。容器层主流格式：MP4（兼容性最广）、MKV（多音轨/字幕）、WebM（Web优化）、MOV（Apple生态）、FLV（直播推流）、TS（HLS切片）。视频编码：H.264/AVC（最通用）、H.265/HEVC（同质量体积减半）、VP9（WebM默认）、AV1（开源下一代，FFmpeg 5.0+支持）。音频编码：AAC（流媒体标配）、Opus（低延迟实时通信最优）、MP3（兼容旧设备）、FLAC（无损）。关键认知：容器决定封装结构，编码决定压缩算法，同一容器可装不同编码（如MP4可装H.264或H...

服务端2月17日 13:02

Cypress 中如何实现数据驱动测试？数据驱动测试将测试数据与逻辑分离，Cypress 通过 cy.fixture() 加载 cypress/fixtures/ 下的 JSON 文件驱动测试。核心流程：在 fixtures 目录建数据文件，测试中用 cy.fixture() 加载后遍历执行，实现一组逻辑跑多组数据。更简洁的方式是结合 cy.each() 或原生 forEach 迭代数据，避免为每组数据写重复测试。外部数据文件适合管理多环境配置和边界值数据集，fixtures 适合静态模拟数据。 ## 追问 **cy.fixture() 和直接 import JSON 有什么区别？** cy.fixture() 走 Cyp...

前端2月16日 23:23

Dify 的部署方式有哪些？分别适用于哪些场景？Dify提供三种主流部署方式：**云服务（SaaS）**即开即用，适合快速验证和中小团队，无需运维但数据存于Dify服务器；**Docker自托管**通过`docker compose up`一键拉起，适合需要数据自主可控的企业，是最常用的生产部署方案；**Kubernetes集群部署**基于Helm Chart编排，适合高可用、弹性伸缩和大规模并发场景。此外还有**社区版源码部署**，适合需要深度定制或二次开发的场景。选择依据：数据敏感选自托管，快速上手选云服务，企业级生产选K8s。Dify自托管依赖PostgreSQL、Redis和Nginx，Docker Compose方案已包含全...