服务端面试题手册

梳理高频技术问题，帮助你按主题复习和查漏补缺。

MQTT 5.0 比 3.1.1 多了什么？哪些特性值得升级？

MQTT 5.0 不是把 3.1.1 推倒重来，而是在原有发布/订阅模型上补齐了工程化能力。它解决的重点不是“能不能发消息”，而是消息过期怎么表达、错误原因怎么定位、请求响应怎么关联、客户端能力怎么协商，以及高并发系统里如何做流量控制。最值得关注的新特性第一类是属性 Properties。MQTT 5.0 给很多控制报文增加了属性字段，可以携带内容类型、响应主题、关联数据、消息过期时间、用户属性等元信息。以前这些信息通常要塞进 payload，客户端和服务端各自约定格式；现在协议层有标准位置，跨团队和跨语言接入会少很多口头约定。第二类是会话和消息过期。MQTT 3.1.1 主要靠 Clean Session 表达是否保留会话，语义偏粗。MQTT 5.0 用 Session Expiry Interval 指定会话多久过期，用 Message Expiry Interval 指定消息多久后不再投递。对离线设备很有用：告警消息可以保留，过期的实时温度就没必要等设备上线后再补发。第三类是请求/响应模式。通过 Response Topic 和 Correlation Data，客户端可以发布请求，再从指定响应主题拿到结果。它不会把 MQTT 变成 HTTP，但能让设备配置读取、远程诊断、指令确认这类场景更规范。边界是它仍然是异步消息模型，超时、重试和权限仍要应用层设计。第四类是流量控制和诊断能力。Receive Maximum 可以限制未确认 QoS 1/2 消息数量，Maximum Packet Size 可以拒绝过大的报文，Reason Code 能告诉你是未授权、主题名非法还是服务器繁忙。3.1.1 里很多失败只像“连接断了”，5.0 至少能让排查方向更明确。第五类是共享订阅、主题别名和订阅标识符。共享订阅让多个消费者分摊同一类消息，适合后端处理集群；主题别名用数字代替长主题，适合高频上报；订阅标识符能帮助客户端判断消息命中了哪个订阅规则。升级时怎么取舍？如果系统只是低频传感器上报，3.1.1 已经稳定运行，升级收益可能不大。若你正在做多租户 IoT 平台、设备远程控制、复杂权限、批量消费者扩容或问题排查成本很高，5.0 的收益会明显。真正的成本在兼容性：Broker、SDK、网关、监控工具和设备固件都要确认支持程度。# paho-mqtt v2 示例：发布带 MQTT 5 属性的消息from paho.mqtt.client import Clientfrom paho.mqtt.packettypes import PacketTypesfrom paho.mqtt.properties import Propertiesclient = Client(protocol=5)client.connect('broker.example.com', 1883)props = Properties(PacketTypes.PUBLISH)props.MessageExpiryInterval = 30props.ContentType = 'application/json'client.publish('device/1/status', '{"online":true}', qos=1, properties=props)迁移前最好列一张能力清单：Broker 是否支持 5.0，客户端 SDK 是否支持属性，监控系统能否展示原因码，网关是否会丢弃用户属性。只升级协议版本但不改日志和告警，收益会被打折。更稳妥的方式是先在少量设备上启用消息过期、原因码和最大报文限制，确认没有兼容问题后再扩大范围。追问MQTT 5.0 能完全兼容 3.1.1 吗？不能理解成所有特性自动兼容。5.0 Broker 通常可以接受 3.1.1 客户端，5.0 客户端也可以按 3.1.1 协议连接旧 Broker，但 5.0 属性、原因码、会话过期等能力不会凭空生效。迁移时要确认每个 SDK 实际使用的 protocol version。踩坑点是 Broker 升级了，但边缘设备 SDK 仍按 3.1.1 连接，结果新特性根本没用上。Session Expiry 和 Clean Session 有什么区别？Clean Session 更像开关，要么清理，要么保留。Session Expiry 是时间维度，可以表达断开后保留 10 分钟、1 天或一直保留。这个能力适合移动网络不稳定的设备，短暂掉线不丢订阅和未确认消息。取舍是会话保留越久，Broker 存储和清理压力越大，不能无脑设置永不过期。Message Expiry 解决了什么实际问题？它解决的是“过期消息还要不要送”的问题。实时温度、位置、在线状态这类数据，过了几十秒再送可能没有意义，甚至会污染业务判断。设置过期时间后，Broker 可以在消息失效后停止分发。边界是关键指令不要随便设置太短，否则设备网络抖动时可能错过真正需要执行的命令。共享订阅是不是等同于 Kafka 消费组？它们目的相似，都是让多个消费者分摊消息，但语义和生态不一样。MQTT 共享订阅更轻量，适合 Broker 直接把消息分给后端实例；Kafka 消费组更强调日志存储、offset 和回放。若你需要长期保留、重放和批处理，Kafka 更合适。若只是把设备上报实时分摊给多个处理服务，MQTT 共享订阅就够用。为什么 Reason Code 对运维很重要？没有明确原因码时，连接失败经常只能猜：密码错、ACL 拒绝、协议版本不对、报文太大都可能表现为断开。MQTT 5.0 的 Reason Code 能把失败原因直接带回来，日志和监控可以按原因聚合。踩坑点是客户端要把原因码打印出来，不能只记录“connect failed”。否则协议给了诊断信息，应用层却把它丢了。

MQTT

服务端阅读 05月31日 00:26

MQTT 有哪些控制报文？连接、发布和订阅流程怎么串起来？

MQTT 控制报文不是一张要死背的清单，而是一套围绕连接、发布、订阅、心跳和断开的状态机。理解它们的最好方式，是先把流程跑通：客户端用 CONNECT 建立连接，Broker 用 CONNACK 回应；发布消息用 PUBLISH，不同 QoS 会带出 PUBACK、PUBREC、PUBREL、PUBCOMP；订阅主题用 SUBSCRIBE/SUBACK，取消订阅用 UNSUBSCRIBE/UNSUBACK；空闲时靠 PINGREQ/PINGRESP 保活，正常退出用 DISCONNECT。报文类型怎么分组？连接类只有 CONNECT 和 CONNACK。CONNECT 里会带 Client ID、用户名密码、Keep Alive、Clean Session 或 MQTT 5.0 的会话过期设置，还可以带遗嘱消息。CONNACK 告诉客户端是否连接成功，失败时会返回原因码或返回码。发布类以 PUBLISH 为中心。QoS 0 只发 PUBLISH，不等确认；QoS 1 是 PUBLISH 加 PUBACK，保证至少一次；QoS 2 是 PUBLISH、PUBREC、PUBREL、PUBCOMP 四步，目标是恰好一次。这里最容易混淆的是 QoS 2 的“恰好一次”只针对 MQTT 投递流程，不代表业务处理绝对只发生一次。订阅类包括 SUBSCRIBE、SUBACK、UNSUBSCRIBE、UNSUBACK。SUBSCRIBE 可以一次带多个 Topic Filter，例如 home/+/temperature 或 factory/#。SUBACK 会逐个返回订阅结果，别只看报文到了没到，还要检查每个主题是否被授权。心跳和断开类包括 PINGREQ、PINGRESP、DISCONNECT。Keep Alive 到期前客户端需要发心跳；如果 Broker 在 1.5 倍 Keep Alive 时间内没收到任何控制报文，通常会认为连接失效。正常 DISCONNECT 不会触发遗嘱消息，异常断线才会触发，这个细节在告警系统里很重要。固定头部怎么看？所有 MQTT 控制报文都有固定头部，第一字节高 4 位是报文类型，低 4 位是标志位，后面是 Remaining Length。PUBLISH 的 flags 会携带 DUP、QoS、Retain，PUBREL、SUBSCRIBE、UNSUBSCRIBE 的固定标志位也有固定要求，写客户端或排查抓包时不能乱填。Byte 1: Message Type(4 bits) + Flags(4 bits)Byte 2+: Remaining Length(variable byte integer)Next: Variable Header + Payload# 用 mosquitto 快速观察订阅和发布流程mosquitto_sub -d -h test.mosquitto.org -t 'demo/packet'mosquitto_pub -d -h test.mosquitto.org -t 'demo/packet' -q 1 -m 'hello'一条消息会经过哪些报文？以设备上报一条 QoS 1 温度消息为例，客户端先 CONNECT，Broker 返回 CONNACK 后才算连接建立。订阅端发送 SUBSCRIBE，Broker 用 SUBACK 确认订阅结果；发布端发送 PUBLISH，Broker 收到后返回 PUBACK，同时按主题匹配把消息转发给订阅端。连接空闲期间客户端继续用 PINGREQ 保活，Broker 回 PINGRESP；设备正常下线时发送 DISCONNECT，Broker 就不会发布遗嘱消息。如果换成 QoS 2，发布链路会多出 PUBREC、PUBREL、PUBCOMP。这个流程看起来啰嗦，但它把“收到消息”和“释放消息”拆成两个阶段，避免网络抖动时双方状态不一致。代价也很明显：Broker 和客户端都要保存更多中间状态，吞吐下降，排查时也要关注 Packet Identifier 是否被复用或卡住。MQTT 5.0 里的变化MQTT 3.1.1 常说 14 种控制报文，MQTT 5.0 增加了 AUTH，并且给很多报文加了属性和原因码。AUTH 用于增强认证，适合需要多轮认证或重新认证的场景。原因码让 CONNACK、PUBACK、SUBACK、DISCONNECT 等报文能表达更细的失败原因，这对线上排障很有价值。追问QoS 0、1、2 分别会触发哪些确认报文？QoS 0 没有确认报文，消息发出后协议层就不再追踪。QoS 1 需要 PUBACK，所以断线或超时后可能重发，接收方要能处理重复消息。QoS 2 要经过 PUBREC、PUBREL、PUBCOMP，流程最完整但延迟和状态存储也最多。取舍很直接：越可靠，报文越多，吞吐和实现复杂度越受影响。CONNECT 里最容易配错哪些字段？Client ID、Clean Session、Keep Alive 和遗嘱消息最容易出问题。多个设备复用同一个 Client ID 会互相踢下线，看起来像网络不稳定。Keep Alive 设置太短会制造无意义心跳，太长又会拖慢离线检测。遗嘱消息要配合异常断线理解，主动 DISCONNECT 不会触发它。SUBACK 收到了就代表订阅成功吗？不一定。SUBACK 只是 Broker 回应了订阅请求，真正要看每个返回码或原因码。某些主题可能因为 ACL 被拒绝，客户端如果只判断“收到 SUBACK”就会误以为订阅成功。项目里建议把订阅结果写入日志，并在关键主题失败时直接告警。边界是：协议完成和业务可用不是同一件事。Remaining Length 为什么是可变长度编码？MQTT 面向小设备和小消息，固定用 4 字节表示长度会浪费空间。可变长度编码让小报文只用 1 个字节表示长度，大报文再逐步扩展。踩坑点是它最多占 4 字节，而且每个字节只有 7 位表示数值，最高位表示是否还有后续字节。自己写解析器时如果没处理非法超长编码，可能被恶意报文拖住。抓包时如何快速判断 MQTT 流程卡在哪里？先看 CONNECT 后有没有 CONNACK，没有就查网络、TLS、认证和协议版本。发布卡住时看 QoS：QoS 1 缺 PUBACK，QoS 2 缺哪一步就查对应的会话状态。订阅收不到消息时别只盯 PUBLISH，要检查 SUBACK 返回码、Topic Filter 是否匹配、Retain 和 ACL。排查边界是先确认协议层报文完整，再看业务载荷是否符合预期。

MQTT

服务端阅读 05月31日 00:26

MQTT 和 HTTP 有什么区别？物联网场景该怎么选？

MQTT 和 HTTP 都跑在应用层，很多时候也都基于 TCP，但它们解决的问题不一样。HTTP 更像一次明确的业务请求：客户端问，服务端答，适合查数据、提交表单、上传文件和调用 REST API。MQTT 更像一个消息中转站：设备把消息发到主题，订阅者按主题接收，发布者不需要知道谁在听。核心区别是什么？最明显的区别是通信模型。HTTP 是请求/响应，天然以客户端发起为中心；MQTT 是发布/订阅，Broker 负责路由消息，可以把一条温度数据同时分发给监控面板、告警服务和数据入库服务。第二个区别是连接方式。HTTP/1.1 可以 Keep-Alive，HTTP/2 也能复用连接，但多数业务仍围绕“请求完成即返回”设计。MQTT 通常保持长连接，通过 Keep Alive 和 PINGREQ/PINGRESP 确认连接还活着，这对设备在线状态和服务端主动下发指令很关键。第三个区别是报文开销。MQTT 固定头部最小 2 字节，主题和载荷之外的额外开销很小；HTTP 请求头常常包含 Cookie、User-Agent、鉴权头等信息，几百字节很常见。对 4G 模组、NB-IoT、卫星链路或电池供电设备来说，这些差距会直接变成流量费和续航差距。场景怎么选？设备遥测、实时状态、告警推送、远程控制更适合 MQTT。例如一万个传感器每 5 秒上报一次温度，用 HTTP 轮询会制造大量连接和请求头开销，用 MQTT 长连接发布到 factory/line1/temperature 更自然。Web 页面、后台管理、文件上传、复杂查询更适合 HTTP。比如查询某台设备过去 7 天的历史曲线，用 HTTP API 带分页、筛选条件和缓存策略更好维护。实际项目里常见做法是混用：MQTT 负责实时上报和控制，HTTP 负责配置、报表、账号体系和历史查询。快速验证示例# 订阅温度主题mosquitto_sub -h test.mosquitto.org -t 'demo/device1/temp'# 另一个终端发布消息mosquitto_pub -h test.mosquitto.org -t 'demo/device1/temp' -m '25.6'# 同样的数据用 HTTP 提交curl -X POST https://api.example.com/devices/device1/temperature \ -H 'Content-Type: application/json' \ -d '{"value":25.6}'实战里的判断顺序选型时不要先问哪个协议更先进，而要先看数据流向、频率和失败后果。若设备每隔几秒上报一次状态，并且平台需要随时下发控制命令，MQTT 的长连接会让链路更简单。若用户只是偶尔打开页面查一次报表，HTTP 的一次请求一次响应更符合直觉，日志、鉴权、缓存和排障工具也更成熟。还要看团队的运维能力。MQTT 引入 Broker 后，要管理主题命名、ACL、离线消息、会话、重连风暴和保留消息；HTTP 则更多依赖 API 网关、负载均衡和服务端限流。很多项目不是败在协议本身，而是没有提前定义边界：哪些消息必须实时，哪些数据必须可追溯，哪些请求失败后允许重试。追问MQTT 一定比 HTTP 更省资源吗？不一定，要看连接生命周期和消息频率。高频、小包、需要服务端下发的场景，MQTT 的长连接和小头部优势明显。低频操作反而可能是 HTTP 更省心，因为不用维护在线状态、重连和主题权限。踩坑最多的是把所有业务都塞进 MQTT，最后发现查询、分页、审计和重放都比 HTTP 难做。如果 HTTP 有长连接和 HTTP/2，还需要 MQTT 吗？HTTP/2 解决的是多路复用和传输效率，不等于提供发布/订阅、QoS、遗嘱消息和主题路由。你可以用 HTTP/2 做实时接口，但服务端主动把消息分发给多个订阅方时，应用层要自己补一套消息系统。边界在于业务是否以“资源访问”为核心，还是以“消息流转”为核心。前者继续用 HTTP，后者更像 MQTT 的主场。MQTT 的 QoS 能替代业务幂等吗？不能。QoS 1 只能保证至少送达，重复消息很正常；QoS 2 能减少重复投递，但成本更高，也不能替你处理业务端重复扣费、重复开锁这类问题。实际项目里关键指令仍要带 messageId，并在服务端做去重。取舍是：协议层保证传输语义，业务层保证业务结果。为什么很多系统同时使用 MQTT 和 HTTP？因为两者擅长的部分互补。设备上线、心跳、实时数据和控制命令走 MQTT，用户登录、设备列表、固件下载、历史报表走 HTTP，会比单押一种协议更稳。踩坑点是鉴权体系要统一，否则 MQTT 的 ACL 和 HTTP 的用户权限容易出现不一致。通常会用同一套账号或 Token 签发逻辑，再分别落到 Broker 和 API 网关。MQTT 适合传文件或大报文吗？一般不推荐。MQTT 可以传二进制载荷，但 Broker、客户端内存、最大报文限制和重传成本都会放大风险。固件包、图片、日志压缩包更适合 HTTP、对象存储或 CDN，MQTT 只通知下载地址和版本号。这个边界很重要，否则一次大文件重传就可能拖垮低端设备或 Broker 队列。

MQTT

服务端阅读 05月30日 23:35

MQTT Last Will 为什么能发现设备异常离线？

MQTT Last Will（遗嘱消息，LWT）是在客户端连接 Broker 时预先登记的一条消息。当客户端异常断开，比如断电、进程崩溃、网络中断或 Keep Alive 超时，Broker 会把这条消息发布到指定 Topic。它最常见的用途是设备在线状态：设备正常工作时发布 online，异常离线时由 Broker 代发 offline。它解决的是“设备突然没了，其他系统怎么知道”的问题，但不能告诉你离线原因，也不能替代完整的监控系统。在物联网项目里，LWT 更像一个兜底信号：它能尽快告诉你连接不可靠了，但后续仍要靠日志、最后上报时间和设备自检来定位原因。它什么时候会触发？Will 消息在 CONNECT 阶段设置，包含 Will Topic、Payload、QoS 和 Retain。客户端正常发送 DISCONNECT 时不会触发，因为 Broker 认为这是有计划的离线。真正触发的是非正常断开：TCP 连接断掉、心跳超时、客户端进程被杀、设备断电等。这里有个边界：如果连接根本没建立成功，Broker 没收到完整 CONNECT，自然也没有遗嘱可发。另一个边界是触发时间不一定等于真实掉线时间，Broker 往往要等 Keep Alive 超时后才确认连接失效。可以用 mosquitto 做一个最小实验：mosquitto_sub -h localhost -t 'device/123/status' -vmosquitto_pub -h localhost -i dev123 --will-topic device/123/status --will-payload '{"status":"offline"}' --will-retain -l第二个命令保持标准输入不退出，直接强杀进程或断网，订阅端会看到 offline。如果你按正常方式退出并发送 DISCONNECT，就不会触发遗嘱。测试时不要只关闭终端标签页，有些客户端会优雅断开，最好用 kill -9 或断开网络来模拟异常。真实设备还要测试休眠、基站切换、路由器重启这些场景，因为它们比本地进程崩溃更接近生产问题。如果 Broker 是集群，还要确认会话迁移和节点故障时 Will 的行为，避免某个节点重启就把一批设备误判为离线。追问Last Will 和 retained message 是什么关系？Last Will 决定“异常断开时发什么”，retained message 决定“这条消息要不要被 Broker 保存给后来订阅者”。两者可以单独使用，也经常组合使用。设备上线时主动向 device/123/status 发布 retained 的 online，连接时设置 retained 的 Will 为 offline，这样新订阅者随时都能看到最新在线状态。取舍是旧状态会被保存，所以设备退役、迁移 Topic 或更换设备 ID 时必须清理 retained 消息。Keep Alive 应该设置多长？Keep Alive 越短，Broker 越快发现设备异常，遗嘱消息越及时；但心跳更频繁，弱网和电池设备会付出额外成本。工业网关或后台服务可以设 30-60 秒，低功耗设备可能设几分钟。不要为了“秒级离线”把 Keep Alive 调得极小，网络抖动会制造误报。更稳的做法是结合业务容忍度、网络质量和告警成本来定，并在应用层记录最后一次业务上报时间。比如状态页可以 1 分钟内显示疑似离线，告警系统再等两个心跳周期确认，减少无意义的电话和短信轰炸。Will QoS 和 Retain 怎么选？状态看板通常选择 QoS 1 加 retain，因为离线状态值得至少送达一次，并且后来打开页面的人也需要看到。普通日志或临时告警可以不 retain，避免新订阅者反复看到旧告警。QoS 2 很少必要，它会增加握手成本，且多数离线状态处理本身就应该幂等。真正关键的是消费端按设备 ID 去重，别因为重复投递把同一台设备告警多次。代码里怎么设置遗嘱消息？Python paho-mqtt 必须在 connect() 之前调用 will_set()，这是很多人第一次用时会踩的坑。连接成功后再设置不会影响当前连接，只能等下次连接才生效。上线状态建议在连接成功后立刻发布，最好也 retain，避免还没连上就误以为设备在线。示例：client = mqtt.Client(client_id='dev123')client.will_set('device/123/status', '{"status":"offline"}', qos=1, retain=True)client.connect('broker.example.com', 1883, keepalive=60)client.publish('device/123/status', '{"status":"online"}', qos=1, retain=True)实际项目里最容易误判什么？第一是把网络抖动当成设备故障，尤其移动网络和 Wi-Fi 漫游场景很常见。第二是只依赖 LWT 判断离线，却没有应用层最后上报时间，结果 Broker 故障、集群切换或会话迁移时不好排查。第三是多客户端共用同一个 Client ID，后上线的连接会踢掉前一个连接，可能触发前一个连接的遗嘱。生产环境里要保证 Client ID 唯一，并把 offline 消息设计成幂等事件；正常维护、主动关机这类离线则应由客户端主动发布状态再 DISCONNECT，异常离线才交给 Will。如果业务需要区分原因，可以把 payload 设计成 status、reason、ts 三个字段，但不要指望 Will 自动知道真实原因。

MQTT

服务端阅读 05月30日 23:35

MQTT Retained Message 为什么新订阅者会收到旧消息？

MQTT retained message 是 Broker 为某个 Topic 保存的“最后一条状态消息”。发布端设置 retain=true 后，Broker 会把这条消息存下来；后来才订阅该 Topic 的客户端，不用等设备再次上报，也会立刻收到这条保留消息。它适合表达“当前状态”，不适合表达“历史事件”。温度、开关状态、设备配置、系统版本这类值很适合；告警流水、订单事件、聊天消息就不适合，否则新订阅者会误以为旧事件刚刚发生。它到底解决什么问题？没有 retained message 时，新客户端订阅 sensor/123/temperature 后只能等待下一次发布。如果传感器 10 分钟才上报一次，页面刚打开时就会空白 10 分钟。设置保留消息后，Broker 会在订阅成功时先补发最新值，例如 {"value":25.5,"unit":"C","ts":1710000000}。注意每个 Topic 只保留一条，新的 retained 消息会覆盖旧的，不能把它当数据库用。它的价值在于让订阅方快速拿到“现在是什么”，而不是让订阅方知道“刚才发生过什么”。在设备管理后台、Home Assistant、车联网网关里，这个差异很关键：状态页需要立刻显示当前值，审计页才需要完整历史。可以用 mosquitto 快速验证：mosquitto_pub -h localhost -t sensor/123/temperature -m '{"value":25.5}' -rmosquitto_sub -h localhost -t sensor/123/temperature -vmosquitto_pub -h localhost -t sensor/123/temperature -n -r第三条命令发布空 Payload 并带 retain，用来清除该 Topic 的保留消息。很多踩坑都出在这里：只发布空消息但忘了 -r，Broker 不会删除 retained 记录。另一个常见问题是以为订阅通配符时 Broker 只返回一条，实际上订阅 sensor/+/temperature 时，匹配到的每个具体 Topic 如果有 retained 记录，都可能各发一条。第一次接入大量设备时，这会让订阅端瞬间收到一批初始化消息，所以消费端要能区分初始化流量和实时流量。服务端也要限制 retained 消息大小，别把整份配置文件、证书或图片塞进去；大对象更适合放对象存储，MQTT 里只放版本号和下载地址。追问Retained message 和普通消息有什么区别？普通消息只发给当时在线且已订阅的客户端，错过就错过了；retained message 会被 Broker 留一份，后来的订阅者也能拿到。这个机制的取舍是牺牲一部分 Broker 存储，换来状态初始化更快。边界也很明确：它只表示“最后状态”，不保证覆盖状态变化过程。如果业务需要追溯每次变化，应该写入时序库、日志系统或消息队列，而不是堆 retained Topic。还有一种折中做法是 retained 只保存最新摘要，历史明细由后端 API 查询，这样页面既能秒开，又不会让 Broker 背负数据库职责。QoS 会怎样影响保留消息？保留消息发布时可以带 QoS 0、1、2，Broker 保存的也是这条消息及其 QoS。订阅者实际收到的 QoS 通常是 min(发布 QoS, 订阅 QoS)，所以发布 QoS 1 不代表每个订阅者都按 QoS 1 收到。一般状态展示用 QoS 0 就够，关键配置可以用 QoS 1。QoS 2 成本更高，会增加 Broker 和客户端的握手负担，只有在重复处理代价很大、链路又必须严格确认时才值得使用。什么场景不应该使用 retained message？不要把告警、支付回调、门锁开门记录这类事件做成 retained message。新客户端订阅后收到旧告警，很容易触发重复通知或误判现场还在故障。也不要在高频遥测上滥用，例如每秒上报几千个不同 Topic，Broker 的 retained 索引和持久化会被放大。更稳妥的做法是只保留少量状态 Topic，把高频数据写到专门的存储系统，再由应用层按时间范围查询。代码里怎么发布和识别 retained message？Python 的 paho-mqtt 里，发布时传 retain=True，订阅端可以通过 msg.retain 判断这是不是 Broker 补发的旧状态。这个标志很有用，页面初始化时可以直接渲染 retained 状态，但不要把它当作“刚刚发生”的事件。上线初始化逻辑和实时事件逻辑最好分开，否则统计、告警和审计都容易被旧消息污染。示例：client.publish('sensor/123/temperature', '{"value":25.5}', qos=1, retain=True)def on_message(client, userdata, msg): if msg.retain: print('initial state:', msg.payload.decode()) else: print('live update:', msg.payload.decode())使用 retained message 最容易踩什么坑？第一是忘记清理，设备下线或被删除后，旧状态仍然留在 Broker，新页面看到的还是“在线”。第二是 Topic 设计太粗，比如所有设备共用 device/status，结果后发布的设备覆盖前一个设备，排查时看起来像设备互相串线。第三是 retained 和 Last Will 混用时没有规划好在线状态：上线消息应该主动发布 online 并 retain，异常掉线再由遗嘱发布 offline 并 retain。这样新订阅者看到的才是当前状态，而不是一段过期故事；如果设备退役，还要发布空 retained 消息把状态清掉。

MQTT

服务端阅读 05月30日 23:22

React Native 中如何正确接入 Lottie 动画？

在 React Native 里接入 Lottie，核心不是把组件渲染出来，而是把安装、资源路径、播放控制和性能边界都处理好。很多项目第一次接入能跑，后面却在 Android 缺资源、iOS 没 pod、列表卡顿、远程 JSON 加载失败上反复踩坑。建议把 Lottie 当成一种需要生命周期管理的原生视图，而不是普通图片组件。安装和基础配置常规项目先安装 lottie-react-native，iOS 再执行 Pod 安装。Expo 项目要确认 SDK 版本支持的 Lottie 版本，不要随意升级到不匹配的包。动画 JSON 可以用本地 require，也可以远程加载；稳定性优先的启动页、支付成功、空状态动画，建议随包发布。npm install lottie-react-nativecd ios && pod installimport LottieView from 'lottie-react-native';import { useEffect, useRef } from 'react';export function LoadingLottie() { const ref = useRef<LottieView>(null); useEffect(() => { ref.current?.play(); return () => ref.current?.reset(); }, []); return ( <LottieView ref={ref} source={require('./assets/loading.json')} autoPlay={false} loop style={{ width: 120, height: 120 }} /> );}播放控制要跟页面状态绑定autoPlay 很方便，但复杂页面不建议到处开。更稳的方式是用 ref 控制 play、pause、reset，并在页面不可见、弹窗关闭或列表项离屏时暂停。进度联动可以用 progress，但频繁从 JS 更新 progress 会有成本，手势场景要特别留意掉帧。function ResultAnimation({ active }: { active: boolean }) { const ref = useRef<LottieView>(null); useEffect(() => { if (active) ref.current?.play(0, 60); else ref.current?.pause(); }, [active]); return <LottieView ref={ref} source={require('./success.json')} loop={false} />;}Android 和 iOS 的边界不完全一样Android 更容易遇到硬件加速、图片资源目录和低端机掉帧问题；iOS 更常见的是 Pod、版本兼容和资源打包问题。不要把一端验证通过当成全端通过，尤其是包含渐变、遮罩、文本图层的动画。上线前至少用一台低端 Android 和一台旧 iPhone 跑真实页面，不要只看模拟器。推荐的组件封装业务里可以封一层轻量组件，把尺寸、循环、错误降级和播放时机收口。这样设计更新动画时，页面不用到处改参数；如果某个版本播放器有兼容问题，也能集中降级。封装不要太厚，保留 source、loop、onAnimationFinish 这类常用能力即可。type Props = { source: object; active: boolean; size?: number };export function AppLottie({ source, active, size = 120 }: Props) { const ref = useRef<LottieView>(null); useEffect(() => { active ? ref.current?.play() : ref.current?.pause(); }, [active]); return <LottieView ref={ref} source={source} style={{ width: size, height: size }} />;}远程加载要有降级和缓存如果业务必须远程下发 JSON，至少要准备加载中占位、失败静态图和版本缓存。接口返回后不要直接相信内容可播放，可以先校验 fr、op、layers 等关键字段，再交给 LottieView。否则一次错误配置就可能让页面出现空白区域，用户不会知道这是动画资源坏了，只会觉得页面没做好。缓存也要有边界。运营动画可以短缓存，关键流程动画最好随 App 版本固定，避免服务端改动影响老客户端。需要灰度时，可以把动画版本号写进配置，出现兼容问题时回滚到上一个 JSON，而不是临时发版。追问本地 JSON 和远程 JSON 应该怎么选？本地 JSON 稳定、首屏可控，适合关键流程和无网也要展示的动画。远程 JSON 灵活，适合运营活动、节日皮肤和可灰度替换的内容，但要处理加载失败、缓存和版本回滚。取舍在于更新频率和可靠性：越关键越本地，越运营越远程。踩坑点是远程 JSON 改了字段后旧 App 播放器不兼容，结果线上动画直接空白。autoPlay 和手动 play() 有什么区别？autoPlay 会在组件挂载后自动开始，写法简单，适合单个静态页面。手动 play() 可以跟页面焦点、弹窗状态、接口完成时机绑定，更适合真实业务。边界是如果组件频繁挂载卸载，autoPlay 可能导致动画重复从头播放，看起来像闪烁。复杂页面里宁愿多写几行生命周期控制，也不要让动画自己乱跑。React Native 列表里使用 Lottie 为什么容易卡？列表滚动时，LottieView 作为原生视图创建成本不低，多个动画同时播放会叠加解析和绘制压力。更稳的做法是默认显示静态首帧，只有选中、曝光或需要强调的 item 才播放。FlatList 参数也要控制窗口大小和初始渲染数量。取舍是视觉动感少一点，但滚动不会被动画拖垮。动态换色应该改 JSON 还是用 colorFilters？如果只有少量主题色，设计导出多份 JSON 最稳，测试成本低。需要运行时跟随品牌色或暗黑模式时，可以用 colorFilters，但前提是图层 keypath 命名稳定。踩坑是设计改了图层名，客户端过滤器失效却不报错。边界是渐变、图片、预合成里的颜色不一定能被简单过滤器覆盖。动画不显示时应该按什么顺序排查？先确认 JSON 能在 LottieFiles 或设计工具里正常预览，再看 RN 资源路径、包版本和平台构建日志。Android 缺图片时检查资源目录，iOS 异常时先确认 pod install 和 clean build。然后再排查样式尺寸，因为 width/height 为 0 也会让你误以为动画坏了。不要一开始就重装依赖，很多问题其实只是路径或容器尺寸。

React Native Lottie

服务端阅读 05月30日 23:22

Lottie JSON 文件里每个字段到底表示什么？

Lottie JSON 可以理解成一份“动画说明书”：顶层描述画布和时间轴，layers 描述图层，ks 描述变换属性，shapes 描述矢量形状，assets 描述图片或预合成资源。真正排查问题时，不需要背完整规范，但要能看懂几个关键字段，否则遇到动画不显示、颜色改不了、体积异常时只能反复让设计重新导出。顶层字段先看时间和画布常见顶层字段包括 v、fr、ip、op、w、h、assets 和 layers。fr 是帧率，ip/op 是起止帧，动画时长通常可以用 (op - ip) / fr 估算。w/h 是设计画布，不等于组件最终显示尺寸，但会影响缩放比例和裁切判断。{ "v": "5.10.2", "fr": 30, "ip": 0, "op": 90, "w": 375, "h": 240, "assets": [], "layers": []}layers 是排查的入口layers 数组决定动画由哪些图层组成。ty 表示图层类型，常见的 4 是形状图层，2 是图片图层，0 是预合成，1 是文本。每个图层通常有 ip/op 控制它何时出现，ks 控制位置、缩放、旋转和透明度。遇到某一段动画消失，先看对应图层的起止帧和透明度，不要急着怀疑播放器。{ "ty": 4, "nm": "check-icon", "ip": 0, "op": 60, "ks": { "p": { "a": 0, "k": [120, 80, 0] }, "s": { "a": 0, "k": [100, 100, 100] }, "o": { "a": 1, "k": [{ "t": 0, "s": [0] }, { "t": 10, "s": [100] }] } }}shapes 和 assets 决定复杂度形状图层里的 shapes 会包含路径、填充、描边、组和变换。路径点越多、遮罩越多、渐变越复杂，运行时计算越重。assets 则存图片、预合成等资源，图片路径通常由 u 和 p 拼出来。生产环境要确认这些资源能被打包或上传到 CDN，否则 JSON 正常，动画却缺图。如果要做自动检查，可以先抽取几个字段，统计图层数量、图片数量和关键帧属性数量。这个脚本不替代真机测试，但能在代码评审阶段拦下一部分明显过重的动画。function inspectLottie(data) { return { frameRate: data.fr, duration: (data.op - data.ip) / data.fr, layers: data.layers?.length ?? 0, assets: data.assets?.length ?? 0 };}不要把 JSON 当成稳定业务协议虽然 Lottie JSON 是文本格式，但它首先是动画导出产物，不适合让业务代码深度依赖内部层级。比如今天图层叫 button-bg，设计明天合并预合成后路径就变了，客户端按 keypath 改色可能立刻失效。更稳的方式是只读取少量稳定元信息，把主题色、文案、播放区间这类业务配置放在自己的配置文件里。排查线上问题时也要保留原始 JSON 和压缩后 JSON。压缩工具可能会改字段顺序、删除名称或合并路径，体积变小了，但可调试性会下降。团队如果需要运行时换色或按图层埋点，就不要在构建阶段把所有 nm 字段都删掉。追问为什么同一个 Lottie JSON 在不同端表现不一致？因为 Lottie 是规范加运行时实现，不是所有 AE 能做出的效果都能被各端完整支持。Web、iOS、Android 对遮罩、表达式、渐变、文本和某些混合模式的支持存在差异。取舍上，跨端业务动画应少用高级特效，多用基础形状和透明度变化。踩坑最多的是设计在 AE 里看着正常，导出后某端把效果直接忽略了。ks 里的 a: 0 和 a: 1 有什么区别？a: 0 表示这个属性是静态值，k 里直接放当前值；a: 1 表示它有关键帧，k 会变成关键帧数组。排查性能时，有关键帧的属性越多，运行时插值计算越多。边界是关键帧不是坏事，动画本来就靠它，只是不要让每个小装饰都做复杂路径变形。读 JSON 时先看 p/s/r/o 这些变换属性，效率最高。修改 JSON 里的颜色安全吗？简单填充色通常可以改，比如 fl.c.k 里的 RGBA 数组，但并不总是安全。颜色可能被渐变、透明度、预合成或命名层级影响，直接全局替换很容易误伤。更稳的做法是让设计给关键图层命名，再在运行时用 keypath 或导出多套主题文件。取舍是动态换色更灵活，但对图层命名和测试要求更高。图片资源应该内联 base64 还是外部文件？内联 base64 部署简单，少一次资源路径配置，但会让 JSON 变大，也让缓存粒度变差。外部图片更适合 CDN、WebP 压缩和多动画复用，但需要处理路径、打包和离线缓存。移动端项目通常更推荐把图片作为本地资源随包发布，Web 项目则看首屏策略和缓存命中率。边界是很小且只用一次的图标可以内联，大图和复用资源不要内联。如何快速判断一个 JSON 是否可能有性能问题？先看文件体积、layers 数量、路径点数量、是否有大量 masksProperties、ef 和图片资源。再估算时长和帧率，长动画加 60fps 通常要谨慎。这个判断不是最终结论，但能帮助你决定是先找设计减图层，还是先改客户端播放策略。踩坑是只看压缩后大小，忽略未压缩 JSON 在解析时仍然很重。

Lottie

服务端阅读 05月30日 23:22

Lottie 动画卡顿时应该从哪些地方优化？

Lottie 性能优化不要一上来就改代码，先看它到底慢在哪里：是 JSON 太大、路径太复杂、同时播放太多，还是列表滚动时反复挂载。Lottie 本质上是把 After Effects 导出的描述数据交给运行时逐帧解释，文件越复杂，解析、布局、绘制和内存压力都会上来。比较稳的做法是先减设计稿复杂度，再做加载和播放策略，最后才调平台参数。先把 JSON 变轻最有效的优化往往发生在导出前。减少形状图层、合并静态元素、避免大量遮罩和表达式，比在客户端包一层缓存更可靠。帧率也要按场景取舍：启动页或按钮反馈用 24/30fps 通常够用，只有大面积流体动画才值得保留 60fps。图片资源不要直接塞进 base64，体积会膨胀，也不利于 CDN 和本地缓存。{ "fr": 30, "ip": 0, "op": 72, "assets": [{ "id": "image_0", "u": "images/", "p": "logo.webp" }]}播放策略比参数更重要页面里能不自动播放就不要自动播放，尤其是列表、Tab 首页和弹窗背景动画。可见时播放、离屏暂停、只循环关键动画，通常比盲目开启硬件加速更稳。React 或 React Native 里还要避免父组件重渲染导致 LottieView 反复创建，动画数据最好静态 require 或 memo 化。const source = require('./success.json');export function SuccessLottie({ visible }: { visible: boolean }) { const ref = useRef<LottieView>(null); useEffect(() => { visible ? ref.current?.play() : ref.current?.pause(); }, [visible]); return <LottieView ref={ref} source={source} loop={false} autoPlay={false} />;}如何定位真正的瓶颈先用网络面板看 JSON 下载和解析耗时，再用性能工具观察掉帧发生在进入页面、开始播放还是滚动过程中。如果首次进入慢，多半是体积、远程加载和解析问题；如果播放中掉帧，多半是路径、遮罩、渐变或同时播放数量问题；如果滚动时卡，重点看挂载数量和可见区域播放策略。团队里最好给 Lottie 建一个简单准入标准：文件大小、图层数量、最长时长、是否使用图片、是否有低端机实测。标准不需要复杂，但要能在设计交付前发现问题。否则每次都等开发接入后才说卡，返工成本会很高。交付前要和设计约定清楚Lottie 优化不应该只由开发兜底。设计交付时最好同时给出预览文件、目标尺寸、是否循环、是否允许降级成静态图，以及用到的字体和图片资源。开发侧则反馈真机帧率、首屏加载耗时和内存变化。这个协作看起来麻烦，但能避免动画上线前一天才发现某个遮罩在 Android 上不支持。还有一个容易忽略的点是结束态。很多动画播放完要停在最后一帧，如果 JSON 的 op 多留了空白帧，用户会看到短暂停顿；如果循环动画首尾没有对齐，又会出现明显跳帧。这类问题不靠性能参数解决，只能回到时间轴调整。追问Lottie 文件越小就一定越流畅吗？不一定，文件大小只影响下载和解析的一部分成本。一个 80KB 但包含大量路径变形、遮罩和渐变的动画，可能比一个 200KB 的图片序列更吃 CPU。优化时要区分网络体积和渲染复杂度，前者靠压缩和缓存，后者要回到 AE 图层和路径数量。踩坑点是只盯 gzip 后大小，结果低端 Android 还是掉帧。Canvas、SVG 和原生渲染应该怎么选？Web 端小图标、需要 DOM 可访问性或调试时，SVG 更直观；大面积、路径多、频繁播放的动画，Canvas 往往更省。React Native 里主要依赖原生 Lottie 渲染，重点不是选 SVG/Canvas，而是控制同时播放数量和资源释放。取舍在于清晰度、可交互性和性能，不能只看某个 renderer 的平均帧率。边界是动画如果依赖 AE 的高级效果，换渲染模式也可能不支持。硬件加速是不是总应该打开？不是。硬件加速能减少部分绘制压力，但也可能增加纹理内存，多个大尺寸动画同时播放时反而更容易抖。Android 上可以对全屏复杂动画尝试 renderMode=HARDWARE，但小图标或静态结束态未必需要。实践里要按设备分层测试，尤其关注低端机、弱网首次加载和页面切后台再回来。不要把硬件加速当成万能开关。列表里每个 item 都有 Lottie 怎么办？列表中最常见的坑是每个 item 都 autoPlay，滚动时动画创建和销毁叠在一起，JS 线程和 UI 线程都会被打满。更好的方案是只让当前可见或被选中的 item 播放，其余显示首帧或静态图。FlatList 还要配合 windowSize、removeClippedSubviews、initialNumToRender 控制挂载数量。取舍是交互反馈会变克制，但滚动体验会明显稳定。什么时候应该放弃 Lottie，改用视频或静态图？如果动画包含大量粒子、模糊、阴影、3D、长时间渐变背景，Lottie 不一定是合适载体。它适合矢量、短时、可缩放的 UI 动效，不适合把复杂视频效果硬转成 JSON。边界判断很简单：优化后仍然掉帧、JSON 难以维护、设计还要大量 AE 特效时，可以换 MP4/WebM 或首帧静态图。性能优化不是坚持某个技术，而是让用户少等、少卡、少耗电。

Lottie

服务端阅读 05月30日 22:56

如何在 Web 项目里稳定集成 Lottie 动画？

Web 项目里接 Lottie，看起来只是引入一个 JSON，实际要同时处理加载、渲染器、生命周期、降级和性能。很多页面一开始播放很顺，等营销活动上线、多个动画同时进首屏，就会出现掉帧、内存泄漏或移动端白屏。比较稳的做法是：先确定动画用途，再选接入方式，最后把播放控制和销毁逻辑写进组件生命周期里。先选接入方式如果只是运营页放一个循环动画，<lottie-player> 上手最快，HTML 里声明 src、loop、autoplay 就能跑，适合低代码页面或非复杂交互。缺点是可控性有限，深度定制和精细事件管理不如直接用 lottie-web。React、Vue、Angular 项目里，如果动画要和按钮点击、滚动进度、表单状态联动，建议直接封装 lottie-web；这样能拿到实例，控制 play、pause、stop、goToAndStop、setSpeed 和 destroy。安装时用 npm 包比直接挂 CDN 更可控，版本也能锁住。动画 JSON 可以放 public 目录走 URL，也可以作为模块 import 进来。前者适合大文件和 CDN 缓存，后者适合小动画、构建时一起校验；边界是不要把很多大型 JSON 全部打进首屏 bundle，否则还没播放动画，页面 JS 就先变重了。import { useEffect, useRef } from 'react'import lottie from 'lottie-web'export function LottieBox({ path, loop = true }) { const el = useRef(null) useEffect(() => { if (!el.current) return const anim = lottie.loadAnimation({ container: el.current, renderer: 'svg', loop, autoplay: true, path }) return () => anim.destroy() }, [path, loop]) return <div ref={el} aria-hidden="true" />}渲染器不是随便选lottie-web 常见渲染器有 svg、canvas 和 html。SVG 清晰、可缩放、方便调试，也适合图层不太多的图标和插画动画；Canvas 对大量元素或频繁变化更友好，但不如 SVG 容易被 CSS 精细控制。HTML 渲染器使用场景较少，除非你明确知道它解决了什么问题，否则不要默认选它。如果动画需要响应式尺寸，容器用 CSS 控制宽高，实例创建后在 resize 时调用 animation.resize()。如果页面里有多个 Lottie，别让它们全部 autoplay；进入视口再加载，离开视口暂停，通常比事后抱怨“Lottie 性能差”有效得多。对于装饰动画，还要考虑 prefers-reduced-motion，用户系统设置减少动态效果时，应停用自动播放或改成静态图。const reduceMotion = window.matchMedia('(prefers-reduced-motion: reduce)').matchesconst observer = new IntersectionObserver(([entry]) => { if (entry.isIntersecting && !reduceMotion) animation.play() else animation.pause()})observer.observe(container)加载失败和降级要提前设计线上最常见的问题不是 API 不会用，而是 JSON 路径 404、跨域配置缺失、图片资源没一起上传、组件卸载后实例还在跑。接入时至少监听 data_failed，并给容器准备一张静态 fallback。动画文件走 CDN 时，缓存时间可以长一点，但文件名最好带 hash；如果同名文件被替换，用户本地缓存旧 JSON，前端代码却按新结构控制帧，问题会很隐蔽。颜色和文案动态修改也要克制。直接改 JSON 内部结构可以做到，但它依赖 AE 导出的层级和 keypath，一旦设计师重命名图层就会失效。更稳的方式是把需要变体的动画提前拆好，或约定图层命名规范，再用测试覆盖关键路径。追问用 lottie-web 还是 LottieFiles Player 更好？如果只是展示动画，LottieFiles Player 简洁，交给内容同学维护也方便。需要和业务状态联动时，lottie-web 更合适，因为实例 API 更直接，生命周期也更可控。取舍点是开发成本和控制能力：越靠近业务逻辑，越不该把控制权藏在 Web Component 里。踩坑是先用 Player 快速上线，后面要按滚动进度控制帧，结果又重写一遍。SVG 和 Canvas 渲染器怎么选？SVG 适合小型、清晰、可缩放的动效，比如图标、空状态、按钮反馈。Canvas 更适合图层多、变化频繁的动画，但它不方便逐个节点用 CSS 控制，也要注意高清屏缩放。边界是不要凭感觉选，拿同一份 JSON 在目标机型上测 FPS 和内存。常见坑是桌面浏览器 SVG 很顺，低端 Android 同时播放三个后就明显卡顿。Lottie 动画应该打进 bundle 还是放 CDN？小而关键的动画可以随包引入，构建能发现 JSON 是否存在，离线体验也更简单。大文件、运营素材和可替换动画更适合放 CDN，通过 path 加载并设置缓存。取舍在首屏体积和发布灵活性之间：bundle 稳但重，CDN 灵活但要处理网络失败。踩坑是把十几个活动动画 import 到首页，用户还没看到它们就先下载了几 MB 的 JS。组件卸载时为什么一定要 destroy？Lottie 实例会持有 DOM、定时器、事件监听和渲染状态，单页应用路由切换后如果不销毁，内存会慢慢涨。暂停只能停播放，不等于释放资源；真正离开页面或组件时应该调用 destroy()。边界是弹窗临时隐藏可以 pause，组件永久卸载才 destroy。很多“页面越用越卡”的问题，最后都能追到没有清理动画实例。怎么给不支持或不想看动画的用户降级？最简单的降级是一张同尺寸静态图，加载失败、减少动态效果、低性能设备都可以显示它。复杂业务也可以降级成 CSS transition，但不要为了还原 Lottie 再写一套复杂动画。取舍是体验一致性和维护成本：静态图不酷，但稳定、便宜、可预测。踩坑是只在网速好、设备新的环境测试，线上遇到弱网时容器空白，用户以为页面没加载完。

Lottie

服务端阅读 05月30日 22:56

如何从 After Effects 正确导出 Lottie 动画？

做 Lottie 最容易踩的坑，不在导出按钮，而在 AE 项目一开始就没按 Lottie 的边界来做。Lottie 本质是把 After Effects 动画转成 JSON，再由 Web、iOS 或 Android 的运行时解释播放；它擅长矢量形状、基础变换、遮罩和简单透明度，不擅长大量 AE 特效、复杂表达式、3D 摄像机和高分辨率位图。所以正确流程不是“动画做完再试着导出”，而是从建合成、画图层、加关键帧开始就把兼容性和性能算进去。从项目设置开始控制边界新建合成时先确认目标端：移动端图标动效通常用 300 到 600px 的正方形合成，落地页首屏动画可以按实际容器比例做，但不要直接套 1920×1080。帧率建议 30fps，只有对运动细节特别敏感的品牌动画才考虑 60fps；帧率越高，JSON 里的关键帧越密，低端机解析压力越明显。时长也要克制，加载动效 1 到 3 秒，说明性动画 5 到 8 秒通常够用。安装 Bodymovin 后，在 AE 的 Window > Extensions 打开面板。导出前先把素材整理干净：图层命名不要用奇怪符号，预合成层级不要套太深，没用的隐藏层、参考层、测试图层都删掉。位图能不用就不用，必须用图片时压缩到实际显示尺寸，并确认导出包会包含 images 文件夹，否则前端只拿到 JSON 会丢图。动画制作时优先用 Lottie 友好的属性最稳的是形状图层加基础属性：Position、Scale、Rotation、Opacity、Path、Trim Paths、Fill、Stroke。这些属性在 lottie-web 和移动端运行时里支持更成熟，跨端表现也更一致。文本图层要谨慎，如果目标端没有对应字体，最终会出现换行、字重或位置偏移；需要完全一致时，可以把文字转成形状，但代价是文件变大、后续改文案不方便。常见做法是先把 AI 或 Figma 里的矢量拆成清晰分组，再在 AE 里转成 Shape Layer。不要把一个复杂 SVG 全部塞进单个图层，后期调动画会很痛苦；也不要拆成几十上百层同时动，浏览器渲染会卡。比较稳的取舍是：需要独立运动的元素单独成层，只作为静态装饰的元素合并成组。// 导出前可按这个方向检查，不是 AE 脚本const lottieChecklist = { fps: 30, duration: '<= 8s', preferred: ['shape', 'position', 'scale', 'rotation', 'opacity', 'trim paths'], avoid: ['3d layer', 'camera', 'heavy effects', 'unsupported expressions'], image: 'use only when vector is too expensive'}用 Bodymovin 导出并验证在 Bodymovin 面板里刷新合成，选择要导出的 Composition，设置输出路径后点击 Render。一般建议关闭 Demo HTML、开启压缩，先不要勾太多实验选项；如果动画依赖图片，确认 Assets 路径正确。导出后不要直接交付，先把 JSON 上传到 LottieFiles Preview 或本地 lottie-web 页面里看一遍，重点检查图层缺失、遮罩方向、透明度、缓动节奏和文件体积。如果预览和 AE 不一致，先回 AE 查 unsupported features，而不是让前端硬调。Lottie 的问题往往不是“代码没写对”，而是 JSON 里根本没有 AE 某个效果的等价表达。最终交付时最好同时给出 JSON、图片资源、建议尺寸、是否循环、背景是否透明、期望播放触发时机，这些信息能减少很多联调误会。追问为什么 AE 里正常，导出成 Lottie 后效果丢了？因为 Bodymovin 不是录屏工具，它只会把支持的图层和属性翻译成 JSON。模糊、粒子、部分混合模式、复杂表达式、3D 摄像机这类效果经常无法完整转换。取舍上，如果必须百分百还原复杂视觉，视频或 APNG 可能更稳；如果要小体积、可交互、可换色，才更适合 Lottie。踩坑点是设计师最后一天才导出测试，发现核心效果不支持时已经没有重做时间。文字要保留为文本图层，还是转成形状？保留文本的好处是 JSON 较小，也方便以后换文案，但它依赖运行环境字体，跨端一致性差。转成形状后视觉更稳定，缺点是路径数量增加，文件会变大，动态改字也基本不可行。边界是品牌 Logo、固定标题可以转形状，运营文案、国际化内容不建议这么做。常见坑是中文字体在 Web 上没有加载成功，AE 里一行字到浏览器里变成两行。什么时候该用图片，不该强行全矢量？简单图标、线条、几何图形优先矢量，缩放清晰，也容易改颜色。复杂插画如果路径点特别多，矢量 JSON 反而会比压缩图片更重，播放时还更吃 CPU。取舍标准可以看实际包体和帧率：同样视觉下，哪个更小、更稳就用哪个。踩坑是为了“保持矢量”把几千个路径点塞进 Lottie，结果首屏动画比一张 WebP 还卡。导出文件多大算合理？没有绝对数字，但用于按钮、空状态、加载反馈的 Lottie，通常应控制在几十 KB 到两三百 KB。首屏大动画可以更大，但要配合懒加载、缓存和降级图。边界在于 Lottie 是运行时解析 JSON，不是浏览器原生视频解码，文件越复杂越容易把主线程拖慢。不要只看 JSON 体积，还要在目标设备上看掉帧、发热和首次播放延迟。

Lottie

服务端阅读 05月30日 22:56

Consul 服务发现是如何完成注册、健康检查和查询的？

Consul 的服务发现可以拆成三步：服务把地址、端口和健康检查注册到本机 Consul Agent；Agent 定期执行检查，并把状态同步到 Consul server；调用方通过 DNS 或 HTTP API 查询健康实例，再由客户端、网关或负载均衡器决定访问哪一个。关键点是服务通常不是直接注册到远端 server，而是注册到同机或同网段的 client agent。这样服务上下线、健康检查和网络抖动都先在本地处理，server 负责维护一致的服务目录。服务定义可以放在 /etc/consul.d/web.json：{ "service": { "id": "web-10-0-1-12", "name": "web", "address": "10.0.1.12", "port": 8080, "tags": ["v1", "blue"], "checks": [{ "id": "web-http", "http": "http://10.0.1.12:8080/health", "interval": "10s", "timeout": "2s", "deregister_critical_service_after": "1m" }] }}重新加载后即可注册和查询：consul reloadconsul catalog servicescurl 'http://127.0.0.1:8500/v1/health/service/web?passing=true'dig @127.0.0.1 -p 8600 web.service.consulHTTP API 返回信息完整，适合网关、控制面或自定义客户端；DNS 接口语言无关，适合旧系统或不想引 SDK 的应用。取舍也很清楚：HTTP 能拿到 tags、checks、metadata 和过滤参数，但要解析 JSON；DNS 接入成本低，但复杂灰度和权重逻辑通常要交给网关。生产查询建议加 passing=true，否则调用方可能拿到已经失败但还留在目录里的实例。追问服务应该注册到 Consul server 还是 client agent？推荐注册到本机或本地网络里的 client agent，而不是让每个应用直接写 server。client agent 负责本机服务注册、健康检查和请求转发，server 负责维护目录。这样 server 故障、Leader 切换或网络抖动时，应用侧改动更少。踩坑点是容器环境里 address 填成 127.0.0.1，别的服务发现后根本访问不到。DNS 查询和 HTTP API 查询怎么选？DNS 查询最简单，很多老应用只要改解析配置就能接入 web.service.consul。HTTP API 信息更丰富，可以按 tag、健康状态和数据中心过滤，也能拿到服务元数据。边界是 DNS 只返回地址类结果，不适合承载复杂版本和灰度逻辑。常见做法是基础服务用 DNS，网关或服务框架用 HTTP API 做精细路由。健康检查失败后服务会立刻消失吗？不会，Consul 会先把 check 标记为 warning 或 critical，服务目录中仍可能存在。使用 /v1/health/service/web?passing=true 才会只拿到健康实例。deregister_critical_service_after 可以让长期 critical 的服务自动注销，但时间不要设太短。这个取舍是保留诊断信息，同时让调用方有能力过滤不可用实例。Consul 是否负责客户端负载均衡？Consul 主要负责发现和健康状态，不直接替应用完成每次请求的负载均衡。DNS 返回多个 A 记录时可能轮询，但行为受缓存、TTL 和语言运行时影响。HTTP API 返回实例列表后，客户端或网关仍要自己做轮询、随机、权重、就近访问和重试。不要把 Consul 当成 Nginx 或 Envoy，它更像服务目录和健康数据源。

Consul

服务端阅读 05月30日 22:56

Consul 多数据中心部署如何配置？哪些坑最容易踩？

Consul 的多数据中心不是把一个 Raft 集群横跨几个机房，而是每个数据中心有自己的 Consul server 集群，再通过 WAN Gossip 和远程 RPC 互相发现。这样做的好处是本地故障不会直接拖垮其他数据中心，服务查询也优先走本地。代价是 KV、ACL、服务目录并不是天然全局一致，跨数据中心访问要明确指定目标 DC。很多误解都来自这里：Consul 支持联邦，不等于自动同步所有配置和业务流量。常见生产结构是每个数据中心 3 或 5 个 server，业务机器运行 client agent。server 参与 Raft，client 负责本机服务注册、健康检查和转发查询。跨数据中心只让 server 加入 WAN 池，普通 client 不需要加入。dc1 的 server 配置可以这样写：datacenter = "dc1"node_name = "consul-dc1-s1"server = truebootstrap_expect = 3data_dir = "/opt/consul"bind_addr = "10.0.0.11"client_addr = "0.0.0.0"encrypt = "<same-gossip-key>"retry_join = ["10.0.0.12", "10.0.0.13"]retry_join_wan = ["10.1.0.11", "10.1.0.12", "10.1.0.13"]启动后用这些命令确认联邦是否正常：consul membersconsul members -wanconsul catalog datacentersdig @127.0.0.1 -p 8600 web.service.dc2.consul服务仍然在本地注册，查询远程服务时通过 HTTP API 加 ?dc=dc2，或用 DNS 名称 web.service.dc2.consul。是否切到远端要由客户端、网关或服务网格决定，因为跨地域流量涉及延迟、成本、数据一致性和用户归属。追问为什么不建议把一个 Consul Raft 集群跨机房部署？Raft 对延迟和网络抖动很敏感，Leader 选举和日志提交都依赖多数派确认。跨机房部署会让写入变慢，网络闪断时还可能频繁选主。Consul 推荐每个数据中心一套本地 Raft，再用 WAN 联邦做发现。这个取舍牺牲了全局强一致目录，换来本地可用性和清晰故障边界。多数据中心下服务发现是自动故障转移吗？不是完全自动，Consul 提供跨数据中心查询能力，但是否切流要看业务策略。比如本地没有健康实例时，网关可以再查 web.service.dc2.consul。踩坑点是把“能查到远端服务”误认为“可以直接切过去”。生产上要提前定义哪些服务可跨 DC，哪些受数据库、会话或合规限制只能本地调用。KV 和配置会在数据中心之间自动同步吗？默认不会，每个数据中心的 KV 是独立的。你可以用 consul kv export 和 consul kv import 做迁移，也可以用外部配置平台分发到多个 DC。自动同步听起来方便，但配置错误也会被同步放大。边界是不要把 Consul KV 当成跨地域强一致数据库，它更适合轻量配置和服务治理数据。WAN Gossip 配置最容易错在哪里？第一类错误是端口没放通，只开放 8500 通常不够。第二类错误是各数据中心的 Gossip 加密 key 不一致，表现为节点一直加不进 WAN 池。第三类是把 client 节点也加入 WAN，导致成员列表混乱和跨地域流量变多。排查时先看 consul members -wan，再看日志里的 join、decrypt、coordinate 相关错误。

Consul

服务端阅读 05月30日 22:56

Consul、Eureka、ZooKeeper 和 etcd 做服务发现该怎么选？

选服务发现工具时，不能只看功能表，要先看团队到底要解决什么问题。Consul 的强项是把服务注册发现、健康检查、DNS 查询、多数据中心和 KV 能力放在一起，适合多语言、跨机房、非 Kubernetes 专用的服务治理场景。Eureka 更贴近 Spring Cloud 老体系，Java 应用接入顺手，但 2.x 已停止活跃演进，新项目不太建议从零押注。ZooKeeper 和 etcd 都能作为注册发现的底层存储，但它们更偏分布式协调或强一致 KV，健康检查、服务模型和 DNS 接入通常要自己补。Consul 的最小服务注册大概是这样：{ "service": { "id": "order-1", "name": "order", "address": "10.0.1.12", "port": 8080, "checks": [{ "http": "http://10.0.1.12:8080/health", "interval": "10s", "timeout": "2s" }] }}查询时可以走 HTTP API，也可以走 DNS：curl 'http://127.0.0.1:8500/v1/health/service/order?passing=true'dig @127.0.0.1 -p 8600 order.service.consul这个能力组合也是 Consul 的取舍：它开箱即用的东西多，生产配置也更多。至少要考虑 Raft server 数量、ACL、TLS、Gossip 加密、健康检查频率和故障演练。小团队如果只有少量 Java 服务，Nacos 或 Spring 生态方案可能更省心；如果服务来自 Go、Java、Node、Python，又需要 DNS 兼容老系统，Consul 更合适。追问Consul 和 Eureka 最大区别是什么？Eureka 更强调客户端心跳和最终一致性，故障时倾向继续可用。Consul 通过健康检查和 Raft 维护目录状态，配合 passing=true 可以更严格过滤不健康实例。这个取舍会影响故障体验，Eureka 更依赖客户端重试，Consul 更早把健康状态放进发现层。踩坑点是 Consul 不负责每次请求的负载均衡，客户端或网关仍要自己选择实例。Consul 和 ZooKeeper 都能做注册中心，为什么还要选 Consul？ZooKeeper 的强项是临时节点、选主、锁和配置监听，不是开箱即用的服务目录。用它做服务发现通常要自己约定节点结构、健康检查和客户端封装。Consul 已经内置服务模型、健康检查、DNS/API 查询，接入和运维更直接。边界是存量系统如果已经稳定运行在 ZooKeeper 上，不要为了工具更新轻易迁移。etcd 和 Consul 都用 Raft，是否可以互相替代？etcd 是优秀的强一致 KV，Kubernetes 用它保存集群状态。它不提供 Consul 那种完整服务发现体验，租约、心跳、服务列表和客户端监听都需要额外封装。Consul 更像服务发现产品，etcd 更像可靠存储底座。实际选择时，纯 Kubernetes 内优先用 Service 和 CoreDNS，VM、裸机、多语言混合部署再考虑 Consul。什么情况下不应该上 Consul？如果应用都在 Kubernetes 里，且只需要集群内服务发现，Kubernetes Service 通常够用。为了一个简单注册中心再部署 Consul，会增加 ACL、证书、备份和监控成本。另一个不适合的场景是团队没有跨语言、跨数据中心或 DNS 接入需求，只是少量 Java 服务。工具越完整，误配置空间越大，没有明确收益时简单方案更可靠。

Consul

服务端阅读 05月30日 22:17

什么是 CSRF 攻击？它如何工作，又该怎么防护？

CSRF（跨站请求伪造）不是偷 Cookie，而是借浏览器自动带 Cookie 的机制，冒充用户发起操作。典型流程是：用户已经登录 bank.example，浏览器里有登录 Cookie；随后用户打开攻击者页面，页面自动提交一个转账、改邮箱或删除数据的请求；请求发到 bank.example 时，浏览器会按域名自动带上 Cookie。服务器如果只看 Cookie 判断“用户已登录”，却不校验这次操作是不是从本站页面主动发起，就会把伪造请求当成真实操作。CSRF 成立通常要同时满足几个条件：用户处于登录状态；目标站使用 Cookie、Session 这类浏览器会自动携带的凭证；接口会改变状态；服务端没有校验 CSRF Token、Origin、Referer 或 SameSite 等额外信号。少了其中任何一环，攻击难度都会明显上升。追问CSRF 和普通跨域请求有什么关系？很多人以为浏览器有同源策略，所以 CSRF 发不出去，这是误解。同源策略主要限制攻击者读取跨站响应，不能阻止浏览器发送表单、图片、脚本、跳转这类请求。CSRF 往往不需要读响应，只要服务器执行了“改状态”的动作，攻击就已经成功。CORS 也是类似道理：它控制前端脚本能不能读取响应，不等于所有跨站请求都被拦截。尤其是普通表单提交、图片加载、顶级导航，本来就不依赖 CORS 成功读取响应。GET、POST、JSON API 都会被 CSRF 打中吗？GET 如果只做查询，风险相对小；但如果 GET 做删除、改状态、触发任务，就非常危险，因为 <img>、<script>、<a> 都能轻易触发 GET。POST 表单同样能被恶意页面自动提交，所以“改成 POST”不是完整防护。JSON API 的攻击门槛高一点，因为 application/json 和自定义请求头通常会触发 CORS 预检。但如果服务端错误放开 CORS，或者接口同时兼容表单格式，仍然可能被利用。接口设计上应坚持：读操作和写操作分离，写操作必须带额外校验。CSRF Token 为什么有效？CSRF Token 的作用是证明“请求来自服务端渲染或授权过的本站页面”。服务端生成一个不可预测的随机值，放在页面、meta 标签或接口返回里，前端提交写请求时把它放进隐藏字段或 X-CSRF-Token 请求头。攻击者页面不能读取目标站页面内容，也就拿不到这个随机值。Token 不能随便设计：不要放 URL 里，避免进入日志和 Referer；要绑定用户会话或登录态；过期策略要合理；高风险操作可以使用一次性 Token。Token 校验失败时，应该返回明确的 403，并记录来源、用户、接口和 request id，方便排查误杀。SameSite、Origin、Referer 应该怎么配合？现代防护通常是组合拳。Cookie 设置 SameSite=Lax 可以挡住大量跨站 POST 和 iframe 场景；SameSite=Strict 更安全，但会影响外部链接跳转后的登录体验；必须跨站携带 Cookie 时才用 SameSite=None; Secure。服务端还可以校验 Origin，没有 Origin 时再看 Referer。这两者适合做来源判断和日志审计，但不建议作为唯一防线，因为隐私策略、代理、旧浏览器或特殊跳转可能让头部缺失。更稳的策略是：SameSite 降低默认风险，Token 验证操作意图，Origin/Referer 做辅助拦截。XSS 会不会绕过 CSRF 防护？会。只要攻击者能在你的页面里执行脚本，就可能读取非 HttpOnly 的 CSRF Token，或者直接在同源上下文里调用接口。也就是说，CSRF Token 不能替代 XSS 防护。所以安全设计要分层：Cookie 使用 HttpOnly、Secure、SameSite；页面输出要做转义和 CSP；写接口校验 Token 和来源；高风险操作再加二次确认、幂等号或重新输入密码。不要指望一个机制解决所有问题。示例下面是一个最简单的 CSRF 攻击示例。用户只要打开攻击页面，浏览器就会向目标站发起请求：<form action="https://bank.example/transfer" method="POST"> <input name="to" value="attacker"> <input name="amount" value="1000"></form><script>document.forms[0].submit()</script>服务端防护可以这样做：app.post('/transfer', requireLogin, csrfCheck, async (req, res) => { await transfer(req.user.id, req.body.to, req.body.amount); res.json({ ok: true });});function csrfCheck(req, res, next) { const token = req.get('x-csrf-token') || req.body.csrf_token; if (!token || token !== req.session.csrfToken) return res.sendStatus(403); next();}这段逻辑的重点不是代码长短，而是把“用户已登录”和“用户确实从本站页面发起操作”分开验证。CSRF 正是利用了很多系统只验证前者、忽略后者的漏洞。

CSRF

服务端阅读 05月30日 21:29

CSRF 是冒充用户，XSS 是控制浏览器吗？

可以这样理解：CSRF 是攻击者借用户身份办事，XSS 是攻击者把脚本塞进页面里办事。CSRF 不一定能读取用户数据，它更关心“让服务器执行一个动作”；XSS 则运行在目标网站页面上下文中，能读页面内容、调同源接口、窃取可访问的 Token，危害范围通常更大。追问CSRF 为什么叫冒充用户？因为请求到达服务器时带着用户的登录 Cookie，看起来像用户自己发起。攻击者不需要知道密码，也不需要拿到 Cookie 内容。XSS 为什么叫控制浏览器？XSS 恶意代码运行在目标网站页面里，能访问当前页面允许访问的资源，比如表单内容和同源接口。两者防护会互相替代吗？不会。CSRF Token 解决请求意图校验，输出编码和 CSP 解决脚本注入执行，保护层面不同。实战最常见误判是什么？以为 POST 就不会被 CSRF，或以为 HttpOnly 就没有 XSS 风险。两种判断都不完整。示例<img src="https://app.example.com/change-email?email=a@evil.com"><img src=x onerror="fetch('/api/profile')">

CSRF XSS

服务端阅读 05月30日 21:29

如何防御 CSRF 攻击才不会只防住一半？

防御 CSRF 的核心，是阻止攻击者借浏览器自动携带 Cookie 的能力替用户发起敏感请求。只要登录态放在 Cookie 里，转账、改邮箱、删数据、改密码这类接口都要按跨站诱导来防。稳妥方案是 CSRF Token 打底，再配合 SameSite、Origin 校验和高风险操作二次确认。追问为什么自定义请求头能缓解 CSRF？普通跨站表单、图片、脚本请求不能随意带 X-CSRF-TOKEN。攻击者若用 fetch 加自定义头，会触发 CORS 预检。SameSite=Lax 够不够？对普通站点很有帮助，但不能当唯一防线。浏览器兼容、跨站跳转、第三方嵌入和历史客户端都会带来边界。双重提交 Cookie 有什么限制？它把 Token 同时放在 Cookie 和请求参数里。若子域可写 Cookie 或站点有 XSS，攻击者可能伪造或读取 Token。发现漏洞后优先修哪里？先修所有依赖 Cookie 登录态的写接口，尤其是资金、权限、账号资料和删除类操作。随后补自动化测试。示例<input type="hidden" name="csrf_token" value="{{token}}">

CSRF

服务端阅读 05月30日 21:29

SameSite Cookie 为什么能防止 CSRF？实际配置怎么写？

SameSite Cookie 能防止 CSRF，是因为它把“跨站请求是否携带 Cookie”的决定权交给浏览器。攻击者可以在自己的网站里放自动提交表单或隐藏图片，请求你的站点；但如果浏览器因为 SameSite 策略不发送登录 Cookie，服务端就无法把这次请求识别成已登录用户操作。追问SameSite 防的是哪类 CSRF？它主要防攻击者借浏览器自动带 Cookie 发起的跨站状态修改请求，比如隐藏表单 POST、图片触发 GET 副作用等。Lax 为什么适合作默认值？Strict 会让外部跳转进入站点时也不带 Cookie，体验较差。Lax 保留顶级 GET 导航登录体验，同时拦住更危险的跨站提交。哪些 Cookie 可以设置 None？只有确实需要跨站发送的 Cookie 才应该设置 None，比如第三方登录状态、嵌入式组件或跨站 SSO 临时票据。SameSite 和 CORS 是一回事吗？不是。CORS 决定前端脚本能否读取跨源响应，SameSite 决定跨站请求是否携带 Cookie。写段配置Set-Cookie: session=abc; Secure; HttpOnly; SameSite=Lax; Path=/

CSRF

服务端阅读 05月30日 21:29

Spring Boot 如何正确实现 CSRF 防护？

Spring Boot 里的 CSRF 防护不要一上来就关掉。只要项目还依赖浏览器 Cookie 维持登录态，POST、PUT、DELETE 这类改数据请求就可能被第三方页面借用户身份发出去。正确做法是保留 Spring Security 的 CSRF 校验：服务端生成 Token，前端在表单或请求头里带回，服务端再验证它是否属于当前会话。追问CookieCsrfTokenRepository 为什么要 withHttpOnlyFalse？SPA 需要从 Cookie 读取 Token，再写入 X-CSRF-TOKEN 请求头。代价是脚本也能读到它，所以站点存在 XSS 时风险会被放大。CSRF Token 和 SameSite 是二选一吗？不是。SameSite 是浏览器层面的减风险措施，Token 是服务端验证用户意图。敏感业务最好两者都用。AJAX 一直 403 查哪里？先看 header 名称是否正确，Spring 常用 X-CSRF-TOKEN。再看 Token 是否来自同一会话，登录刷新、多标签旧页面提交都可能不匹配。什么时候可以忽略 CSRF？真正无状态 REST API 使用 Authorization Bearer，浏览器不会自动带这个头，CSRF 风险较低；但 Session Cookie API 不能直接忽略。写段配置.csrf(csrf -> csrf.csrfTokenRepository(CookieCsrfTokenRepository.withHttpOnlyFalse()))

CSRF Spring Boot

服务端阅读 05月30日 21:29

什么是 CSRF 攻击？它需要满足哪些攻击条件？

CSRF 是跨站请求伪造，核心不是偷走用户信息，而是借用用户已经登录的身份去发请求。只要目标站点依赖 Cookie 判断登录态，浏览器又会在请求目标域名时自动带上 Cookie，攻击者就可能诱导用户打开恶意页面，让目标站误以为这次修改密码、转账、删除数据是用户本人操作。它通常需要：用户已登录、目标操作靠 Cookie 认证、接口缺少额外意图校验、攻击者能构造可触发请求。追问CSRF 为什么能利用 Cookie？浏览器发送 Cookie 看的是请求目标域名，不看请求是不是用户主动点的。恶意站不能读取 Cookie，但能诱导浏览器带 Cookie 发请求。哪些接口最容易被打中？所有会改变状态的接口都要重点看，比如转账、改邮箱、改密码、删除数据、绑定账号。GET 接口如果偷偷做写操作也很危险。CORS 拦住跨域响应还有 CSRF 风险吗？有。CORS 主要限制攻击者读取响应，CSRF 很多时候只需要请求被执行，不需要看到结果。实际项目怎么防？常见组合是 CSRF Token + SameSite Cookie + Origin/Referer 校验。Token 证明页面来自本站，SameSite 降低自动带 Cookie 概率。示例<form action="https://bank.example/transfer" method="POST"> <input name="to" value="attacker"></form><script>document.forms[0].submit()</script>

CSRF

服务端阅读 05月30日 21:29

CSRF 和 XSS 有什么区别？项目里如何区分和防护？

CSRF 和 XSS 都是 Web 安全高频问题，但攻击点完全不同。CSRF 是“冒充用户发请求”：攻击者利用用户已登录的 Cookie，让服务器执行用户并不想做的操作。XSS 是“让脚本跑进用户页面”：攻击者把恶意 JavaScript 注入目标站上下文里，读取页面、窃取 Token、调用接口甚至进一步发起 CSRF。区分时记一句话：CSRF 主要骗服务器，XSS 主要控制浏览器。追问两者攻击前提有什么不同？CSRF 通常要求用户已登录目标站，且敏感接口只靠 Cookie 认证。XSS 要求页面存在输入输出处理漏洞。为什么 XSS 往往更危险？XSS 拿到的是页面执行权，可以读取 DOM、调用接口、窃取非 HttpOnly Token，还可能绕过很多 CSRF 防护。HttpOnly Cookie 能防哪一种？HttpOnly 防止 XSS 直接读 Cookie，但不能阻止脚本发同源请求，也不能单独防 CSRF。防护策略怎么分工？防 CSRF 用 Token、SameSite、Origin/Referer；防 XSS 用输出编码、CSP、避免危险 API 和 HttpOnly/Secure Cookie。示例<form action="https://bank.example/transfer" method="POST"></form><script>fetch('/api/me')</script>

CSRF XSS