C++ 性能怎么优化？编译器/缓存/并发三层面实战指南

Question

Levenx · Accepted Answer

C++ 性能优化的核心原则是"先测量，再优化"。编译器层面，-O2 是发布标配，-O3 会启用更激进的自动向量化和循环展开但可能引入浮点精度变化；-flto 链接时优化让编译器跨翻译单元内联，-march=native 生成针对当前 CPU 的指令，非同构集群部署时禁用。内存层面，缓存命中率是第一瓶颈——CPU 从 L1 读数据约 1ns，从主存读约 100ns，差两个数量级；数据结构要按访问模式紧凑排列，避免伪共享（多线程各自原子递增同一缓存行的不同变量，每次都要跨核同步缓存行）。算法层面，选对容器比微优化重要百倍：vector 连续内存缓存友好，unordered_map 查找 O(1) 但每个桶都是堆分配的链表节点，随机访存对缓存不友好。并发层面，atomic 比 mutex 轻量但要选对 memory_order，无锁不等于高性能——CAS 自旋在竞争激烈时比互斥锁更慢。追问-O2 和 -O3 实际差多少？-O3 相比 -O2 额外开启循环向量化、循环内条件外提等优化。数值密集型计算在 -O3 下可能快 10-30%，但 -O3 会把 memcpy 语义的 struct 拷贝优

C++ 性能怎么优化？编译器/缓存/并发三层面实战指南

追问

-O2 和 -O3 实际差多少？

缓存友好的数据布局具体怎么做？

移动语义什么时候不生效？

atomic 的 memory_order 怎么选？

性能分析工具怎么用？