标签

Tensorflow

TensorFlow 是一个专为深度学习而设计的开源库和 API，由 Google 编写和维护。将此标签与特定于语言的标签（[python]、[c++]、[javascript]、[r] 等）结合使用，以解决有关使用 API 解决机器学习问题的问题。TensorFlow API 可以使用的编程语言各不相同，因此您必须指定编程语言。

面试题37 问题108

查看更多相关内容

服务端5月28日 02:03

TensorFlow Serving是什么？如何用它部署模型？## TensorFlow Serving 是什么？ TensorFlow Serving 是 Google 开源的高性能模型服务系统，用 C++ 编写，专门为生产环境设计。它的核心能力是把训练好的 TensorFlow 模型以 REST API 或 gRPC 接口对外提供推理服务，同时支持模型版本管理、热更新和多模型并行托管。跟 Flask 封一个模型接口相比，TFS 的优势在于：gRPC 协议带来的低延迟（通常比 REST 快 3-10 倍）、内置的版本策略（支持同时服务多个版本做 A/B 测试）、以及自动模型加载/卸载机制。简单说，Flask 能做的 TFS 都能做，而且更适合高并发场景。 TFS 的架构核心是 **Servable** 抽象——模型、词表、查找表都可以是 Servable。Manager 负责管理 Servable 的生命周期，Source 监控文件系统发现新版本，Loader 负责加载和估算资源。这种解耦设计让 TFS 可以在不中断服务的情况下完成模型切换。 ## 怎么用 TensorFlow Serving 部署模型？部署流程分三步：导出模型 → 启动服务 → 调用推理接口。 ### 第一步：导出 SavedModel 格式 TFS 只认 SavedModel 格式，不支持 Checkpoint。导出时需要指定签名（SignatureDef），告诉 TFS 输入输出分别叫什么、是什么类型。 ```python import tensorflow as tf # 假设 model 是你训练好的 Keras 模型 model.save("/models/my_model/1") # 数字 1 是版本号 # 也可以用 tf.saved_model.save 手动控制签名 tf.saved_model.save(model, "/models/my_model/1", signatures={ 'serving_default': model.__call__.get_concrete_function( tf.TensorSpec(shape=[None, 3], dtype=tf.float32) ) } ) ``` 导出后用 `saved_model_cli` 检查签名是否正确： ```bash saved_model_cli show --dir /models/my_model/1 --all ``` 输出会列出签名的输入输出名称、dtype 和 shape。这一步很关键——调用时字段名必须和签名一致，否则报错。导出后的目录结构： ``` /models/my_model/ └── 1/ # 版本号（必须是整数） ├── saved_model.pb # 模型结构和元数据 └── variables/ # 模型权重 ``` 关键点：版本号必须是整数，TFS 按数字大小判断最新版本。热更新时只需在同级目录新建 `2/` 文件夹放入新模型，TFS 会自动检测并加载。 ### 第二步：启动 TFS 服务最简单的方式是 Docker： ```bash docker run -d --name tfs \ -p 8501:8501 \ -p 8500:8500 \ -v /models/my_model:/models/my_model \ -e MODEL_NAME=my_model \ tensorflow/serving ``` 端口说明： - 8501：REST API（`/v1/models/{model}:predict`） - 8500：gRPC 也可以用二进制直接启动，适合需要精细控制的场景： ```bash tensorflow_model_server \ --model_config_file=models.conf \ --rest_api_port=8501 \ --grpc_port=8500 \ --enable_batching=true \ --batching_parameters_file=batcningenning_config.txt ``` 多模型配置文件 `models.conf`： ``` model_config_list { config { name: "model_a" base_path: "/models/model_a" model_platform: "tensorflow" model_version_policy { specific { versions: 1 versions: 2 } } } config { name: "model_b" base_path: "/models/model_b" model_platform: "tensorflow" } } ``` ### 第三步：调用推理接口 REST API 调用（更简单，适合调试）： ```bash curl -X POST http://localhost:8501/v1/models/my_model:predict \ -H "Content-Type: application/json" \ -d '{"instances": [[1.0, 2.0, 3.0]]}' ``` 注意 `instances` 字段对应的是 SignatureDef 中定义的输入名。如果签名中输入名不是默认的，需要用 `inputs` 字段显式指定： ```json { "inputs": { "input_tensor": [[1.0, 2.0, 3.0]] } } ``` gRPC 调用（性能更好，适合生产）： ```python import grpc import numpy as np import tensorflow as tf from tensorflow_serving.apis import predict_pb2, prediction_service_pb2_grpc channel = grpc.insecure_channel('localhost:8500') stub = prediction_service_pb2_grpc.PredictionServiceStub(channel) request = predict_pb2.PredictRequest() request.model_spec.name = 'my_model' request.model_spec.signature_name = 'serving_default' request.inputs['input_tensor'].CopyFrom( tf.make_tensor_proto(np.array([[1.0, 2.0, 3.0]]), dtype=tf.float32) ) response = stub.Predict(request, 10.0) # 10秒超时 result = tf.make_ndarray(response.outputs['output_tensor']) ``` gRPC 比 REST 快的核心原因是使用 Protocol Buffers 序列化，省去了 JSON 解析开销，且支持长连接多路复用。 ## 模型版本管理怎么配？ TFS 支持三种版本策略： - **可用性优先**（默认）：新版本加载完成后才切换，旧版本继续服务直到新版本就绪，零停机 - **资源优先**：先卸载旧版本再加载新版本，节省内存但会有短暂不可用 - **指定版本**：固定使用某个版本号，适合回滚场景通过 `model_version_policy` 配置： ``` model_version_policy { specific { versions: 1 versions: 2 } } ``` A/B 测试场景下，可以同时加载多个版本，调用时通过 URL 参数 `?version=2` 或 gRPC 的 `model_spec.version` 指定调用哪个版本。热更新操作：在模型目录下新建版本号文件夹放入新模型即可。TFS 的 Source 模块会定期轮询文件系统（默认 2 秒），发现新版本后自动触发加载。也可以通过 gRPC 调用 `ReloadConfig` API 手动触发。 ## TFS 和其他部署方案怎么选？ | 方案 | 适用场景 | 协议 | 多框架支持 | 生产成熟度 | |------|---------|------|-----------|-----------| | TensorFlow Serving | TF 模型、高并发 | gRPC + REST | 仅 TensorFlow | 高 | | TorchServe | PyTorch 模型 | REST + gRPC | 仅 PyTorch | 中（已归档） | | NVIDIA Triton | 多框架混合 | HTTP + gRPC | TF/PyTorch/ONNX/TensorRT | 高 | | FastAPI/Flask | 快速验证、自定义逻辑 | REST | 任意框架 | 低 | 选型建议：纯 TF 生态用 TFS 就够了；多框架混合部署考虑 Triton；快速原型验证用 FastAPI 更灵活。注意 TorchServe 已于 2025 年 8 月归档，如果之前在用建议迁移到 Triton。 ## 生产环境要注意什么？ **性能优化**： - 开启 batching：TFS 内置请求批处理，设置 `--enable_batching` 和 `--batching_parameters_file` 可以把多个请求合并成一个大 batch 再推理，显著提升吞吐。典型配置下吞吐可提升 3-5 倍，但 P99 延迟会增加 - 用 TensorRT 优化：`--model_platform: "tensorflow_tensorrt"` 可以把模型转为 TensorRT 格式，推理速度提升 2-8 倍，适合 GPU 部署 - 调整 `inter_op_parallelism` 和 `intra_op_parallelism` 线程数，通常设为 CPU 核心数 **监控**： - Prometheus 指标：TFS 默认暴露 `http://localhost:8501/monitoring/prometheus` 端点，包含请求延迟、QPS、模型加载状态、批处理统计等指标 - 健康检查：`GET /v1/models/my_model` 返回模型状态，可配合 Kubernetes liveness/readiness probe **高可用**： - 多副本部署 + 负载均衡，避免单点故障 - Kubernetes 集成：官方提供 TF Serving 的 Helm Chart，支持 HPA 自动扩缩容 - 模型存储建议用 NFS 或对象存储挂载，配合 CI/CD 管道自动推送新版本 **常见坑**： - 模型签名不匹配是最常见的报错原因，部署前务必用 `saved_model_cli` 验证 - Docker 镜像分 CPU 和 GPU 版本，GPU 版本需要安装 NVIDIA Container Toolkit - 大模型首次加载耗时较长，建议预热（启动后发几条测试请求触发懒加载） ## 追问：TFS 能服务非 TensorFlow 模型吗？不能直接服务。TFS 只支持 SavedModel 格式，也就是说只认 TensorFlow 模型。如果需要服务 PyTorch 或 ONNX 模型，要么先转换格式（ONNX → TF），要么换用 NVIDIA Triton 这种多框架服务系统。不过在实际生产中，模型格式转换往往引入精度损失，不建议这么做。更实际的做法是按框架选择对应的服务系统，或者直接上 Triton 统一托管。