本页面由机器翻译生成,以英文版本为准。 查看英文版
§ Software · 03 · Intelligence · Flagship

驱动成果的 AI——而非演示文稿。

我们设计并部署能够投入生产的 AI。LLM 驱动的副驾、预测模型和 ML 流水线——由一支资深团队选型、构建、评估、部署并监测,并在运行第一年内对系统负责到底。

服务
第 03 / 共 06 · 旗舰
基础模型合作伙伴
Anthropic · OpenAI · Cohere
云平台
Azure AI Foundry · AWS Bedrock · Databricks
合作模式
资深合伙人主导
§ Capabilities

我们构建什么。

01 · LLM Copilots

领域调优的
助手

面向工厂操作人员、法务团队、分析师和现场工程师的领域调优助手。检索增强、引用证据,并带有可审计的响应追踪。

RAG 工具使用 审计追踪
02 · Predictive Intelligence

故障预测
与异常检测

基于运营数据训练的故障预测、异常检测和预测模型——振动特征、遥测数据、交易流、理赔历史。

时间序列 梯度提升 异常检测
03 · MLOps Pipelines

让 AI 持续存活的
支撑骨架

训练、评估、部署和监测基础设施。可复现的运行、注册的模型以及回滚。这些枯燥的支撑骨架让 AI 在生产环境中存活多年。

可复现 模型注册表 回滚
04 · Foundation Model Integration

为 Claude、GPT、Cohere
进行生产级接入

为 Anthropic Claude、OpenAI、Cohere 和 Azure AI Foundry 进行生产级接入——包含提示缓存、工具使用、结构化输出和回退策略。

Claude OpenAI 提示缓存
05 · Custom Model Development

当基础模型
并非答案时

当基础模型并非正确答案时:经典 ML、梯度提升、深度学习、时间序列,以及在有必要时的强化学习试点。

XGBoost PyTorch RL 试点
06 · Evaluation & Safety

评测、红队、
策略合规

离线与在线评测、黄金集、人工审查闭环、红队演练和策略合规——内建于部署流水线之中,而非事后补救。

黄金集 红队 人工审查
§ Discovery

我们不从模型开始。我们从决策开始。

如果我们写不出终止标准,就无法论证这次构建的合理性。

Droz 的每个 AI 合作项目都始于为期一至两周的问题界定工作。目标是识别出 AI 将要改变的决策——一项维护计划、一次分诊路由、一次理赔裁定、一次采购评分——以及今天做错这一决策的代价。

由此,我们反向推导出数据、模型选型、集成和上线。大多数合作项目在这一阶段会避免一两次错误的开端:那个"听起来像 LLM"的工作负载其实是一个结构化规则引擎;那个"需要深度学习"的预测任务其实只需在更好的特征上做梯度提升。

探索的产出是一份书面简报:决策、基线、候选方案、数据、大致量级估算以及终止标准。可签署;可审阅;可审计。

§ Approach

基础模型 vs 定制模型——何时用哪种。

A · Foundation models

Claude、GPT、Cohere、Azure AI Foundry

  • 任务富含语言(起草、摘要、对自由文本分类、对话)。
  • 您需要在数周内交付,而非数个季度。
  • 模式灵活性比延迟成本更重要。
  • 检索增强生成(RAG)为模型提供所需的领域上下文。
B · Custom models

经训练、自有、确定性

  • 任务是结构化的(预测、评分、异常检测、视觉)。
  • 推理延迟必须低于 50 毫秒,或成本必须具有确定性。
  • 训练数据已存在且足够大(通常 1 万个以上标注样本)。
  • 您需要完全拥有模型权重和训练流水线。
Hybrid · the common case

基础模型编排工作流;定制模型处理确定性的子任务。我们同时设计两个部分以及二者之间的契约。

§ MLOps

训练 → 评估 → 部署 → 监测。

01 · Training
01
训练

在 Databricks、SageMaker 或 Azure ML 中的可复现流水线。版本化的数据集、注册的特征、可追踪的实验。每个模型都有谱系。

02 · Evaluation
02
评估

在黄金集上的离线评测 + 留出测试;安全 / 红队评测;核心指标的统计置信区间。未通过的模型不会被晋级。

03 · Deployment
03
部署

金丝雀发布。影子运行。在线模型采用蓝绿部署。预测模型采用批量刷新。每次部署均可一键回退。

04 · Monitoring
04
监测

对输入、输出和下游决策进行漂移检测。质量仪表盘。低置信度预测的人工审查队列。会唤醒值班人员的告警。

§ Integration

模型是一项服务。我们将这项服务接入您的业务。

只有当 AI 系统嵌入操作人员的工作流之中时,它才真正有用。我们将模型部署在版本化的 API 之后,配备结构化日志、基于角色的访问控制,以及操作人员可审计的证据面板。

在 LLM 一侧,我们交付工具使用契约、输出模式(后端用 Pydantic;前端用 Zod)、提示缓存以及优雅的回退。在 ML 一侧,我们将批量预测交付到您的数据仓库、将在线推理部署在 API 网关之后,并提供模型可信赖的特征存储。

我们还构建面向人的界面——仪表盘、告警、覆盖控制、审查队列。重点是决策支持,而非取代决策。

集成术语
  • 版本化 API(REST + OpenAPI)
  • 工具使用契约(LLM)
  • 输出模式(Pydantic / Zod)
  • 提示缓存策略
  • 回退与熔断器
  • RBAC + 审计追踪
  • 供操作人员审查的证据面板
  • 覆盖控制与人在闭环
§ Stack

工具与技术。

Foundation model partners

Anthropic(Claude)、OpenAI、Cohere、Azure AI Foundry、AWS Bedrock。

Claude OpenAI Cohere Azure AI Foundry AWS Bedrock
ML platforms

Databricks、Azure ML、SageMaker、Vertex AI。

Databricks Azure ML SageMaker Vertex AI
Frameworks

PyTorch、scikit-learn、XGBoost、LightGBM、transformers、sentence-transformers、LangGraph(在编排有需要时)。

PyTorch XGBoost LightGBM LangGraph
Data & infra

Snowflake、PostgreSQL + pgvector、Pinecone、Weaviate、Parquet、Apache Spark、Airflow、Kubeflow。

Snowflake pgvector Pinecone Airflow

交叉引用 — 完整合作伙伴简介 · 完整技术清单 · 云底层

§ Reference work

这些在生产环境中运行之处。

§ Industries served
AI 落地之处。

下方列出六个代表性领域。完整的 17 个行业清单见行业概览

§ Engage Droz · Intelligence
有应该早已运行起来的 AI?我们设计它、构建它、评估它、部署它,并承担值班轮值。