AIAB 系统实验原理与架构解析

云眼2025年9月12日大约 8 分钟

AIAB 系统实验原理与架构解析

系统核心定位与整体架构

AIAB 系统（大模型应用专属 A/B 测试技术体系）是针对大模型应用从开发验证到上线迭代的全生命周期测试需求，构建的专业化技术方案，核心目标是解决传统测试方式在大模型场景下 “测试流程分散、决策依据模糊、流量管控低效” 的行业痛点。其架构基于 “前端交互 - 本地处理 - 后端管控” 的三层设计逻辑，形成 “AI-AB 子系统与云眼 AB 测试主系统” 的协同模式，与原理图呈现的模块分工及数据流向对应。

前端交互与本地分桶层（AIAB 子系统承载）：作为用户与大模型应用的唯一交互入口，明确其功能边界 —— 仅提供 “聊天界面” 与 “用户评价” 两大核心交互功能，不包含任何实验配置相关操作入口；同时内置独立分桶模块，可自主完成流量分组计算，无需依赖云眼 AB 测试主系统实时传输参数或发起请求，实现 “交互与分桶” 的本地化闭环。
核心配置与分析层（云眼 AB 测试主系统承载）：承担实验全流程的全局管控职能，是实验规则的唯一配置入口，负责分桶策略、流量占比、评估指标等核心参数的设置；同时接收 AIAB 子系统传输的数据，进行深度分析与结果展示，是实验科学性与可靠性的核心保障。

核心系统协同机制

AI-AB 子系统与云眼 AB 测试主系统的协同基于 “主系统配置管控、子系统执行反馈” 的原则，二者职能边界清晰且协作高效，确保每一项功能均能对应到具体模块，避免功能重叠或职责模糊。

AIAB 子系统

AI-AB 子系统作为 “用户与大模型应用的交互桥梁”，其核心职能严格限定在 “前端模块 + 分桶执行模块” 的功能范围内，无任何超额功能设计：

用户交互功能：前端 Web 页面仅保留 “聊天界面” 与 “用户评价入口”—— 用户通过聊天界面发起大模型调用请求（如智能问答），交互结束后可通过评价入口提交满意度反馈（如星级评分），不开放实验名称修改、流量占比调整等配置类操作，从源头避免非专业操作干扰测试流程，同时减少前端代码冗余，提升页面加载与响应速度。
内置分桶模块的独立执行：搭载本地化分桶计算模块，分桶逻辑完全基于云眼 AB 测试主系统预设的规则（如流量占比）。当用户发起交互时，系统自动提取 “用户 ID”，调用内置分桶，结合主系统设置的测试组数量（如 A/B 两组、A/B/C 三组）与流量占比（如 A 组 40%、B 组 60%），计算并确定用户归属的测试组，同一用户在整个实验周期内始终归属同一测试组
全量数据采集与标准化上传：在用户交互过程中，自动采集四类核心数据，形成完整的测试数据链条。
- 用户标识数据：如用户 ID等，用于关联分桶结果与后续数据分析；
- 分桶结果数据：如归属测试组（A/B 组）、对应大模型版本（V1.0/V2.0）；
- 交互内容数据：如用户提问内容、大模型回复文本、请求发起时间、响应完成时间（用于计算响应时长），判断大模型交互质量；
- 用户反馈数据：如满意度星级。
大模型请求转发适配：根据本地分桶结果，自动匹配对应版本大模型的接口信息（如接口地址、鉴钥等），将用户发起的原始请求转换为目标大模型可识别的格式，并通过内部通道转发至大模型；大模型返回结果后，系统将结果实时展示在聊天界面，整个过程对用户完全透明，不影响原有交互体验。

云眼 AB 测试主系统

云眼 AB 测试主系统作为 “实验全流程的管控核心”，其职能覆盖原理图中 “配置模块 + 数据接收模块 + 分析模块 + 结果模块” 的全链路，是确保测试科学性与决策有效性的关键：

实验全量配置管控：作为实验规则的唯一设置入口，通过主系统界面完成三类核心配置，所有配置结果直接决定 AIAB 子系统的分桶逻辑与数据采集维度：
- 测试对象配置：录入待测试的大模型版本信息，包括大模型名称、各种参数；
- 分桶规则配置：设定测试组数量（如 A/B 两组对比、A/B/C 三组对比）、各测试组流量占比（如 A 组 30%、B 组 70%），规则配置完成后直接作用于 AIAB 子系统的分桶模块，无需额外同步操作；
- 评估指标配置：定义测试的核心评估维度，包括技术指标（如响应时长、Token 消耗量、成本）与业务指标（如用户评分）。
数据接收与整合：通过专用数据接口接收 AIAB 子系统上传的全量数据，通过接口监听机制采集大模型的资源消耗数据（如单次调用的 Token 消耗量、计算成本、用户评分等），并将其与 AIAB 子系统传输的 “用户标识数据 + 分桶结果数据” 关联，形成 “用户 - 分桶 - 交互 - 资源消耗” 的完整数据集。
结果展示与决策支撑：将分析结果以 “可视化报告” 形式呈现：提供指标对比表（含均值）、趋势折线图（如每日响应时长变化）

所有报告仅在云眼 AB 测试主系统内展示，不向 AIAB 子系统同步，确保开发者可集中获取决策依据，避免多平台切换导致的效率降低。

全流程工作原理

AIAB 系统的工作流程围绕 “主系统配置管控 + 子系统本地执行” 的核心逻辑展开，每个环节均能对应到原理图中的模块与数据流向，实现 “配置 - 分桶 - 交互 - 分析 - 决策” 的完整闭环，确保测试流程可复现、可追溯：

实验配置

登录云眼 AB 测试主系统的配置管理界面，创建新实验并录入基础信息
完成测试对象配置：录入待测试的大模型版本信息，如模型名称、模型参数
设置分桶规则：选择测试组数量为 2 组（A 组对应 V1.0、B 组对应 V2.0），流量占比为 A 组 40%、B 组 60%
定义评估指标体系：技术指标、业务指标，设置指标阈值（如升高为优）；
配置完成后，系统生成唯一实验 ID，并将分桶规则、测试对象信息等预设为 AIAB 子系统分桶模块的执行依据，整个过程与 AIAB 子系统无实时交互，仅通过系统初始化完成规则预置。

用户交互与本地分桶执行

用户打开基于大模型的应用，系统自动跳转至 AIAB 子系统的前端 Web 页面，仅展示 “聊天输入框”“历史对话区” 与 “满意度评价弹窗”；
用户在聊天输入框中输入需求，点击发送后，AI-AB 子系统前端将请求同步至后台，并自动提取用户 ID；
本地分桶模块启动计算：对用户进行分桶，获取分桶结果；
大模型请求转发：AIAB 子系统根据分桶结果，获取配置中的大模型信息，向实际的大模型发起请求
交互结果展示与反馈采集：AIAB 子系统前端将实际响应结果展示在历史对话区，同时弹出满意度评价弹窗，用户选择 “5 星” 并提交

数据上传与核心分析

AI-AB 子系统将分桶结果、响应时长、满意度评分（5 星）、token消耗数，成本等内容上传至云眼 AB 测试主系统；
云眼 AB 测试主系统接收数据后，自动关联从接口采集的 “Token 消耗量（如：180 Token）、调用成本”

结果展示

云眼 AB 测试主系统生成实验报告，报告中每个指标都有相关指标数据的折线图，直观的感受测试结果