找到 2 个结果
Benchmax是一个框架,用于为LLM强化学习微调定义、运行和并行化RL环境。它通过内部部署的Model Context Protocol (MCP) 服务器,以标准化的方式向LLM客户端提供环境中的上下文信息、可调用工具和奖励机制。
HUD Python是一个开源工具包,用于构建、评估和训练AI智能体,通过将软件封装为基于MCP协议的交互式环境,实现本地或大规模的基准测试和强化学习。