← 返回首页

"强化学习"标签的搜索结果

找到 2 个结果

Benchmax MCP 环境服务

Benchmax是一个框架,用于为LLM强化学习微调定义、运行和并行化RL环境。它通过内部部署的Model Context Protocol (MCP) 服务器,以标准化的方式向LLM客户端提供环境中的上下文信息、可调用工具和奖励机制。

HUD Python: AI智能体环境与评估平台

HUD Python是一个开源工具包,用于构建、评估和训练AI智能体,通过将软件封装为基于MCP协议的交互式环境,实现本地或大规模的基准测试和强化学习。