本文稍微讨论了一下 MPO: Boosting LLM Agents with Meta Plan Optimization 这篇文章。
大型语言模型(LLM)近年来取得了显著进展,使LLM Agent能够处理复杂的多步骤任务,如家务和科学实验。这些任务需要高级规划能力,包括理解长期依赖、推理顺序行动和适应动态环境。然而,现有方法往往依赖隐式规划,容易出现规划幻觉(planning hallucinations),且每次新Agent都需要重新训练,计算成本高。此外,一些研究尝试使用显式知识指导,但需要大量人工努力或缺乏质量保证,效果不稳定。
论文提出了元计划优化(Meta Plan Optimization, MPO)框架,通过在规划时引入元计划提供显式、高层次的抽象指导,解决上述问题。元计划与具体环境细节解耦,基于Agent任务执行的反馈进行持续优化。具体实现依然是prompt engineering方法,这种方法即插即用,能显著提高任务完成效率和泛化能力,尤其在未见场景中表现突出。
在ALFWorld和ScienceWorld等基准测试中,MPO展示了显著的性能提升,某些情况下改善率高达100%。这表明MPO在增强LLMAgent规划能力方面具有潜力。
论文的代码可以在作者的 GitHub 仓库找到。
针对上述挑战,论文提出了元计划优化(Meta Plan Optimization, MPO)框架,旨在通过显式指导增强Agent的规划能力。MPO的核心在于引入元计划(meta plans),这些计划提供高层次、抽象的指导,与具体环境细节解耦。这种设计使得元计划具有通用性和可重用性,能够适应不同的任务和Agent。
MPO的另一个关键特点是基于Agent任务执行的反馈对元计划进行持续优化。这种反馈循环使框架能够动态调整和改进规划策略,使其成为即插即用的解决方案,无需对每个新Agent进行广泛的重新训练。这不仅降低了计算成本,还提高了任务完成效率和泛化能力,尤其在未见场景中表现突出。
为了验证MPO的有效性,论文在两个基准测试中进行了实验:ALFWorld(Shridhar等,2020)和ScienceWorld(Wang等,2022)。这些基准测试涵盖了复杂的多步骤任务,适合评估Agent的规划能力。
实验结果显示,MPO在这些基准测试中的表现显著优于现有方法。在某些情况下,性能改善率高达100%,这表明MPO在增强LLMAgent规划能力方面具有巨大潜力。这种结果出人意料,因为传统方法往往在未见场景中表现不佳,而MPO通过元计划的优化展现了强大的泛化能力。
虽然MPO在实验中表现出色,但其依赖反馈优化的特性可能在某些场景下受限,例如反馈质量不高或任务环境过于动态时。
在工程上,元计划和其他诱导规划的prompt在实现中很相似,本质上都降低了0-shot Agent的泛化能力来提高特定任务的遵从效果;这意味着实际运用时元计划的设计和优化过程需要一定的领域知识,在生产环境中做好领域隔离。