工具使用的四大能力之间有什么区别吗？（调用api，检索api，规划api，通用工具使用) #5

DryPilgrim · 2023-11-15T02:26:26Z

如题，
1.工具使用的四大能力之间有什么区别吗？（调用api，检索api，规划api，通用工具使用)
2.他们的测试集、测试方法、评估指标分别是啥呀？

感谢您的回答：）

brightmart · 2023-11-16T08:37:08Z

brightmart · 2023-11-16T08:39:17Z

Agent基准参考了OPEN基准，采用被测模型与代表性国际模型进行对战形式，计算胜率。
具体的，被测模型与3.5进行对战，计算胜（得3分）、平（得1分）、和（得0分）的成绩，算总成绩，并进行归一化。总之，这是相对于同一个基准模型的相对分数或成绩。

zhangbaijin · 2023-11-30T02:17:23Z

你好，可以开源评测代码吗

goqw · 2024-04-16T02:17:00Z

完全没看懂function calling的评测方法，或许根本就没有。

Provide feedback