题目内容
(请给出正确答案)
[单选题]
下面对上限置信区间(Upper Confidence Bound, UCB)算法在多臂赌博机中的描述,哪句描述是不正确的()?
A.UCB算法是优化序列决策问题的方法
B.UCB算法每次随机选择一个赌博机来拉动其臂膀
C.UCB算法既考虑拉动在过去时间内获得最大平均奖赏的赌博机,又希望去选择那些拉动臂膀次数最少的赌博机
D.UCB算法在探索-利用(exploration-exploitation)之间寻找平衡
查看答案
如果结果不匹配,请 联系老师 获取答案