2026年春江苏开放大学强化学习形考作业2学习资料与答题思路整理

2026年4月27日 57点热度 0人点赞 0条评论

2026年春江苏开放大学强化学习形考作业2

本文围绕该课程资料进行整理，重点用于课程复习、知识点理解和答题思路参考。学习时建议先理解题目涉及的概念、章节知识点和答题逻辑，再结合个人学习情况进行归纳。

一、资料内容

注意：因为学习平台题目是随机，选择题选项也是随机，一定注意对应的选项，同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目，还是不懂的话可以看这个：快速答题技巧

一、2026年春江苏开放大学强化学习形考作业2单选题

1、Q表格的概念中，（）

A、表格中每一个坐标点对应某时刻智能体的状态

B、以每执行若干步，就对Q表格进行更新

C、与时间差分法毫无关系

D、其表示形式是表格，其中表格的横轴为动作（智能体的动作），纵轴为环境的状态。

正确：D

2、Q表格中Q函数的意义是（）

A、在强化学习里面，我们可以每走一步更新一次Q表格，用下一个状态的Q值来更新当前状态的Q值。

B、Q表格，一般它的行数是所有动作的数量。

C、最开始的时候，Q表格会全部初始化任意值。

正确：A

题型：单选题客观题分值5分难度：简单得分：0

3、下列关于策略下状态价值vπs的表达式正确的是（）

注：下列选项中π表示策略，v表示折扣因⼦，Rt表示t时刻奖励，St表示t时刻状态，At表示t时刻动作。

学生：C（错的）

4、在蒙特卡洛方法中，估计一个问题的期望值通常依赖于：

A、通过穷举所有可能的情况来计算期望

B、随机生成多个样本，并计算它们的平均值

C、通过公式直接计算期望

D、使用动态规划来避免重复计算

正确：B

5、Bellman方程在计算Q(s,a)时，折扣因子γ的作用是什么？

A、它决定了未来奖励的重要性

B、它用来衡量当前奖励的重要性

C、它是奖励的直接来源

D、它只影响状态的转换

正确：A

6、下列哪个是Q-learning算法的特点？

A、需要知道环境的转移概率和奖励函数

B、依赖于策略的梯度方法

C、是一种无模型的强化学习方法

D、只能处理离散动作空间

正确：C

7、Sarsa和Q-learning的主要区别是：

A、Sarsa是基于策略的，而Q-learning是基于值的

B、Q-learning是基于策略的，而Sarsa是基于值的

C、Sarsa更新时采用当前策略的动作，而Q-learning采用最优动作

D、Sarsa通过回放来更新Q值，而Q-learning不使用回放

正确：C

8、蒙特卡洛方法（）

A、蒙特卡洛方法需要马尔可夫决策过程的状态转移函数和奖励函数。

B、蒙特卡洛方法需要更新多条轨迹的状态。

C、适用于环境未知的情况。

D、蒙特卡洛方法与动态规划是一个概念。

正确：C

9、Q-learning算法中，Q函数是

A、状态-动作值函数

B、状态函数

C、估值函数

D、奖励函数

正确：A

10、在三连棋游戏中，如果玩家的第⼀步棋选择⾛中间，那么下列分析错误的是（）

A、电脑下⼀步选择⻆或边的概率各为1/2。

B、若电脑选择边，则⼈类玩家有必胜策略。

C、若电脑选择⻆，则⼈类玩家的最佳动作是选择边，有的概率可以获胜。

D、可以获得的期望奖励为1*1/2+1*(1/2)*(2/3)=5/6。

正确：C

题型：单选题客观题分值5分难度：一般得分：0

11、下列关于状态价值V(s)的表达式正确的是（）

注：下列选项中π表示策略，v表示折扣因⼦，rt表示t时刻奖励，s表示t时刻状态，a表示t时刻动作。

学生：A（错的）

12、动态规划的核心思想是什么？

A、通过分治将问题拆分为更小的子问题

B、通过试探和回溯来探索所有可能的解决方案

C、将问题拆解为子问题并通过存储子问题的解来避免重复计算

D、通过贪心选择每次局部最优解来得到全局最优解

正确：C

二、2026年春江苏开放大学强化学习形考作业2多选题

1、策略迭代法的核⼼步骤包括哪两个部分（）

A、策略评估

B、状态价值计算

C、策略提升

D、使⽤贪心策略

正确：A；C

题型：多选题客观题分值5分难度：简单得分：0

2、下列哪些是常见的用于强化学习实验的环境和框架？

A、OpenAI Gym

B、TensorFlow

C、PyTorch

D、Scikit-learn

E、Unity ML-Agents

F、Pandas

G、Keras

学生：A；B；E（错的）

3、在强化学习中，以下哪些因素会影响状态-动作价值函数Q(s,a)的计算？

A、当前状态s和动作a

B、状态转移概率

C、即时奖励R(s,a)

D、折扣因子γ

E、未来状态s’及其对应的动作a’的价值

免责声明：本站不对内容的完整性、权威性及其观点立场正确性做任何保证或承诺！付费为资源整合费用，前请自行鉴别。

免费：形考作业所有题目均出自课程讲义中，可自行学习寻找题目，本站内容可作为临时参考工具，但不应完全依赖，建议仅作为辅助核对的工具，而非直接使用！

二、学习使用建议

建议将本文内容作为复习参考，重点关注题干关键词、知识点出处、答题层次和表达方式。对于简答题、论述题或案例题，可按照“概念说明—原因分析—结合材料—总结观点”的思路组织答案。

说明：本站内容仅供学习交流与知识理解使用，不提供代考、替学、代写等违规服务。如需课程知识点讲解、资料整理或答题思路辅导，可联系进行学习辅导。