南开22秋学期《大数据开发技术（

2022年 11月 23日 431点热度 0人点赞 0条评论

22秋学期（高起本1709-1803、全层次1809-2103）《大数据开发技术（二）》在线作业-00003

试卷总分:100 得分:100

一、单选题 (共 25 道试题,共 50 分)

1.以下算法中属于聚类算法的是（）

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

2.Spark GraphX中类Graph的reverse方法可以（）

A.反转图中所有边的方向

B.按照设定条件取出子图

C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性

D.合并边相同的属性

3.GraphX中（）是提供顶点的各种操作方法的对象

A.RDD[Edge]

B.EdgeRDD

C.RDD[(VertexId,VD)]

D.VertexRDD

4.Spark Streming中DStream的每个RDD都是由（）分割开来的数据集

A.分区

B.一小段时间

C.数据量

D.随机

5.请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值

A.search

B.find

C.findByKey

D.lookup

6.GraphX中（）方法可以查询边信息

A.numVertices

B.numEdges

C.vertices

D.edges

7.Scala源代码被编译成（）字节码，所以它可以运行于JVM之上

A.Spark

B.Scala

C.Java

D.JDK

8.Scala中重写一个非抽象方法必须使用（）修饰符。

A.extends

B.override

C.extend

D.overrides

9.Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)

10.Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）

A.filter

B.foreach

C.map

D.mkString

11.Mllib中线性会馆算法中的参数stepSize表示（）

A.要运行的迭代次数

B.梯度下降的步长

C.是否给数据加干扰特征或者偏差特征

D.Lasso 和ridge 的正规化参数

12.Scala列表方法中丢弃前n个元素，并返回新列表的方法是（）

A.drop

B.head

C.filter

D.init

13.以下算法中属于无监督学习算法的是（）

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

14.var a=10; do{ a+=1; }while(a<20) 共循环了（）次="" a.9="" b.10="" c.11="" d.12="" ="" 15.scala中如果函数无返回值，则函数返回类型为（）="" a.null="" b.void="" c.nothing="" d.unit="" ="" 16.var="" a="10;"></20)><20){ a+=1; } 共循环了（）次

a.9

b.10

c.11

d.12

17.递归函数意味着函数可以调用它（）

a.其他函数

b.主函数

c.子函数

d.自身

18.scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是（）

a.map

b.foreach

c.flatten

d.flatmap

19.spark中dataframe的（）方法是进行排序查询

a.order by

b.group by

c.select by

d.sort by

20.spark streming中（）函数可以对统计dstream中每个rdd包含的元素的个数，得到一个新的dstream

a.count

b.union

c.length

d.reduce

21.spark streming中（）函数可以对源dstream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的dstream

a.map

b.flatmap

c.filter

d.union

22.（）是amplab发布的一个r开发包，使得r摆脱单机运行的命运，可以作为spark的job运行在集群上

a.sparkr

b.blinkdb

c.graphx

d.mllib

23.graph类中如果根据边数据创建图，数据需要转换成rdd[edge[ed]类型，应该用（）方法

a.graph(vertices,edges, defaultvertexattr)

b.graph.fromedges(rdd[edge[ed]], defaultvalue)

c.graph.fromedgetuples(rawedges: rdd[(vertexid, vertexid)], defaultvalue,)

d.graphloader.edgelistfile(sc,filename)

24.scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）

a.filter

b.flatten

c.grouby

d.flatmap

25.以下哪个函数可以求两个rdd交集（）

a.union

b.substract

c.intersection

d.cartesian

二、多选题 (共 10 道试题,共 20 分)

26.spark streaming能够处理来自（）的数据

a.kafka

b.flume

c.twitter

d.zeromq

27.scala系统支持（）作为对象成考试答案员

a.通用类

b.内部类

c.抽象类

d.复合类

28.scala中可以用（）方法来连接两个或多个列表

a.::

b.#:::

c.list.:::()

d.list.concat()

29.scala中构造列表的两个基本单位是（）

a.nil

b.nill

c.::

d.list

30.spark创建dataframe对象方式有（）

a.结构化数据文件

b.外部数据库

c.rdd

d.hive中的表

31.spark的rdd持久化操作有()方式

a.cache

b.presist

c.storage

d.long

32.tf-idf中tf指的是（）

a.词频

b.词在文档中出现的次数

c.逆文档概率

d.词在文档集中出现的概率

e.词在文档集中出现的概率

33.mapreudce不适合（）任务

a.大数据计算

b.迭代

c.交互式

d.离线分析

34.spark支持的文件格式包括（）

a.文本文件

b.json

c.csv

d.sequencefile

35.spark streaming的特点有（）

a.单极性

b.可伸缩

c.高吞吐量

d.容错能力强

三、判断题 (共 15 道试题,共 30 分)

36.rdd的sortby排序默认是升序

37.rdd的flatmap操作是将函数应用于rdd 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的rdd 。

38.scala中map的isempty函数在map为空时返回false

39.spark中dataframe 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发action 操作才会进行计算并返回查询结果。

40.rdd中的collect 函数是一个行动操作，把rdd 所有元素转换成数组并返回到driver 端，适用于大数据处理后的返回。

41.rdd是一个可读写的数据结构

42.rdd中zip操作要求两个rdd的partition数量以及元素数量都相同

43.rdd中join操作最后只返回两个rdd 都存在的键的连接结果。

44.spark取代hadoop仅仅是取代mapreduce这种计算框架，spark可以取代hdfs吗

45.sparkcontext类中makerdd方法不可将单机数据创建为分布式rdd

46.scala是scalable language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。

47.pairrdd中groupby（func）func返回key，传入的rdd的各个元素根据这个key进行分组。

48.pairrdd中mapvalues是针对键值对（key，value）类型的数据中的key和value进行map操作

49.mllib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道api。

50.rdd的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。

a+="1;" }="" 共循环了（）次="" a.9="" b.10="" c.11="" d.12="" ="" 17.递归函数意味着函数可以调用它（）="" a.其他函数="" b.主函数="" c.子函数="" d.自身="" ="" 18.scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是（）="" a.map="" b.foreach="" c.flatten="" d.flatmap="" ="" 19.spark中dataframe的（）方法是进行排序查询="" a.order="" by="" b.group="" by="" c.select="" by="" d.sort="" by="" ="" 20.spark="" streming中（）函数可以对统计dstream中每个rdd包含的元素的个数，得到一个新的dstream="" a.count="" b.union="" c.length="" d.reduce="" ="" 21.spark="" streming中（）函数可以对源dstream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的dstream="" a.map="" b.flatmap="" c.filter="" d.union="" ="" 22.（）是amplab发布的一个r开发包，使得r摆脱单机运行的命运，可以作为spark的job运行在集群上="" a.sparkr="" b.blinkdb="" c.graphx="" d.mllib="" ="" 23.graph类中如果根据边数据创建图，数据需要转换成rdd[edge[ed]类型，应该用（）方法="" a.graph(vertices,edges,="" defaultvertexattr)="" b.graph.fromedges(rdd[edge[ed]],="" defaultvalue)="" c.graph.fromedgetuples(rawedges:="" rdd[(vertexid,="" vertexid)],="" defaultvalue,)="" d.graphloader.edgelistfile(sc,filename)="" ="" 24.scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）="" a.filter="" b.flatten="" c.grouby="" d.flatmap="" ="" 25.以下哪个函数可以求两个rdd交集="" （）="" a.union="" b.substract="" c.intersection="" d.cartesian="" ="" 二、多选题="" (共="" 10="" 道试题,共="" 20="" 分)="" 26.spark="" streaming能够处理来自（）的数据="" a.kafka="" b.flume="" c.twitter="" d.zeromq="" ="" 27.scala系统支持（）作为对象成员="" a.通用类="" b.内部类="" c.抽象类="" d.复合类="" ="" 28.scala中可以用（）方法来连接两个或多个列表="" a.::="" b.#:::="" c.list.:::()="" d.list.concat()="" ="" 29.scala中构造列表的两个基本单位是="" （）="" a.nil="" b.nill="" c.::="" d.list="" ="" 30.spark创建dataframe对象方式有（）="" a.结构化数据文件="" b.外部数据库="" c.rdd="" d.hive中的表="" ="" 31.spark的rdd持久化操作有()方式="" a.cache="" b.presist="" c.storage="" d.long="" ="" 32.tf-idf中tf指的是（）="" a.词频="" b.词在文档中出现的次数="" c.逆文档概率="" d.词在文档集中出现的概率="" e.词在文档集中出现的概率="" ="" 33.mapreudce不适合（）任务="" a.大数据计算="" b.迭代="" c.交互式="" d.离线分析="" ="" 34.spark支持的文件格式包括（）="" a.文本文件="" b.json="" c.csv="" d.sequencefile="" ="" 35.spark="" streaming的特点有（）="" a.单极性="" b.可伸缩="" c.高吞吐量="" d.容错能力强="" ="" 三、判断题="" (共="" 15="" 道试题,共="" 30="" 分)="" 36.rdd的sortby排序默认是升序="" ="" 37.rdd的flatmap操作是将函数应用于rdd="" 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的rdd="" 。="" ="" 38.scala中map的isempty函数在map为空时返回false=&q在线离线作业答案uot;" ="" 39.spark中dataframe="" 的查询操作也是一个懒操作，="" 仅仅生成一个查询计划，="" 只有触发action="" 操作才会进行计算并返回查询结果。="" ="" 40.rdd中的collect="" 函数是一个行动操作，把rdd="" 所有元素转换成数组并返回到driver="" 端，适用于大数据处理后的返回。="" ="" 41.rdd是一个可读写的数据结构="" ="" 42.rdd中zip操作要求两个rdd的partition数量以及元素数量都相同="" ="" 43.rdd中join操作最后只返回两个rdd="" 都存在的键的连接结果。="" ="" 44.spark取代hadoop仅仅是取代mapreduce这种计算框架，spark可以取代hdfs吗="" ="" 45.sparkcontext类中makerdd方法不可将单机数据创建为分布式rdd="" ="" 46.scala是scalable="" language的简写，是一门多范式的编程语言，设计初衷是奥鹏远程网络教育不包括面向对象编程的特性。="" ="" 47.pairrdd中groupby（func）func返回key，传入的rdd的各个元素根据这个key进行分组。="" ="" 48.pairrdd中mapvalues是针对键值对（key，value）类型的数据中的key和value进行map操作="" ="" 49.mllib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道api。="" ="" 50.rdd的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。="" =""></20){ a+=1; } 共循环了（）次

a.9

b.10

c.11

d.12

17.递归函数意味着函数可以调用它（）

a.其他函数

b.主函数

c.子函数

d.自身

18.scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是（）

a.map

b.foreach

c.flatten

d.flatmap

19.spark中dataframe的（）方法是进行排序查询

a.order by

b.group by

c.select by

d.sort by

20.spark streming中（）函数可以对统计dstream中每个rdd包含的元素的个数，得到一个新的dstream

a.count

b.union

c.length

d.reduce

a.map

b.flatmap

c.filter

d.union

22.（）是amplab发布的一个r开发包，使得r摆脱单机运行的命运，可以作为spark的job运行在集群上

a.sparkr

b.blinkdb

c.graphx

d.mllib

23.graph类中如果根据边数据创建图，数据需要转换成rdd[edge[ed]类型，应该用（）方法

a.graph(vertices,edges, defaultvertexattr)

b.graph.fromedges(rdd[edge[ed]], defaultvalue)

c.graph.fromedgetuples(rawedges: rdd[(vertexid, vertexid)], defaultvalue,)

d.graphloader.edgelistfile(sc,filename)

24.scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）

a.filter

b.flatten

c.grouby

d.flatmap

25.以下哪个函数可以求两个rdd交集（）

a.union

b.substract

c.intersection

d.cartesian

二、多选题 (共 10 道试题,共 20 分)

26.spark streaming能够处理来自（）的数据

a.kafka

b.flume

c.twitter

d.zeromq

27.scala系统支持（）作为对象成员

a.通用类

b.内部类

c.抽象类

d.复合类

28.scala中可以用（）方法来连接两个或多个列表

a.::

b.#:::

c.list.:::()

d.list.concat()

29.scala中构造列表的两个基本单位是（）

a.nil

b.nill

c.::

d.list

30.spark创建dataframe对象方式有（）

a.结构化数据文件

b.外部数据库

c.rdd

d.hive中的表

31.spark的rdd持久化操作有()方式

a.cache

b.presist

c.storage

d.long

32.tf-idf中tf指的是（）

a.词频

b.词在文档中出现的次数

c.逆文档概率

d.词在文档集中出现的概率

e.词在文档集中出现的概率

33.mapreudce不适合（）任务

a.大数据计算

b.迭代

c.交互式

d.离线分析

34.spark支持的文件格式包括（）

a.文本文件

b.json

c.csv

d.sequencefile

35.spark streaming的特点有（）

a.单极性

b.可伸缩

c.高吞吐量

d.容错能力强

三、判断题 (共 15 道试题,共 30 分)

36.rdd的sortby排序默认是升序

37.rdd的flatmap操作是将函数应用于rdd 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的rdd 。

38.scala中map的isempty函数在map为空时返回false

39.spark中dataframe 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发action 操作才会进行计算并返回查询结果。

40.rdd中的collect 函数是一个行动操作，把rdd 所有元素转换成数组并返回到driver 端，适用于大数据处理后的返回。

41.rdd是一个可读写的数据结构

42.rdd中zip操作要求两个rdd的partition数量以及元素数量都相同

43.rdd中join操作最后只返回两个rdd 都存在的键的连接结果。

44.spark取代hadoop仅仅是取代mapreduce这种计算框架，spark可以取代hdfs吗

45.sparkcontext类中makerdd方法不可将单机数据创建为分布式rdd

46.scala是scalable language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。

47.pairrdd中groupby（func）func返回key，传入的rdd的各个元素根据这个key进行分组。

48.pairrdd中mapvalues是针对键值对（key，value）类型的数据中的key和value进行map操作

49.mllib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道api。

50.rdd的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。