22秋学期(高起本1709-1803、全层次1809-2103)《大数据开发技术(二)》在线作业-00003
试卷总分:100 得分:100
一、单选题 (共 25 道试题,共 50 分)
1.以下算法中属于聚类算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
2.Spark GraphX中类Graph的reverse方法可以()
A.反转图中所有边的方向
B.按照设定条件取出子图
C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性
D.合并边相同的属性
3.GraphX中()是提供顶点的各种操作方法的对象
A.RDD[Edge]
B.EdgeRDD
C.RDD[(VertexId,VD)]
D.VertexRDD
4.Spark Streming中DStream的每个RDD都是由()分割开来的数据集
A.分区
B.一小段时间
C.数据量
D.随机
5.请问RDD的()操作作用于K-V类型的RDD上,返回指定K的所有V值
A.search
B.find
C.findByKey
D.lookup
6.GraphX中()方法可以查询边信息
A.numVertices
B.numEdges
C.vertices
D.edges
7.Scala源代码被编译成()字节码,所以它可以运行于JVM之上
A.Spark
B.Scala
C.Java
D.JDK
8.Scala中重写一个非抽象方法必须使用()修饰符。
A.extends
B.override
C.extend
D.overrides
9.Graph类中如果要直接通过边数据文件创建图,要求数据按空格分隔,应该用()方法
A.Graph(vertices,edges, defaultVertexAttr)
B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)
C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)
D.GraphLoader.edgeListFile(sc,filename)
10.Scala列表方法中通过给定的方法将所有元素重新计算的方法是()
A.filter
B.foreach
C.map
D.mkString
11.Mllib中线性会馆算法中的参数stepSize表示()
A.要运行的迭代次数
B.梯度下降的步长
C.是否给数据加干扰特征或者偏差特征
D.Lasso 和ridge 的正规化参数
12.Scala列表方法中丢弃前n个元素,并返回新列表的方法是()
A.drop
B.head
C.filter
D.init
13.以下算法中属于无监督学习算法的是()
A.KNN算法
B.逻辑回归
C.随机森林
D.Kmeans
14.var a=10; do{ a+=1; }while(a<20) 共循环了()次="" a.9="" b.10="" c.11="" d.12="" ="" 15.scala中如果函数无返回值,则函数返回类型为()="" a.null="" b.void="" c.nothing="" d.unit="" ="" 16.var="" a="10;"></20)><20){ a+=1; } 共循环了()次
a.9
b.10
c.11
d.12
17.递归函数意味着函数可以调用它()
a.其他函数
b.主函数
c.子函数
d.自身
18.scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是()
a.map
b.foreach
c.flatten
d.flatmap
19.spark中dataframe的()方法是进行排序查询
a.order by
b.group by
c.select by
d.sort by
20.spark streming中()函数可以对统计dstream中每个rdd包含的元素的个数,得到一个新的dstream
a.count
b.union
c.length
d.reduce
21.spark streming中()函数可以对源dstream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的dstream
a.map
b.flatmap
c.filter
d.union
22.()是amplab发布的一个r开发包,使得r摆脱单机运行的命运,可以作为spark的job运行在集群上
a.sparkr
b.blinkdb
c.graphx
d.mllib
23.graph类中如果根据边数据创建图,数据需要转换成rdd[edge[ed]类型,应该用()方法
a.graph(vertices,edges, defaultvertexattr)
b.graph.fromedges(rdd[edge[ed]], defaultvalue)
c.graph.fromedgetuples(rawedges: rdd[(vertexid, vertexid)], defaultvalue,)
d.graphloader.edgelistfile(sc,filename)
24.scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是()
a.filter
b.flatten
c.grouby
d.flatmap
25.以下哪个函数可以求两个rdd交集 ()
a.union
b.substract
c.intersection
d.cartesian
二、多选题 (共 10 道试题,共 20 分)
26.spark streaming能够处理来自()的数据
a.kafka
b.flume
c.twitter
d.zeromq
27.scala系统支持()作为对象成考试答案员
a.通用类
b.内部类
c.抽象类
d.复合类
28.scala中可以用()方法来连接两个或多个列表
a.::
b.#:::
c.list.:::()
d.list.concat()
29.scala中构造列表的两个基本单位是 ()
a.nil
b.nill
c.::
d.list
30.spark创建dataframe对象方式有()
a.结构化数据文件
b.外部数据库
c.rdd
d.hive中的表
31.spark的rdd持久化操作有()方式
a.cache
b.presist
c.storage
d.long
32.tf-idf中tf指的是()
a.词频
b.词在文档中出现的次数
c.逆文档概率
d.词在文档集中出现的概率
e.词在文档集中出现的概率
33.mapreudce不适合()任务
a.大数据计算
b.迭代
c.交互式
d.离线分析
34.spark支持的文件格式包括()
a.文本文件
b.json
c.csv
d.sequencefile
35.spark streaming的特点有()
a.单极性
b.可伸缩
c.高吞吐量
d.容错能力强
三、判断题 (共 15 道试题,共 30 分)
36.rdd的sortby排序默认是升序
37.rdd的flatmap操作是将函数应用于rdd 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的rdd 。
38.scala中map的isempty函数在map为空时返回false
39.spark中dataframe 的查询操作也是一个懒操作, 仅仅生成一个查询计划, 只有触发action 操作才会进行计算并返回查询结果。
40.rdd中的collect 函数是一个行动操作,把rdd 所有元素转换成数组并返回到driver 端,适用于大数据处理后的返回。
41.rdd是一个可读写的数据结构
42.rdd中zip操作要求两个rdd的partition数量以及元素数量都相同
43.rdd中join操作最后只返回两个rdd 都存在的键的连接结果。
44.spark取代hadoop仅仅是取代mapreduce这种计算框架,spark可以取代hdfs吗
45.sparkcontext类中makerdd方法不可将单机数据创建为分布式rdd
46.scala是scalable language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。
47.pairrdd中groupby(func)func返回key,传入的rdd的各个元素根据这个key进行分组。
48.pairrdd中mapvalues是针对键值对(key,value)类型的数据中的key和value进行map操作
49.mllib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道api。
50.rdd的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。
a+="1;" }="" 共循环了()次="" a.9="" b.10="" c.11="" d.12="" ="" 17.递归函数意味着函数可以调用它()="" a.其他函数="" b.主函数="" c.子函数="" d.自身="" ="" 18.scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是()="" a.map="" b.foreach="" c.flatten="" d.flatmap="" ="" 19.spark中dataframe的()方法是进行排序查询="" a.order="" by="" b.group="" by="" c.select="" by="" d.sort="" by="" ="" 20.spark="" streming中()函数可以对统计dstream中每个rdd包含的元素的个数,得到一个新的dstream="" a.count="" b.union="" c.length="" d.reduce="" ="" 21.spark="" streming中()函数可以对源dstream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的dstream="" a.map="" b.flatmap="" c.filter="" d.union="" ="" 22.()是amplab发布的一个r开发包,使得r摆脱单机运行的命运,可以作为spark的job运行在集群上="" a.sparkr="" b.blinkdb="" c.graphx="" d.mllib="" ="" 23.graph类中如果根据边数据创建图,数据需要转换成rdd[edge[ed]类型,应该用()方法="" a.graph(vertices,edges,="" defaultvertexattr)="" b.graph.fromedges(rdd[edge[ed]],="" defaultvalue)="" c.graph.fromedgetuples(rawedges:="" rdd[(vertexid,="" vertexid)],="" defaultvalue,)="" d.graphloader.edgelistfile(sc,filename)="" ="" 24.scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是()="" a.filter="" b.flatten="" c.grouby="" d.flatmap="" ="" 25.以下哪个函数可以求两个rdd交集="" ()="" a.union="" b.substract="" c.intersection="" d.cartesian="" ="" 二、多选题="" (共="" 10="" 道试题,共="" 20="" 分)="" 26.spark="" streaming能够处理来自()的数据="" a.kafka="" b.flume="" c.twitter="" d.zeromq="" ="" 27.scala系统支持()作为对象成员="" a.通用类="" b.内部类="" c.抽象类="" d.复合类="" ="" 28.scala中可以用()方法来连接两个或多个列表="" a.::="" b.#:::="" c.list.:::()="" d.list.concat()="" ="" 29.scala中构造列表的两个基本单位是="" ()="" a.nil="" b.nill="" c.::="" d.list="" ="" 30.spark创建dataframe对象方式有()="" a.结构化数据文件="" b.外部数据库="" c.rdd="" d.hive中的表="" ="" 31.spark的rdd持久化操作有()方式="" a.cache="" b.presist="" c.storage="" d.long="" ="" 32.tf-idf中tf指的是()="" a.词频="" b.词在文档中出现的次数="" c.逆文档概率="" d.词在文档集中出现的概率="" e.词在文档集中出现的概率="" ="" 33.mapreudce不适合()任务="" a.大数据计算="" b.迭代="" c.交互式="" d.离线分析="" ="" 34.spark支持的文件格式包括()="" a.文本文件="" b.json="" c.csv="" d.sequencefile="" ="" 35.spark="" streaming的特点有()="" a.单极性="" b.可伸缩="" c.高吞吐量="" d.容错能力强="" ="" 三、判断题="" (共="" 15="" 道试题,共="" 30="" 分)="" 36.rdd的sortby排序默认是升序="" ="" 37.rdd的flatmap操作是将函数应用于rdd="" 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的rdd="" 。="" ="" 38.scala中map的isempty函数在map为空时返回false=&q在线离线作业答案uot;" ="" 39.spark中dataframe="" 的查询操作也是一个懒操作,="" 仅仅生成一个查询计划,="" 只有触发action="" 操作才会进行计算并返回查询结果。="" ="" 40.rdd中的collect="" 函数是一个行动操作,把rdd="" 所有元素转换成数组并返回到driver="" 端,适用于大数据处理后的返回。="" ="" 41.rdd是一个可读写的数据结构="" ="" 42.rdd中zip操作要求两个rdd的partition数量以及元素数量都相同="" ="" 43.rdd中join操作最后只返回两个rdd="" 都存在的键的连接结果。="" ="" 44.spark取代hadoop仅仅是取代mapreduce这种计算框架,spark可以取代hdfs吗="" ="" 45.sparkcontext类中makerdd方法不可将单机数据创建为分布式rdd="" ="" 46.scala是scalable="" language的简写,是一门多范式的编程语言,设计初衷是奥鹏远程网络教育不包括面向对象编程的特性。="" ="" 47.pairrdd中groupby(func)func返回key,传入的rdd的各个元素根据这个key进行分组。="" ="" 48.pairrdd中mapvalues是针对键值对(key,value)类型的数据中的key和value进行map操作="" ="" 49.mllib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道api。="" ="" 50.rdd的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。="" =""></20){ a+=1; } 共循环了()次
a.9
b.10
c.11
d.12
17.递归函数意味着函数可以调用它()
a.其他函数
b.主函数
c.子函数
d.自身
18.scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是()
a.map
b.foreach
c.flatten
d.flatmap
19.spark中dataframe的()方法是进行排序查询
a.order by
b.group by
c.select by
d.sort by
20.spark streming中()函数可以对统计dstream中每个rdd包含的元素的个数,得到一个新的dstream
a.count
b.union
c.length
d.reduce
21.spark streming中()函数可以对源dstream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的dstream
a.map
b.flatmap
c.filter
d.union
22.()是amplab发布的一个r开发包,使得r摆脱单机运行的命运,可以作为spark的job运行在集群上
a.sparkr
b.blinkdb
c.graphx
d.mllib
23.graph类中如果根据边数据创建图,数据需要转换成rdd[edge[ed]类型,应该用()方法
a.graph(vertices,edges, defaultvertexattr)
b.graph.fromedges(rdd[edge[ed]], defaultvalue)
c.graph.fromedgetuples(rawedges: rdd[(vertexid, vertexid)], defaultvalue,)
d.graphloader.edgelistfile(sc,filename)
24.scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是()
a.filter
b.flatten
c.grouby
d.flatmap
25.以下哪个函数可以求两个rdd交集 ()
a.union
b.substract
c.intersection
d.cartesian
二、多选题 (共 10 道试题,共 20 分)
26.spark streaming能够处理来自()的数据
a.kafka
b.flume
c.twitter
d.zeromq
27.scala系统支持()作为对象成员
a.通用类
b.内部类
c.抽象类
d.复合类
28.scala中可以用()方法来连接两个或多个列表
a.::
b.#:::
c.list.:::()
d.list.concat()
29.scala中构造列表的两个基本单位是 ()
a.nil
b.nill
c.::
d.list
30.spark创建dataframe对象方式有()
a.结构化数据文件
b.外部数据库
c.rdd
d.hive中的表
31.spark的rdd持久化操作有()方式
a.cache
b.presist
c.storage
d.long
32.tf-idf中tf指的是()
a.词频
b.词在文档中出现的次数
c.逆文档概率
d.词在文档集中出现的概率
e.词在文档集中出现的概率
33.mapreudce不适合()任务
a.大数据计算
b.迭代
c.交互式
d.离线分析
34.spark支持的文件格式包括()
a.文本文件
b.json
c.csv
d.sequencefile
35.spark streaming的特点有()
a.单极性
b.可伸缩
c.高吞吐量
d.容错能力强
三、判断题 (共 15 道试题,共 30 分)
36.rdd的sortby排序默认是升序
37.rdd的flatmap操作是将函数应用于rdd 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的rdd 。
38.scala中map的isempty函数在map为空时返回false
39.spark中dataframe 的查询操作也是一个懒操作, 仅仅生成一个查询计划, 只有触发action 操作才会进行计算并返回查询结果。
40.rdd中的collect 函数是一个行动操作,把rdd 所有元素转换成数组并返回到driver 端,适用于大数据处理后的返回。
41.rdd是一个可读写的数据结构
42.rdd中zip操作要求两个rdd的partition数量以及元素数量都相同
43.rdd中join操作最后只返回两个rdd 都存在的键的连接结果。
44.spark取代hadoop仅仅是取代mapreduce这种计算框架,spark可以取代hdfs吗
45.sparkcontext类中makerdd方法不可将单机数据创建为分布式rdd
46.scala是scalable language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。
47.pairrdd中groupby(func)func返回key,传入的rdd的各个元素根据这个key进行分组。
48.pairrdd中mapvalues是针对键值对(key,value)类型的数据中的key和value进行map操作
49.mllib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道api。
50.rdd的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。
>

