阿里校招数据分析师笔试题
阿里校招数据分析师笔试题
2015年8月19日,阿里校招数据分析师笔试题,
阿里校招数据分析师笔试题
。共计21题(单选漏了一题,选择题每个人的都不一样,问答题是一样的。暂时没有答案,希望对大家有用。单选题:
1、观测宇宙中单位体积内星球的个数,属于什么分布:
A学生分布B泊松分布C正态分布D二项分布
2、一些关于数据挖掘说法是正确的
A数据挖掘是万能的
B如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了
C数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法
DABC均有错
3、已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:
A2,9;B4,9C4,4.5;D2,4.5
4 、下面算法中哪一种不属于广义线性回归算法
A生存模型算法
Bbeta回归算法
Clogit回归算法
D判别分析算法
5、有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?
Aproc sort
Bproc rank
Cproc univariate
Dproc freq
6、X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率。
A0.84375
B0.75275
C0.65275
D0.80370
7、下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是?
A回归系数的符号与专家经验知识不符
B方差膨胀因子(VIF)<5
C其中两个预测变量的相关系数>=0.85
D变量重要性与专家经验严重违背
8、由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算
A采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值
B采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值
C采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环
D采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环
9、请找出数列4,9,23,60,157的下一项()
A 411 B 314 C 425 D ABC均错
10(应该是没统计上)
多选题
11、以下哪个语法不是R的基础语言
Aproc glot
Bselect *from table
Ckc<-kmeans(data,3)
Dprint”hello world”
Esd<-summary(data)
Fimport
12、分析师在工作中的良好习惯是
A将工作空间的密码共享给别人
B将数据下载到私人电脑进行分析处理
C在处理资源高峰期提交大任务运算
D不定期地将分析报告分享给团队
E定期清理存储空间
F固话日常需要分析的数据表方便计算
13
14
15
16 、 请分析淘宝消费者的.流失情况
17 、 淘宝和天猫上每天都有大量的用户在线上购买,作为分析师可以从哪些角度对用户进行分析,说明理由
18
19
20已知A商家近五年每月的成交数据,请列出两种不同的时间序列预测模型可以用来预测商家接下来三个月的成交,并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法
21你理解中的分析师是什么样的?你觉得自己目前应聘分析师职位的优势是什么?并说明理由,