数据分析面试题

时间:2024-10-28 10:24:38

常见的业务问题

你是如何理解数据分析的?流程如何?

数据分析是机遇对业务的理解,发现业务中的问题或者是潜在的增长点,形成分析思路,并且利用数据分析工具进行分析,给出相应的结论和解决方案,并协调各方推动方案落地,解决问题,最后回到业务中去形成完整的闭环。
数据分析的主要流程:
观察现状
留意变化
多维、交叉分析
预测趋势
生成策略
推动落地
复盘效果

你认为数据分析的价值如何体现?

数据分析不是简单的数据统计,不能仅仅停留在输出一份诗句报告上,而是要给出相应的结论,讲清楚数据背后的业务含义,数字的大小正负说明业务的好坏,有多好或者有多坏。

明确数字背后的业务含义之外,还要给出背后的原因,好的方面是否可以复用拓展,坏的方面原因是什么?应对的方案是什么?要把方案推动落地到业务中执行,并且跟进执行的效果和复盘,螺旋上升,不断迭代优化。

指标的异常波动分析(例如日活跃下跌)如何分析?

1、确定数据来源是否可靠?
2、确定指标的计算口径是否统一?
3、明确是否是市场的整体趋势。
4、描述性统计:下跌了多少?
5、观察变化:同比下跌多少?环比下跌多少?
6、评估变化/方差分析:跌幅是否在合理范围之内?
7、交叉分析/相关性分析:对指标进行拆解,有哪些指标可能和日活跃相关,相关程度高达多少?
8、业务分析:这些指标的运营部门是否有某些策略或者活动造成了这些指标的变化,间接导致日活跃下降。
9、回归分析/预测:还会跌几天?跌幅最坏到达什么程度?
10、风险/损失评估:日活跃下跌对产品的核心KPI有什么影响?
11、制定策略:如何挽回损失/下次如何避免?

注册类和活跃类指标,你会看那个?

不同时期关注的指标不同,应该区别对待。
产品初期:关注产品的快速增长,会重点关注注册类指标;
产品成熟期:关注用户的使用黏性、深度等,会重点关注留存和活跃类指标。

用python设计算法实现圆周率计算

蒙特卡洛法:一个边长为1的正方形和他的内切圆面积比为4/pi,通过随机生成x、y∈[0,1],落在圆内的个数N除以总个数M,即N/M=4/pi,即可求出圆周率。

估算一个星巴克门店的销售额

分析CBD星巴克一个月的销售额有多少?
二八原则拆分:星巴克主要以饮品为主,饮品主要以咖啡为主。
1、从需求端估算:
饮品销量:
每天没人喝多少咖啡
CBD一共有多少人
咖啡的比例
每人每天喝几杯
非饮品销量
2、从供给段估算:
工作日供给
忙时供给
忙时每小时多少杯
一天多少忙时
闲时供给
闲时每小时多少倍
一天多少闲时
周末供给
忙时供给
忙时每小时多少杯
一天多少忙时
闲时供给
闲时每小时多少倍
一天多少闲时

你理解的指标是什么?有哪些组成部分?

指标室友业务含义的,体现业务变化的,不是瞎拍出来的,并且指标时复杂的,有特定的业务场景的;
指标口径:指标的定义,业务定义比如活跃用户数:打开APP的用户数;
指标一般与维度一起联合分析,从不同的维度看同一个指标可能会有差异和业务上的发现;
同一个指标可能会被应用于不同的业务,需要注意保证指标口径的统一,避免造成指标的歧义和误解。

指标和维度的区别和联系

指标:用于定量评估业务好坏程度而建立。
维度:描述指标的角度,可以理解为看问题的方面。
维度不能独立存在,一般都是搭配指标一起分析,可以分析不同维度下的同一指标,也可以多个维度较差,分析某一个指标,可能会有一些业务上的发现。

什么是北极星指标,什么是虚荣指标?

北极星指标也被称为第一关键指标,是指业务在当前阶段最为关注的一个指标,引导当前业务的发展。当然北极星指标也是一个比较汇总的指标,可以通过拆解拆分各个子指标,更便于整体指标的实现和分析。

常见的虚荣指标包括:累计用户数,累计销量、销售额等,都是只涨不跌的虚荣指标。

什么是指标体系?如何建立?业务应用场景?

定义:一个指标不能叫体系,多个不相关的指标也不能叫体系,一个指标体系是多个相关的指标有机结合起来,具有严格的逻辑和分层体系。
建立方法:根据业务特点和生命周期选择第一关键指标,或者叫北极星指标;
贴合业务需求将第一关键指标进行逐层拆解,可以按流程拆、按时间区域拆、按公式加减乘除拆等;
从上至下:从顶层战略或从KPI拆解;
从下至上:叶子指标向上汇总成整体指标;
应用场景:监控关键指标变化趋势,判断业务走势;逐层拆解,定位业务异常原因;通过数据去定业务迭代;

什么是A/Btest?核心原理和应用场景?

定义:基于小样本的后验方法,通过设置对照组和实验组,对变量进行试验,通过假设对不同的结果进行检验,以检验变量是否对结果造成显著影响,从而选取最合理的方法。
核心逻辑:核心是用过随机合理分流,设置对照组和实验组,通过控制变量法,在保证两组用户除待验证变量不同外,其他变量分布均一致。分别对两组施加不同的变量,观察两组用户在同一时间内的表现,通过假设检验分析结果是否有显著差异,从而判断改动是否有效可执行。
应用场景:应用于产品功能,算法策略迭代等。

A/Btest如何合理分流?

用户分流一定要随机均匀,保证各组的用户分布一致,用分桶和分层两种方式。同一层切分为不同的桶,各桶之间是互斥的,即一个用户只能在一个桶里面,当要同时进行多个实验的时候,分桶导致单个桶的流量过小,可以讲业务逻辑分为解耦的多层,不同的层共享同一批流量,这样一个瀛湖就可以进行多个实验,充分利用流量。

一种分组方式是分桶。我们直接讲真题永和分割为几桶,用户只能在一个桶中。但是这种情况很不现实,因为如果我们要同时上线多个实验,流量不够切怎么办?那为了达到最小样本量,我们就得延长试验周期。

如何验证A/B test的结果?

假设检验:一般情况下,绝对值指标用T检验,相对值指标用Z检验。
单尾/双尾检验:单尾检验的前提是我们不仅认为两组指标不同,还明确了大小,一般情况下,我们都认为实验组的效果高于基线组。而双尾检验只是认为两组指标不同,没有明确大小。通常来说,我们更推荐使用双尾检验,因为实验本身就是一种利用数据来做决策的方法,我们不要认为的带入主管设想。而是用双尾检验,我们不仅能量话涨了多少,还能量化掉没多少,因为实验结果有正有负,不一定都是有效果的,还有可能有负向的效果,我们也可以将有负向效果的实验下来,成帝啊知识库,为后期实验避坑。

什么是漏斗分析?有哪些注意的点?

通过拆分业务流程,形成关键漏斗,分析漏斗各个环节的转化率/跳出率,定位问题发生的环节,漏斗分析最核心的有三点:分解流程、评估转化率和定位问题环节。
常见的漏斗有电商漏斗:首页-详情页-购物车-支付;还有用户的生命周期AARRR;用户行为周期AIDMA等。
需要注意的点:漏斗的各个环节一定是连续的,对应连续的业务流程;漏斗环节不宜过多,一般不超过5个;一般以上一个环节为基准,计算相邻两个环节的转化率;
计算每相邻环节的幻化率,1-转化率为流失率,但并不意味着转化率最低的环节就是问题环节;漏斗可以结合其他维度看,看不同维度下的漏斗差异进而判断是那个因素导致问题的出现;

数据分析这么枯燥,你为什么想做?

数字本身是枯燥的,但是数字背后的信息确实很有趣的也很重要的。数据分析现在已经逐渐从变成一种能力,一种通用的技能,通过洞察数据背后的业务价值进而提出有指导性的建议,帮助业务发展是一件很有成就感的事情;

你怎么理解统计学?统计学生活中应用举例?

作为数据分析师,所有的事实都应该由数据说话,但是数据本身是没有意义的,更不会告诉我们数据的高低好坏,我们需要给予数据给出科学可靠的结论,这个过程不得不用刀统计学知识。好到什么程度算好,坏到什么程度算坏,高到什么程度算是由显著性差异,这些不都是我们个人凭主观感觉就能感觉出来的,需要经过统计学的知识谨慎给出就能,这样才不至于给出错误的结论从而导致错误的决策。
如果平均值算财富的话,我和马云的财富平均下来,我也算是亿万富翁,这显然不科学,因为个人财富并不服从正态分布,我们无法用平均值代表一般水平,这个时候如果使用中位数,看全国排名50%的人的收入,可能更足以说明大家的一般水平是如何的。

什么是EDA(Exporatory Data Analysis)

EDA(Exporatory Data Analysis)即数据探索分析,需要对数据集中的变量进行统计和分布描述,了解变量之间的相互关系,从整体上了解数据集的数据特征。探索性分析要求对调查总体所有变量的有关数据进行描述没包括数据的频数分析、离散程度分析、分布以及一些基本的图形统计。

1、数据的频数分析。在数据预处理部分,利用聘书分析和交叉频数分析可以检验异常值。
2、数据的集中趋势分析。用来反映数据的一般水平,常有的指标有平均数、中位数和众数。
3、数据的离散程度分析。主要反映数据之间的差异程度,常用的差异程度由标准差和方差。
4、数据的分布。在统计分析中美通畅用假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
5、数据的相关性分析。探索不同变量之间的相关性可以使用相关性图进行展示,表示各个变量之间的相关程度。

计算西瓜视频内容好评率

1、需求
西瓜视频近期开展了“2020百大人气创作者”优质内容扶持项目,鼓励用户产出优质的视频内容。现需要统计2022年11月1日至2022年11月31日期间创作的视频中,“科技”大类下“数码测评”子类的视频好评率(好评率=好评数/视频观看次数),写出SQL语句进行查询。
表格的基本样式
2、解题思路
首先我们需要明确好评率的计算公式没然后先定特定的大类和子类即可;
1)好评率=好评数/视频观看次数。
2)要求计算“科技”大类下“数码测评”子类的视频好评率,则要使用where条件筛选指定大类和子类的数据。
3)因为限定条件要制定视频内容的类别,,所以两个表做关联。
代码:
SQL代码

使用A/B test评估算法效果

1、需求
某一个购物APP最近优化了“猜你喜欢”模块的推荐算法。希望进一步提升推荐的精准度,进而提升销售额。现在需要用过A/B test(50%用户保留了宣言推荐算法作为控制组,50%用户使用心得推荐算法为实验组)来对新的推荐效果进行评估。假设你是本次实验的数据分析师,请问你会如何评估控制组和实验组的表现?请按照重要性列出最重要的三个指标并给出你的分析过程。

2、解题思路
指标:推荐商品的销售额、推荐商品的点击率、推荐商品的转化率
分析过程:
1)设原假设为使用新的推荐算法后上述指标降低或不变,备择假设为使用新的推荐算法后上述指标增加。
2)选择显著性水平临界值为5%,并根据指标的预期提升确定样本量和试验周期。
3)合理分流,AB测试上线,采集数据。
4)使用T检验计算P值,进行效果验证。
5)分析结论:如果P值小于5%,那么原假设不成立,备择假设成立,即使用新算法后指标提升。反之无法推翻原假设,不能证明使用新推荐算法后指标提升。

如何评估一场活动的效果

1、需求
某APP近期上线了异常拉新活动,并在各个渠道进行了推广投放,活动结束之后,作为数据分析师,你如何评估这场活动的效果?

2、解题思路
如果要对一场活动效果进行分析,无非回答以下三个问题:
1)活动效果怎么样?要不要继续?
2)如果可以继续,活动做的好的方面是那些?问题或瓶颈环节在哪?
3)针对问题环节的改进方案是什么?
具体展开来讲,可以从以下方面进行阐述
1)活动关键指标达成分析
活动关键指标达成情况,比如拉新多少用户,达成多少GMV?ROI如何?
2)活动关键流程漏斗分析
活动关键漏斗流程是什么?以及各个流程的漏斗分析,定位问题发生的环节。
3)活动的渠道、用户分析
活动在哪些渠道推广,活动推送给那些用户?用户画像是什么样的?各个渠道用户的质量/ROI如何?
4)活动策略、节奏分析
活动玩法的裂变效果如何?利益点是否有吸引力?活动整个过程节奏把控如何,前期预热、中期爆发和后期是否过短/过长,运营应该在什么时间进行适当干预。

销售额下降了如何分析?

1、需求
这是一道非常经典的业务题
如果我们发现了某一个店铺在2022年11月的销售额同比去年下降了60%,如果你是这块业务的数据分析师,你会如何进行分析?请写出你的分析思路框架。

2、解题思路
1)先确认数据来源是否可靠,指标口径是否一致,很多时候,大家知道听途说,讲的不是同一个事情,埋头就开始分析,反而浪费时间和精力,首先需要确认问题是否真实存在。
2)如果数据来源可靠,指标口径统一,先看外部市场环境,是否是整体市场大盘在下降,受到大盘影响。
3)如果不是外部因素,看内部问题,对内部因素进行指标成分拆解,可以按照以下方式进行拆解。
4)具体可能拆解的方式如下:
销售额=访客数下单率客单价-退货金额
访客数=新客户+老客户,新客户=渠道的流量转化率
下单率=页面访问量
转化率
订单取消率=订单取消树/订单总数
5)针对指标的变化进行提建议,定位到具体原因后没针对性的给出改进策略方案,如开展促销活动、商品等。

估算一个星巴克门店的销售额

1、需求
某CBD楼下有一家新巴克门店,面积约为40平方米。请预估该门店每周的营业额。这其实是一道非常经典的费米估算问题。出现这类问题并不是要求你要十分精准的计算出最终数据。而是考察你分析和拆解问题的思维能力。
2、解题思路
费米思想的两个步骤:
1)把问题进行拆解,直到拆解到不能拆解需要估算的基本问题
2)对基本问题的估算,不要估算其本身,而是先估算其上下界,然后在上下界的范围内估算出数值。
营业额=营业时间平均消费金额(区分工作日和非工作日)
小费人数=营业时间
单位时间消费人数(区分高低峰时期)
3)估算:
每天按照12h营业时间计算,其中客流量大有4h,客流量小8h
休息日平均营业额/4工作日平均营业额
工作日流量大的时候,每3分钟接高一人次,人均消费30元
一个店面40平方米,假设50%的比例,那就是20平方米,可以站下10个人
那这样工作日高峰时间段每小时消费人数=1/3min10=2010=200个,非高峰期估算60个
那工作日一天营业额=4h200个30元+8h60个30元=38400元
一周的营业额=384005+38400/42=211200

什么是同比、环比,意义是什么?

环比:与相恋须的上一个统计周期进行对比,环比的整张速度=(本期数-上期数)/上期数100,反映本期比上期增长了多少。环比的好处就是可以直观的表明阶段性的变换,但是会收到季节性因素影响。
同比:是对比去年同一统计阶段进行对比,同比增长率=(本期数-上期数)/同期数
100%,同比的好处就是可以排出一部分季节 因素。

什么是相关性分析?相关和因果的区别是什么?

相关性的前提是各个变量之间相互独立,业务上来说,每个指标之间是没有影响的,相关性系数:0.5以下相关性较弱,0.5-0.8为中度相关,大于0.8为较强相关。
如果A和B相关,会有以下几种推论
A导致B:充分条件
B导致A:必要条件
C导致A和B:A和B同源
A和B如果有因果:充分且必要条件
相关和因果之间的区别:
相关:两个变量或多个变量之间相互影响程度;核心点:变量与变量之间互为相关,没有先后顺序;
因果:前一个事情对后一个事情的作用的关系程度;核心点:有严格的先后顺序(变化可能有延迟),如蝴蝶效应

什么是聚类?业务应用场景?常见算法?

定义:将相似的对象,将对象的特征进行抽象,通过算法将特征相似的对象化为一类,属于无监督机器学习算法
考点1:对于聚类,如何确定分类的数量N;
考点2:如何选择进行聚类的特征,比如要区分男女,有喉结的就是男生,留长发的就是女生;
应用场景:
个性化推荐:相似用户行为相似,会分到某个类,如用户分层
用户画像:基于用户的购买偏好,小费能力进行用户画像
常见算法:K-means、DBSCAN

什么是分类?业务应用场景?常见算法?

定义:学习已有分类样本的特征,对新数据进行划分,是一种有监督的机器学习算法,分类是明确的模式有历史样本可学习的。
应用场景:
互联网金融用户信用等级分类
垃圾邮件分类
常见算法:
逻辑回归
SVM
贝叶斯
决策树
KNN
XGboots

什么是回归?应用业务场景?常见回归算法?

定义:两个或两个以上的变量之间是否相关,并建立数学模型,定量评估
人话:我和你有没有关系,什么关系,深到什么程度
本质:找到一条指甲最合适的平均线,让线附近的点均匀分布
应用场景:
运营推广中,是不是花的钱越多,买的流量越大,品类越丰富,用户活跃度越高,那么多到什么程度,大到什么程度,丰富到什么程度,用户的活跃度最高,留存最高;
智慧城市的将同,预测交通的拥堵情况:自变量–时间段、商业指数、住宅指数、城区指数、道路指数,因变量:两个连续信号灯之间道路的通行时间。
常见回归算法
线性回归
岭回归
lasso回归
数回归

时间序列预测的原理是什么?有哪些应用场景?

原理:当自变量是时间时,且数据在时间上呈现出一定的规律,那么这种情况一般都可以使用时间序列预测接下来一段时间的数据走势。这个规律表现为:数据整体变化的趋势(可以理解为一条表征趋势的直线)、季节性(/可以理解为按照一定的周期重复出现的模式)和随机性(可以理解为在0附近毫无规律的白噪声)组成,时间序列就是将数据按照这三个部分分别拆解,再基于历史数据进行组合预测。
应用场景:一般用于年度KPI预测,产品的活跃用户数缺失,羽绒服的销量等

时间序列预测需要注意的点?和回归有和区别?

需要注意的点:时间间隔时固定的;最近的数据对于预测影响程度越大;预测是有季节性的,这里的季节性不一定是春夏秋冬,凡是以一定周期重复出现的搜可以成为有季节性;

回归预测和时间序列预测的区别:

回归是自变量对于因变量的趋势,用以表征自变量和因变量之间的定量关系,一般来说自变量和因变量只能是连续的数据;
时间序列预测的自变量可以是任何数据,包括时间,只要数据呈现出周期性的预测;
回归不能做季节性的预测;

不用任何公开参考资料,估算今年新生儿出生数量。

采用两层模型(人群画像人群转化):新生婴儿出生数=∑各年龄层育龄女性数量各年龄层生育比率
从数字到数字:如果有前几年新生儿出生数量,建立时间序列模型(需要考虑二胎开放的突变事件)进行预测
找先兆指标,如婴儿类用品的新增活跃用户数量*表示新生儿家庭用户数。Xn/新生儿 n为该年新生儿家庭用户的转化率,如X2007/新生儿 2007为2007年生儿家庭用户的转化率。该转化率会随平台发展尔发展,可以根据往年数量推出今年的大致转化率,并更具今年新增新生儿家庭用户数量推出今年估计的新生儿数量。

如果次日用户留存率下降了5%,该怎么分析?

首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,
然后分别计算没个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁。
对于目标群体次日留存率下降问题,具体情况具体分析。具体分析可以采用“内部-外部”因素考虑。
a、内部因素分为获客(渠道质量、活动获客非目标用户)、满足需求(新功能改动引发某类用户不满意)、提活手段(签到等提活手段达成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);
b、外部因素采用PEST分析(宏观经济环境分析)、政治(政策影响)、经济(短期内主要考虑竞争环境,如竞争对手的活动)、社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好的变化)、技术(创新解决方案的出现、分销渠道变化等)
例如:卖玉米如何提高收益?价格提高多少才能获得最大收益?
收益=单价销售量,那么我们的策略是提高单位溢价或者提高销售规模
提高溢价的方式:
打造平拍获得长期效益,但是缺陷在于需要大量前期营销投入
加工商品占据价值链更多环节,例如玉米、玉米汁、玉米蛋白粉;定位商品:如礼品化等;
价格歧视:根据价格敏感程度不同对用户采用不同定价,。销售量=流量
转化率
上述提高单位溢价的方法可能会对流量产生影响,也可能对转化率产生影响。
收益=单价流量转化率,短期内能够规模化采用的应该是价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感用户提供优惠券等。

类比到头条的收益,头条放多少广告可以获得最大收益?

收益=出价流量点击率*有效转化率,放广告的数量会提高流量,但会降低匹配程度,因此降低点击率。最大收益是找到这个乘积的最大值,是一个有页数条件的最优化问题。同时参考价格歧视防范,可以对不同用户投放不同数量的广告。

APP激活量的来源渠道很多,怎样对来渠道变化大的进行预警?

如果渠道使用时间较长,认为渠道的APP离火晾满足一个粉笔,比较可能是正态分布。求平均值河标准差,对于近日数值和均值大雨3/2/1这个标准差进行预警。
对于短期的新渠道,直接均值进行对比。

用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让流量流失减少?

采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:技术接受模型提出了两个主要的决定因素:
a、感知的有用性,反映一个人认为是用一个具体的系统对他工作业绩提高的程度;
b、感知的易用性,反映一个人认为容易使用一个具体的系统的程度;
感知有用性:文案告知用户选择属性能给客户带来的好处
感知易用性:关联第三饭账号,可以启用冷启动阶段匹配用户更有可能选择的属性,推荐用户选择;交互性做好。
使用者态度:用户对填写信息的态度
这里需要用户允许跳过,后续再提醒用户调谐
告知用户填写的信息会受到很好的保护
行为意图:用户使用APP的目的性,难以控制
外部变量:如操作时间、操作环境等,这里难以控制

如何识别作弊用户(爬虫程序、或者渠道伪造的假用户)

分类问题可以使用机器学习的方法解决,下面是几本特征:
1、渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
2、换不环境:设备、系统、Wi-Fi使用情况、使用时间、来源地区、ip是否进过黑名单
3、用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转转行为
4、异常特征:设备号异常、ip异常、行为异常、数据包不完整等。

一个网站销售额遍地,你从哪几个方面去考量?

首先要定位到现象真正发生的位置,到底是谁的销售额变低了?这里划分的维度有:
用户、产品或者栏目
销售额=入站流量下单率客单价
入站流量=∑各来源流量转化率
下单率=页面访问量
转化率
客单价=商品数量*商品价格 确定问题来源后,对问题来源进行分析,如采用内外不框架
内部:网站改版、产品更新、广告投放
外部:用户偏好变化、媒体新闻、经济环境、竞品分析等

用户流失的分析,新用户流失和老用户流失有什么不同?

用户流失分析:
两层模型:细分用户、产品、渠道,到底是哪一层用户流失,所以这里细分用户处在生命周期的哪个阶段
指标拆解:用户流失数量=该群体用户数量*流失率。拆解:看因为到了这个阶段的用户数量多了,还是这个群体用户的流失比率较高
内外部因素:
内部:新手上手难度大、收费不合理、产品服务出现重大问题、活动质量低、缺少留存手段、用户参与度低等
外部:市场、竞争对手、社会环境、节假日等
新用户和老用户流失有什么不同:
新用户流失:原因可能有非目标用户、产品需求不满足、产品难以上手和竞争产品影响‘
新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失、并如何对有效的新用户进行挽回。
老用户流失:原因可能有达到了用户生命周期 衰退、过度拉升导致低端用户驱逐、社交蒸发难以满足前期用户需求和竞争产品影响。
老用户有较多的数据,更容易进行流失用户识别,做好用户流失更重要。当用户流失后要考虑用户生命周期剩余价值,是否需要进行挽回。

GMV升了20%怎么分析?

采用两层模型:进行用户群体、产品、渠道细分,发现到底谁的GMV提升了
指标拆解:将GMV拆解成乘法模型,如GMV=广告投放数量点击产品浏览量放入购物车率交易成功率客单价,检查到底是哪一步导致了GMV上升。
内部因素:网站、产品、广告投放、活动等
外部因素:套用PEST模型框架。

现在有一个游戏测试的环节,游戏测试结束后需要根据数据提交一份PPT,这个PPT你会如何安排?包括什么内容?

这里可以套用AARRR模型
获取用户(Acquisition)
提高活跃度(Activation)
提高留存率(Retention)
获取收入(Revenue)
自传播(Refer)

获取:我么的用户是谁?用户规模多大?
用户分层激活:游戏是否喜迎玩家?那个渠道获取的用户最有质量(次日留存率、首日停留时长等)
留存:用户能否持续留存、那些用户可以留存?
转化:用户的游戏行为如何?能否进行转化?能否持续转化?
自传播:用户是否会想他人推荐该游戏?哪种方式能有效鼓励用户推荐该游戏?传播K因子是否大于1?

比如你对楼市不熟悉,现在要你去做一个像58同城之类的,卖房的中介、电商,你会如何进行分析。

商业模式分析:中介是做双边市场生意,通过解决市场信息不对成的信息流动问题,降低买卖双方的交易成本,从而创造盈利空间
需求分析:
买方需求:低价买好房,对时间的需求有快和慢
卖方需求:房子卖高价,对时间的需求有快有慢
进入条件
自身条件
竞争对手
市场增长规模
进入策略分析
自身目标
目标拆解
分析目标达成的可能性,预估将来一段时间,好/正常/坏条件下的目标达成情况
得出结论:是否进入市场

某业务部门在上周结束了为期一周的大促,作为业务多口分析师,需要你对活动进行一次评估,你会从哪几个方面进行分析?

确定大促的目的:拉新?促活、清库存?
根据目的确定核心指标
效果评估
自身比较:活动前与活动中比较
与预定目标比
与同期其他活动比
与往期同类活动比
持续监控:
检查活动后情况,避免透支消费情况发生
如果是拉新等活动,更具后续数据检验这批新客的质量

统计学

如何理解假设检验中的P值和显著性水平?????

谈恋爱的例子,前面有一个男生,我们有2个假设:
H0:一个真心爱你的男生
H1:一个不是真心爱你的男生
如果H0 实际上成立,而你凭经验拒绝了H0,也就是说,你拒绝了一个你认为不爱你而实际上真心爱你的男生,那么你就是犯了第一类“弃真”错误,也成为????风险,错杀好人;
如果H1实际上不成立,而你接受了H ,同样的道理,你接受了一个你感觉爱你而实际上不爱你的男生,那么你就犯了第二类错误“纳伪”错误,也被称为????风险,放走了坏人。

第一类错误和第二类错误概率是相互制约的,你大我小,你小我大,甚至基于保护0假设原则,我们一般把第一类错误概率固定住,让第一类错误概率不超过其某个阀值(也就是????值)也就是我们常说的“显著性水平????“,即代表好人被冤枉的概率,通常情况下,我们不希望好人被冤枉,所以显著性水平????通常比较小。

显著性水平????是你冤枉好人的可能性,然而每个人在这一点上都是有分歧的,有的人希望????大一点,有的人希望????小一点(????越大,意味着检验越严格,我们冤枉好人的概率就越大)

在这种情况下,我们期望回答一个问题:对于前面的这个男生,我们不会冤枉他的最严格的检验水平,即最大的????是多少?得到这个问题的答案,我们就可以轻松的完成在任意严格程度上的检验了,即如果????大雨这个值,那么我们就任务这个男生不喜欢你,反之亦然。

而这个最大的????,就是我们的P值,知识这两个概念室友明显区别的。显著性水平????是在每次统计检验之前认为规定的,通常选取????=0.05或者????=0.01.这表明,当做出这个拒绝原假设的决定时,其犯错误的可能性为????=0.05或者????=0.01,而P值是根据试验结果计算得出的。如果计算得出的概率(P值)小于这个标准(显著性水平????),就说明拒绝原假设所悟的可能性小,那就可以放心地拒绝原假设,认为这个男生确实不爱你;反之,大于这个标准则寿命拒绝原假设错误的可能性比较大,那还是接受原假设,也就是没有充足的证据认为这个男生还是爱你的 。

如何理解置信度和置信区间?

置信区间就是我们所计算出的变量存在的范围,置信水平就是我们对于这个数值存在于我们计算出这个范围的可信程度。
举例来讲,如果我们有95%的把握,让真正的数值在我们所计算的范围里,95%就是置信水平,而计算出的范围就是置信区间。

如果置信度为95%,则抽取100个样本来估计总体均值,由100个样本所构造的100个区间中有95个区间包含这个总体均值。

如何理解极大似然估计?

利用已知的样本结果,反推最有可能导致这个结果的参数值。“似然”就是“像这个样子”的意思。
极大似然估计,通俗来说就是利用已知的样本结果信息,反推最有可能导致这样本出现的模型参数!换句话说,极大似然估计提供了一种该额定观察数据来评估模型参数的方法,即:模型已定,参数未知。

非参数统计方法,其优缺点?

非参数统计:对总体的分布不做假设或仅做非常一般性假设条件下的统计方法。
机器学习:决策树、随机森林、SVM
假设检验:符号、符号秩、秩和检验
优点:非参数统计方法要求的假定条件较少,因而他的使用范围比较广泛。
多数非参数统计方法要起义的思想与运算比较简单,可以快速完成计算取得结果。
缺点:由于方法简单,用的计量水准较低,因此,如果能与参数统计方法统计同时使用时,就呼入参数统计方法敏感。若为追求简单而实用非参数统计方法,其检验功效就要差一些,也就是说,在给定的显著性水平下检验师,非参数统计方法与参数统计方法,第二类错误概率????要大一些,对于大样本,如不采用适当的近似,计算可能变得十分复杂。

假设检验

参数估计和假设检验师统计推断的两个组成部分,他们否是利用样本对综艺进行某种推断,但推断的角度不同。
参数估计讨论是样本估计总体参数的方法,总体参数????在估计前是未知的。

协方差和相关系数的区别和联系

协方差:表示两个变量的总体的误差,这与表示一个变量误差的方差不同,如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么这两个变量之间的协方差就是正值。
相关系数:研究变量之间线性相关程度的量,取值范围是【-1,1】。相关系数也可以看成协方差:一种提出了两个变量量纲影响】标准化后的特殊方差。

中心及限定理

中心极限定理定义:任何一个样本的平均值将会越定语其所在总体的平均值
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
中心极限定理的作用:
在没有办法得到总统的全部数据的情况下,我们可以采用样本估计总体。
根据总体的平均值河标准差,判断某个样本是否属于样本。

如何像小孩子解释正态分布

拿出小孩子班级成绩表,每隔两份统计一下人数,画出钟形图,然后是就是正态分布,大多数人集中在中间。
大部分人之间是没有太大差别的,只有少数特别好或不够好,这是生活普遍能看到的现象,这就是正态分布。

PCA为什么要中心化?PCA的主成分是什么?

因为要计算协方差、所以PCA要中心化。
单纯的线性变换知识产生了倍数缩放,无法消除量纲对协方差的影响,而雌蛾方差是为了让投影后方差最大。在统计学中,主成分分析(PCA)是一种简化数据集的技术。它是一个线性变换。这个线性变换把数据换到一个新的坐标中,使得任何数据投影的第一大方差在第一个坐标(成为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,以此类推。主成分分析经常用减少数据集的维数,同时保持数据集对方差贡献的最大特征。这水通过保留低阶主成分,忽略高阶主成分做到的。这样滴成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

主成分分析的原理是设法将原来的变量中重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

机器学习

给你一个无序数组,怎么才能合理采样?

无序数组是相对有序数组而言的,无序数组并不等于随机,我们要做的是将无序数组洗牌,得到随机排列。
对于无序数组,n个元素能产生n!中排序。如果洗牌算法能产生n!种不同结果,并且这些结果产生的概率相同,那么这种洗牌算法是正确的。

行存储和列存储的区别。

行存储:传统数据库的存储方式,同一张表内的数据放在一起,插入更新更快。缺点是每次查询即使只涉及几列,也要把所有数据读取。
列存储:OLAP等情况下,将数据按照列存储会更加高效,每一列都可以成为索引,投影很搞笑,缺点是查询是选择完成时,需要对选的列进行重新组装。

K-means算法原理及改进,遇到与长治怎么办?评估算法的指标有哪些?

K-means原理:
在给定K值和K个初始类簇中心点的情况下,把每一个点分力道离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直到类簇中心点的变化很小,或者达到指定的迭代次数。
改进:
1、kemans++:初始随机点选择尽可能远,避免陷入局部解。方法是n+1个中心点选择时,对于离前n个点选择到的概率更大
2、mini batch kemans:每次只用一个子集做重新入类并找到类心(提高训练速度)
3、IOSDATA:对于难以确定k的时候,使用该方法。思路是当类下的样本小时,提出;类下样本数量多时,拆分
4、kernel kmeans:kmeans用欧式距离计算相似度,也可以用kennel映射到高维空间再聚类

遇到异常值:
1、有条件的话使用密度聚类或者一些软聚类的方式聚类,剔除异常值。
2、局部一场因子LOF:如果P点的密度明显小于其邻域点的密度,那么点P可能是异常值。
3、多元高斯分布异常点检测
4、使用PCA或自动编码机进行异常点检车:使用降维后的维度作为新的特征空间,其降维结果可以认为剔除了异常值的影响
5、isolation forest:基本思想就是建立树模型,一个节点所在的树深度越低,说明其样本空间划分出去更容易,因此约可能是异常值,是一种无监督的方法,随机选择n个sunmsampe随机选择一个特征一个值。

评估聚类算法的指标:
1、外部法:Jaccard系数、纯度
2、内部法:内平方和WSS和外平方和BSS
3、此外还要考虑到算法的时间复杂度、聚类稳定性等。

数据预处理过程有哪些?

处理缺失值:删、插
异常值处理
特征转换:时间特征sin化表示
标准化:最大最小标准化、z标准化等
归一化:对于文本或评分特征,不同样本之间肯能有整体上的差异,如a文本共20个词,b文本30000个词,b文本中各个维度上的频次都有可能远远高于a文本
离散化:onehot、分箱等

随机森林原理?有哪些改进随机方法?

随机森林原理:通过构造多个决策树,做bagging以提高泛化能力
subsample(有放回抽样)、subfeature、低维空间投影

PCA(主成分分析)

主成分分析是一种降维的方法
思想是将样本从原来的特征空间转化到新的特征空间,并且在新特征空间坐标轴上的投影方差尽可能大,这样就能涵盖样本最主要的信息

方法:
特征归一化
求样本特征的协方差矩阵A
求A的特征值和特征向量
将特征值从大到小排列,选择topK,对应的特征向量就是最新的坐标轴

hive?spark?aql?nlp?

hive允许使用类SQL语句在hadoop集群上读、写、管理等操作
spark是一种与hadoop相似的开源集群计算环境,将数据缓存在分布式内存中的计算平台,每轮迭代不需要读取磁盘的io操作,从而答复降低了单轮迭代时间

NVL函数

oracle的一个函数
NVL( string1, replace_with),如果 string1 为 NULL,则 NVL 函数返回 replace_with 的值,
否则返回原来的值

LR

用于分类问题的线性回归
采用sigmoid对输出值进行01转换
采用似然法求解

分类算法性能的主要评价指标

查准率、查全率、F1
AUC
LOSS
Gain和Lift
WOE和IV

GBDT(梯度提升树)

首先介绍Adaboots Tree,是一种bootsing的树集成方法。基本思路是一次训练多棵树,每棵树训练时对分错的样本进行加权。树模型中对样本的加权世纪时对采样几率的加权,在进行有放回抽样时,分错的样本更有可能被抽到。
GBDT时Adboots Tree的改进,每棵树都是CART(分类回归树),树在叶节点输出的是一个数值,分类误差就是真实值减去叶节点的输出值得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差

如何避免决策树过拟合?

限制树深度
剪枝
限制叶节点数量
正则化项
增加数据
bagging
数据增加(加入有杂质的数据)
早停

SVM的优缺点

优点:
1、能应用于非线性可分的情况
2、最后分类时由支持向量决定,复杂程度取决于支持向量的树木而不是样本空间的维度,避免了维度灾难
3、具有鲁棒性:因为只使用少量支持向量,抓住关键样本,提出冗余样本
缺点:
1、模型训练复杂度高
2、难以适应对分类问题
3、核函数选择没有较好的方法论