Skip to content

数据分析一面

  1. spark等大数据框架的熟悉程度
  2. spark和storm的区别,以及什么场景选用spark
  3. 常用的语言,java会吗
  4. GBDT和XGBoost的区别
  5. 无监督学习算法,Kmeans的原理
  6. 单分类下HMM和One class SVM效果比较
  7. 深度学习和机器学习的区别
  8. 如何区分机器流量和正常用户流量,给出解决方案(重头戏)

我当时想了两种方案,有些细节没表达清楚,可能面试官误解了我的意思,后来我查资料发现我说的还是有那么点道理的。给出的第一种解决方案是传统安全手段/无监督学习+有监督学习,针对数据未打标问题,采用传统安全手段比如威胁情报,或是通过恶意机器流量的分析发现有些恶意机器流量来源于一些云服务商来对数据进行一些打标;也可以通过聚类来打标得到标记数据,之后再有监督学习。另一种方案是规避未打标数据的问题,直接无监督学习,使用Kmeans或是HMM等算法区分流量,从问题本身的角度来理解正常用户流量和机器流量的区别在于人的操作是有主观意识、有序的,而机器的操作是无主观意识、无序的,所以暂时倾向于使用HMM算法。两种初步的解决方案的后续都依赖特征工程,这就要分析观察机器流量和正常流量的异同。简单的机器流量可能是从脚本直接产生的,所以直接观察browser可能就可以区分,高级点的机器流量可以伪装成正常的浏览器,这就需要从是否模仿人类交互功能的角度来观察区分了,比如鼠标点击的(网页的)有序性和无序性,鼠标的轨迹等。

数据分析二面

  1. 自我介绍
  2. 做过渗透测试漏洞挖掘吗
  3. 提交漏洞的平台、类型和危险程度
  4. 打过CTF吗
  5. 会Java吗(看来java不学不行了啊)
  6. 机器学习做waf的方法
  7. 追问了模型预测阶段如何处理使模型能够自动学习,比如如何达成预测阶段的误报和漏报,然后数据回流再训练模型(开始我以为是训练阶段的漏报和误报,直接说了混淆矩阵,然后花了几分钟才get到面试官意思是预测阶段的误报和漏报,也就是模型自适应性)
  8. 如何选择模型,如何调参,有没有什么方法

hr面

吐槽一下腾讯座机,声音超小,hr又用自己手机打给我才继续面下去。

  1. 评价一下腾讯安全
  2. 用两个词概括你的性格特点
  3. 从本科到现在你遇到的最困难的事情
  4. 家是哪的
  5. 是不是独生子女
  6. 对工作地点有没有什么要求
  7. 介绍简历上个人维护的项目
  8. 有没有和同学发生过矛盾
  9. 有没有拿到其他公司的offer,以及包括腾讯在内这些公司在你心目中的排名
  10. 相对于其他安全人员,你的核心优势是什么
  11. 你打算怎么融入团队
  12. 如果实习的话,你有什么担忧
  13. 实习时间大概什么时间