北美微论坛

App下载
扫码下载 App
联系我们
1框架
查看: 341|回复: 0

[其他] 数据科学家 (Data Scientist) 的核心技能是什么?

[复制链接]

小学生

Rank: 1

发表于 2018-2-23 10:49:40 | 看全部 |阅读模式
是否可以结合不同的行业来讲一下对于数据科学家岗位的要求有哪些(学历、硬技能、软技能等等)



@司德:
最近有在考虑申请Data Science的研究生,谁让Data Science这么火呢。我觉得对于还没有学习数据科学的同学,或者像申请研究生的,有几点可以考虑:
1、工作(实习)经历和大学的课程最好跟data processing、programming有关,这是申请MS专业比较看重的。
2、 客观存在的问题是现在data science也可以说是在风口上的行业了,大家都在往这个方向挤,有大量编程知识和相关经验不足但想忘这个方面转的人。所以如果你的背景是商科,那最好先自学一下编程。
3、 申请美国Top Tier 斯坦福和MIT的话,统计学院和computer science的美本学生GPA基本都在3.9往上,也少有3.8,所以GPA也是一个门槛。
感觉没有直接回答题主的问题,但是这也是自己的目标,所以希望可以帮助到需要这些信息的同学。


@魏泽华:
首先题主问的问题很好,不同数据科学岗位之间,所需的技能集相去甚远,同为"数据科学家",可以交流的东西也不见得很多。亲身经历,最近一次飞回国,隔壁座位女生是亚马逊的数据科学家,但是她的工作更多基于统计的研究方法,我作为一个使用机器学习的数据科学家,就没有办法和她交流业务。我的室友,在亚马逊负责流量预测,他的模型是基于时间序列的,所以也是我知识的盲区所在。
       刚刚的两个例子,仅仅是全民“数据科学家”的时代中,不同数据岗位的冰山一角,几乎所有的学科,都有可以对应的数据科学家的方向,用数据驱动自己的研究/产品的进步,哪怕是社会学,历史学,只不过有的行业可能管这个方向叫“量化研究”。
       我是一个化工和NOIP竞赛背景,通过硕士期间的一门针对non-cs学生的数据科学,和朋友的指导,进入数据科学领域的研究者。我的第一门机器学习课,和网上大量的在推广的数据科学Boot Camp相似,让大家熟悉Github和Python编程,指导大家熟悉调用Scikit-learn开始,基于公开数据集,设计并且优化一个回归/分类的模型。之后,我在一家初创公司,进行一个基于SpaCy的文本情感分析(自然语言处理)项目的开发。那时候,TensorFlow和Keras刚刚开始流行,Keras的样例非常丰富,极其容易给我这样的初学者上手,我修改Keras的样例,建立了一个基于Word2Vec词嵌入的文本分类模型。这个项目之后,我进行的两轮找工作的艰难历程,我意识到,单纯是会调用包,是很难通过技术面试拿到科技公司全职岗位的。为了应对不同公司的面试,我补习了大量机器学习的历史发展,和背后的数学操作基础。目前我在一家医疗影像公司,负责开发一款基于深度学习模型的医疗图像处理系统。
      人工智能大潮炒火了机器学习,可是最常见机器学习流程是什么样的?
  • 当下大多数的机器学习项目,是有监督的机器学习(supervised learning),需要大量带有标签的数据。这个标签,可以是一张图像的内容,也可以是一段文本评论的感情感情倾向,也可以是一个岗位的年薪数字。如何设计标签,是一件极其有难度的事情。一个优秀的数据集,可以成就一系列算法,比如大名鼎鼎的ImageNet,当年李飞飞手下负责收集这些标签数据的博士生,实际上为计算机视觉领域做出了极大的贡献。如果你手上的任务,和任何一个公开数据集都无关,可能需要用尽各种手段去收集满足自己需求的数据(比如有个众包网站,叫Amazon Mechanical Turk),在此不具体展开。
  • 有了大量的带标记的数据之后,还需要做数据清洗和数据增强,然后放入自己选择的模型进行训练,调参优化。数据清洗,实际上是很多机器学习类数据科学家吐槽的重点,我们会花费甚至90%的时间在清洗数据上,而选择模型,调参优化,熟悉套路的人可能指导,可以通过写grid search,让计算机去做这些辛苦的工作,替代人的思考,调参的原理研究往往滞后于实践者的暴力试验。不缺钱的大公司,会养一个单独的数据工程师团队负责数据清洗,而让自己的数据科学家团队专注于模型,可惜这样的公司少之又少,刚刚入行的人,可能必须要经历数据清洗的“洗礼”,才有能开始把模型正确率的优化拉入正确的轨道上。数据增强和模型选择,往往有过往的论文和公开代码做参考,这一部分资源最丰富,关键字+github,很容易就搜出很多不同框架的代码实现。至于调参,也是大家纷纷吐槽的重点,有的论文可以发表在很好的会议上,可是作者通常不会把自己辛苦调试出来的超参数立即公布。以至于读者在重复他们的实验的时候,很难完全重现论文的结果。存在一些文章正确率很高,不见得是模型本身架构普适性很强,而是研究者对于当前的数据集,做了大量调参优化,换个数据集就难以重复。为此,机器学习算法研究者总是被黑是“调参大师”。现在的阶段,只能说这是当前算法的局限性,似乎不可避免,大家也要坦然面对。
  • 一个优化后的模型,如何在自己的项目上部署,通常不光是BootCamp,学校的课程也几乎不会涉及这方面内容。我目前也刚刚涉猎这部分的问题,尚不能回答的很具体。

        一个机器学习项目,想要达成一个闭环,是这样的过程:收集数据——建立模型——部署/测试模型——收集更多数据——改进模型——部署/测试。一个全面的机器学习数据科学家,可能要思考的方面还是很多的。
******************************我是分割线******************************
        说了这么多个人经历和感触,回头看看题主的问题在问什么。
1.机器学习类数据科学家有学历要求吗?
       Yes and No。Yes,因为牛逼公司永远不缺候选人,如果工作经验不多,还没有学历支持,HR可能实在找不到打电话给你的理由。No,因为我身边不乏本科生,个人能力突出,在对方HR明确说自己的部门很少招本科实习生的情况下,拿到对方实习Offer的案例。所以如果自己的学历还不够好,也不需要因为几个忙于自己的KPI的HR否定自己。每个人虽然真的会有因为个人能力到达的职场天花板,刚刚毕业就这么绝望,还真是没必要。
2.机器学习类数据科学家所需要的硬技能有哪些?
        从我个人而言,因为不是CS出身,代码能力的确是一个重要的瓶颈。改进模型的时候,自定义一个损失函数,对数据类型进行一个格式/维度变化,都有需要... ... 阅读全文,请扫描二维码进入CareerX讨论平台

21.png

这是一个专门为留学生打造的免费问答社交平台上,欢迎大家提问,阅读以及分享留学生活、学习、和求职经历。你可以参与与北美导师和广大学院关于职场的交流。我们的明星导师也会定期上线回答大家所有能想到的问题哦!



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部