当前位置:主页 > 数据驱动 >

如何成为一名数据科学家?Yann LeCun 的建议也许能给你答案

 发布时间:2018-05-26 来源:
最近,我在读Sebastian Gutierrez’s “Data Scientists at Work”这本书,他采访16个不同行业的16位数据科学家了解他们如何从理论思考问题和如何解决实际问题,数据是怎样发挥作用,并且是如此成功。

 

如何成为一名数据科学家?Yann LeCun 的建议也许能给你答案

 

16位受访者在如何理解和从大量公共和私人企业类型的公司提取数据价值都处在前列位置,公司类型横跨刚刚起步的初创公司,到主要的研究机构和人道主义非盈利组织,包含大量行业:广告,电子商务,电子邮件营销,企业云计算,时尚业,工业互联网,互联网电视和娱乐,音乐,非营利组织,神经生物学,报纸和媒体,专业的社交网络,零售业,智能销售和风险投资。

尤其是,Sebastia提出了开放式的问题,以便每位受访者的个性和自发的思考过程能够清楚和准确的分享。书中涉及的从业者分享数据科学对他们的意义,及他们怎么理解它的,他们的建议关于怎样加入这个领域,和他们在领域内获得数据科学家必须深刻理解才能成功的经验的智慧。

在这一篇文章,我想去分享这些数据科学家如下问题的最佳答案:

你对开始学习数据科学的人有什么建议?

 

1—Chirs Wiggins,纽约时报首席数据科学家,哥伦比亚应用数学专业副教授

“创造力和有心。你必须真正喜欢一些事你才原意长时间的思考它。当然,某种程度地质疑。因此这就是我喜欢博士生的一个原因-五年时间足够培养探索能力,然后你能意识到你用某些方法做某件事情的是有问题的。反复经历’冰火两重天‘的感觉,犯一系列的错误并且修复它们是很棒的事情。我想博士生经历的这个过程对于培养对看似正确的事情仍然抱有怀疑是非常有帮助的,特别是研究领域。我认为这是有帮助的,你可能快速地且轻易地走上错误的路径,仅仅是因为第一个这条路上的相遇者看起来是言之凿凿的。

尽管这是一个令人生厌的答案,事实是你必须具备技术深度。数据科学不仅仅包括一个领域,因此目前还没有认证。机器学习方面,获得维基百科水平理解很容易。为了真正做到这一点,你需要了解针对现在的工作,什么才是合适的工具,而且你需要深刻理解每种工具的局限性。获得上述的经验是没用捷径的。你肯定会犯很多错误。你可能会强行把分类问题塞进聚类问题,或者是把聚类问题转换假设检验问题。

一旦自己尝试一些方法,对自己的方法无比自信,但最后你意识到自己完全不对,经历过很多次上述的过程-你发现这需要经验的积累,但不幸的是并没有捷径。你仅需要不断地实践,不断犯错,这是我喜欢在这个领域有若干年工作经验人的另一个原因。某些领域里要成为一名专家需要很长时间。犯错误会持续很多年的时间。几个世纪以来都是这样。著名物理学家Niels Bohr(尼尔斯.玻尔)有句名言是这样说的,他断定成为领域内专家的方式就是犯过这个领域的每一个可能的错误。”

2—Caitlin Smallwood,Netfilx的科学和算法部门的副总裁

“我想说做任何事情之前,硬着头皮了解数据的基础素质,尽管这不迷人也不有趣。换句话说,要努力理解是怎样捕捉数据,准确搞懂数据是怎样定义,并且搞懂什么时候会造成数据缺失。如果数据缺失,这是不是意谓有些东西发生变化?数据仅仅是在这种特定情况下缺失吗?这些细小的,微妙数据陷阱真的会影响你。他们真的会。

你可以用现存的最复杂算法,但它是古老的,垃圾的东西。你不能对原始数据视而不见,不管你进入到建模的步骤有多兴奋。你需要对细节一丝不苟,在模型研发之前,你要检查基础数据的每一个细节。

随着时间的推移,我所学到的另一件事情在一个系统环境中,混合算法总是比单一算法的表现要好,因为不同技术探索科研数据模式不同方面,尤其针对是复杂的大数据集。因尽管你可以单一的特殊的算法,通过迭代达到更好的效果,我几乎总是注意到:混合算法组合往往比单一算法的表现更好。”

3—Yann LeCun,Facebook人工智能研究总监,纽约大学数据科学/计算机科学/神经科学教授

“我经常被问到这个问题,往往我给相同的建议。我的建议是:如果你是本科生,学习一门尽可能多修数学和物理课程的专业。不幸的是,并且必须是有用的课程。我接下来要说的听起来是自相矛盾的,但是攻读工程学或物理学专业可能比数学、计算机科学或者是经济学专业更合适。当然,你需要学习编程,因此你需要学习大量的计算机科学课程去学习编程机制。随后,完成数据科学的毕业项目。学习本科阶段的机器学习,人工智能或者是计算机视觉课相关技术,因为你需要初步探索这些技术。接下来,尽可能学习接触到的数学和物理课程。尤其是会持续应用的数学课程:优化,因为你是为将来遇到的挑战做着准备。

数据科学或AI领域有大量不同类型的工作,做什么样的准备取决于你想到达什么样的高度。人们应该思考什么是他们真正想做的,然后再学习相关课程。目前热门话题是深度学习,意谓着要用神经网络学习和了解的经典问题,学习优化,线性代数和相似的课程。这会帮你学习每天都会遇到的基础的数据知识和基础概念。”

4—Erin,Shellman,Zymergen的数据科学主管,Nordstrom数据实验室和 AWS S3的前数据科学家

“对于一直坚持要去学习的人,我必须说科學(Science)、技术(Technology)、工程(Engineering)及数学(Mathematics)领域是不假思索就能想到的主意,特别是技术(Technology)、工程(Engineering)及数学(Mathematics)学科。学习上述课程将会给你提供检验和了解世界的工具。那就是我怎样看待数学,统计学和机器学习。对于数学本身,我不是特别感兴趣,我感兴趣的是如何应用数学来描绘事物。毕竟有现成的工具包,如果你对数学和统计不是很热衷,学习这两个学科并且思考如何在你热衷的事情应用它们也是非常值得的。

对于像我一样立志转型的人,我会说它会很难。意识到改变行业是很困难的和你需要非常努力。改变是很难的并不仅限于数据科学领域---这就是生活。和数据科学领域没有任何联系是更加艰难的,但是你可以通过与乐于助人的人士见面或喝咖啡建立连接。我生活中首要准则就是‘跟随’。如果你和具备你关注的素质的人谈话,那就是在不断进步。

文章评论

互联网 自媒体专栏 智能硬件 资本动态 移动互联网 游戏 数据驱动 滚动新闻 O2O 访问移动版
Copyright © 2002-2013 搞数码网 版权所有  电话:0510-898978789 邮箱:89898989@qq.com 地址:北京市新会金水岸国商大厦B-6-B