acm-header
登录

ACM通信

ACM新闻

数据科学的繁荣已经到来


那些教育数据科学家的人正在努力满足当前的需求,同时也试图沿着“K-20”(从幼儿园到博士)的管道创建坚实的教育基础。

来源:dataversity.net

有一个故事,也许是杜撰的,讲的是一个年轻的工程师在20世纪50年代中期获得了IBM的一份工作,围绕开发7030年,第一台晶体管超级计算机。

“但我是个机械工程师,”他说。“我对编程一窍不通。”

他的面试官回答说,编程是一门语言,可以教给他。他接受了这份工作,并在IBM工作了30年。

由于数据科学学科的爆炸式增长,计算专业领域可能正处于另一个这样的时刻,有巨大潜力但在计算机科学方面缺乏经验的人正受到欢迎和鼓励,大量加入这一职业:根据教育出版商John Wiley & Sons的发现数据科学,到2026年,预计全球将创造1150万个数据科学工作岗位。美国劳工统计局估计,到2030年,包括数据科学家在内的美国计算机和研究科学家的总增长率为22%,大约是总体就业增长估计的三倍。

那些负责培养合格数据科学家的人同时也在努力通过研究生和证书课程的结合来满足当前的需求,这些课程欢迎各种各样的学生——包括那些技术背景有限的学生——同时也试图随着学科的成熟沿着“K-20”(从幼儿园到博士的管道)建立坚实的教育基础。

在写剧本的时候了解观众?

卡尔·舒伯特是阿肯色大学学士学位该项目于2020年启动,第一批学生将于2023年毕业。他还领导了一个团队,开发了该州的高中数据科学课程。在重返学术界之前,他曾在IBM、戴尔和Lifetouch等公司的企业技术部门工作,对行业需要的训练有素的技术人员了如指掌。

为了满足当前的市场需求,许多数据科学研究生项目已经向计算机科学背景有限的学生发出了邀请,Schubert说,他的工业部门的同事们想要的是受过训练的数据科学家,他们能够理解该领域的统计严格性,并合理解释为什么他们采用某种方法来建模问题;他们还需要能够将该决定传达给非技术管理人员。

舒伯特说,该项目的毕业生获得的“不仅仅是一个技术学位;这是一个STEM学位,但他们必须能够与不了解技术的人在他们的领域之外交流。这不是侮辱,你只是需要了解你的观众。”

在对数据科学技能的感知需求迅速扩大的情况下,理解受众也意味着同时试图就如何最好地培训其从业者达成共识。Paul Leidig,密歇根州大谷州立大学计算机学院主任,曾担任ACM教育委员会的联合主席数据科学专责小组,负责开发本科生数据科学课程的计算能力。该工作组于2017年8月开始工作,并发现自己致力于构建一个快速增长的领域和一个现成的市场,但对于如何成为一名数据科学家几乎没有达成共识。工作组的建议于2021年1月发表。

雷迪格认为,数据科学在学士学位水平上的普及是由“需求和意识,而不是定义、描述或欲望。”因此,我认为,我们最终至少开始定义学士水平的能力是非常及时的。”

他说,这个工作组有意将其重点称为“计算能力”,认为相关学科可以为训练有素的数据科学家提供额外的领域特定特征。因此,我希望接下来的努力,虽然还处于起步阶段数据科学本科课程所必需的能力。”

“一个足够好的程序员”

ACM特别工作组的报告呼吁数据科学毕业生具备一些“基本”技能和计算素养,包括“计算方面的基础教育(编程、数据库、互联网的使用);能够使用一种或两种通用语言(Python、R)进行独立编程;了解一些常见的库,如Python中的sklearn、R包和一些特定于方法或领域的库;并且能够在需要的时候学习新的语言和新的库。”

Schubert说,阿肯色大学的课程正在采取小的步骤,使其数据科学学生适应编程能力,目前的编程是Python和R通用语。

他说:“三到四年后,我们将开始招收学过Python和R的学生,他们做过一些案例研究。”“但现在,我们的预期是,他们根本没有任何技能。”

他说,在第一学期,学生们将学习编程的基本知识——命令行、GitHub、GitLab、Python,然后是r。在第二学期,将引入Java来教授面向对象的编程。

“在那之后,我们就没有任何专门的编程课程了,因为他们在所有剩下的数据科学课程中都使用编程,无论是Python还是r。我们会在数据可视化和通信课程中教他们Power BI和Tableau,但在那之后,他们每次都在使用它,所以我们不会再教授它。”我们提高他们的技能,但我们不会回到最开始。

“我认为在数据科学的最后,我告诉计算机科学的学生,你需要成为一个真正优秀的程序员。在数据科学中,你需要成为一名足够优秀的程序员,这样你就可以在不产生错误数据的情况下进行分析。”

“有目的的计算”

保罗·安德森目前是位于圣路易斯奥比斯波的加州理工大学安德森数据科学实验室的首席研究员,他是查尔斯顿学院启动其数据科学项目时的主任研究生课程在2019年。他说,该项目的第一批学生实际上由非计算机科学专业的学生组成;他认为这样做没有坏处,事实上,经验的多样性将有助于拓宽“现实世界”应用领域。

“我们确实有一些物理学家和数学家,他们肯定有良好的计算机科学背景,但大多数人没有,”安德森说。“幸运的是,有很多优秀的数据科学入门材料,我们可以在他们通过我们的入学考试最终进入之前提供很多异步材料。

“关于这种情况是否会消失,我认为这可能取决于项目。我个人认为,由于背景的多样性,数据科学领域更加强大。”

安德森将数据科学的实践称为“有目的的计算”,并警告不要将其定义为一个离散的元素;安德森回忆起最近与木星计划的布莱恩·格兰杰(Brian Granger)的一次会面,他说格兰杰谈到了不要定义数据科学本身而是思考需要掌握的任务或过程。Anderson说,在某些情况下,这些任务可能确实需要计算优先的方法,但在其他情况下,如制造业,计算所解决的“目的”是特定领域的,但通过编程技能和数学和统计方法的知识(a维恩图解2010年,Alluvium创始人兼首席执行官德鲁·康威(Drew Conway)创建的图像可能仍然是最常被引用的图像,它定义了在方法论上健全的数据科学中必须重叠哪些技能集)。

计算机科学教师协会(CSTA)执行理事Jake Baskin表示,这些领域知识背后的原理甚至可以在学生进入大学之前就被引入,尽管Baskin也表示,他不希望看到协会加强K-12核心计算机科学课程的重要工作同时被拉向太多的方向。

巴斯金说:“教育的变化很慢,我们希望在计算机科学领域做出的改变还有很多工作要做。”“我想知道其中是否有一些是中介,这是一个与其他主题更充分融合的过程;并不是说你要研究数据科学,而是要理解,作为一名社会学家,数据科学是其中的一部分,并将其纳入其中。”

阿肯色大学的Schubert说,他怀疑在美国的数据科学课程中会出现任何全国性的模板,但在州内,社区学院和大学之间的协调等目标将会联合起来。“我们不能让两年制大学的学生无法转学完成2+2课程的数据科学课程激增。”

雷迪格说,引导该领域走向某种成熟度的多个学科可能还没有走上同一条轨道,但相互了解正在增长。不过,用一个简明的词来形容这种协调状态是很棘手的。

“这当然还没有标准化,”他说。“我认为使用‘同步’这个词是乐观的,尽管它比‘标准化’更合适。它正变得更加同步。我们变得更加和谐。也许和谐是一个更好的词。它们并不是真正同步的,但它们是同时发生的,与其他努力的意识并行。所以,也许它们甚至还没有协调起来。”

不可逃避的事实是,无论人们如何想定义努力之间的共同点,数据科学课程的增长速度比预期的要快,它吸引了以前没有见过计算机科学课堂的学生。

舒伯特说,阿肯色大学这个专业的招生比计划提前了18个月到两年。他说,该项目包括来自该校三所学院——工程学院、富布赖特艺术与科学学院和山姆·沃尔顿商学院——的10个专业的课程,显著拓宽了学习技术的学生群体。

他说:“我们吸引的人群看起来不像工程学院的学生。”“我们有更好的男女组合,更好的少数族裔组合。当我把我们和这三所大学单独比较时,我们的学生的ACT和SAT分数更高,他们的平均成绩也更高,我们40%的学生是优等生。”

格雷戈里·哥特是一位住在康涅狄格州奥克维尔的作家,专门研究科学和技术。


没有发现记录

Baidu
map