密大生物统计第二学期就读体验

作者 : yanyan 本文共10376个字,预计阅读时间需要26分钟 发布时间: 2022-04-30 共6人阅读

这篇推送完成于2022/4/23 21:30(美国东部时间)

学期没结束呢好闲啊你大家好!
千呼万唤始出来,犹抱琵琶半遮面。我们终于在4.23这一天完成了这一篇文章。需要注意的是,其实我4.26才结束我的最后一次考试,但是因为私信收到了一些催更,而我其实结束考试之后还有很多后续的事情要接上,所以我提前完成了这一篇文章。

第一学期的文章链接在这里:密大生物统计第一学期就读体验
那么我们开始吧。
01总体体验
我这学期一共选修了4门课,13学分,和上学期打平。但是实际上第二学期是远比第一学期要难熬的,且并不是个别现象,关于我个人的原因我会在下面介绍课程的时候说(没错,有些课程的任务量(workload)确实超出了我的预期)。总体上的几个原因我个人推测可能有以下几点:1部分同学这学期开始了RA(Research Assistant),RA本身一周会占据20-40h的时间。关于RA的问题我们在后面细说。2冬季学期优质的课程比秋季学期(也就是第一学期)要多,对应的要求和课程压力也更大。在我们系主要的体现就是602要显著难于601,802要显著难于801。如果你记不得801,601是啥了,可以看一下上一篇文章。至于802,602是啥,我们后面会说。
3经过了一个学期的学习之后,很多人已经大概了解了自己希望学习和进修的领域,所以在选课上更加激进了一些。例如我身边很多朋友都选修了很多外系的质量高的课(主要是EECS和STATS),也有朋友修了5门课。这使得他们需要花更多时间。
因此对于冬季学期的选课,很多人都会鼓励多修多探索,因为冬季学期确实有特别多很有用很有意思的课。但是我们必须也要强调的是,在冬季学期如何平衡workload是个很重要的事情。比方说我这学期有RA,那么我的top priority一定是GPA和RA,那么如果你在探索的时候丢掉了GPA或者耽误了RA的进度,其实是得不偿失的。Green Mountain山顶, Maine
02主要课程介绍
BIOSTAT 802Advanced Inference 2
因为我之前申请了waive,所以按部就班我这学期就直接上了802,之前我也写过一篇笔记:
高等概率论|专题(2)——从中心极限定理到M/Z估计量

这一门课对标于国内的高等数理统计,但是实际内容上还是略有差别。总体来说还是大样本理论和渐近统计这一块的内容为主,更具体来说,它是从801的最后一部分(M,Z估计量)开始,介绍一些常见的M,Z统计量和他们的渐近分布。然后开始介绍假设检验的三大统计量及其渐近分布的证明,并介绍了统计决策理论和风险函数等相关的内容。
这一门课一共有5次作业(教授本来希望布置6次的),同时会舍弃一次最低分(但是也可以不舍弃,虽然我没想明白为什么要不舍弃……),2次考试。值得一提的是作业本身还是挺困难的,比方说有些题出自于邵军的《数理统计》,而这本书本身就是一本很难的高等数理统计的教科书。同时今年2次考试都是闭卷(期末考试的问卷中大部分人在开卷和闭卷中选择了闭卷,可能是怕题目出难吧……),这个其实见仁见智,我个人不是很喜欢闭卷,虽然闭卷的话题目都基本上会过滤掉很多证明中复杂的tricks,只要懂得核心的部分,计算能力过硬的话就可以解答出来。总结来说这一部分的内容难度是要显著高于801的,主要在于本身内容的抽象度变高,对于计算的需求变大(例如风险函数中要计算各种贝叶斯统计的先验后验分布),而且有很多大证明和细节其实并没有那么直截了当。但是不得不说这一门课总体的体系还是非常不错的,虽然内容难了不少,但是教授对内容的解释还是非常清楚的,而且确实会在考试上充分考虑到大家的背景,不会刁难学生。不过个人感觉如果不是科班,一开始面对那么intensive的证明有可能会犯怵,这个我也不知道,但小道消息说明年大概率还是这位教授来负责这一门课,到时候看看大家怎么说hhhMonument Valley, Arizona

BIOSTAT 651Intro to Gener Linear Model这一门课也是我们系的必修课,主要介绍的是广义线性模型相关的内容,从指数族分布到后期的各种模型在试验设计中的应用都有涉及。
这一门课是一门非常纯的应用为主的课程,一共有5次作业(今年最后一次作业没有算分,直接发了答案),2次考试,1次期末项目。总体上来说这一门课主要就是强调怎么合理的运用和解释广义线性模型,虽然课上教授也会补充一些其背后的数学原理,但是绝大背后都不是要求掌握的内容。也是因为本身内容比较浅,所以两次考试其实难度都比较适中,毕竟对于这一门课的教学重点摆在那里。
不过对于期末项目我觉得还是需要多说两句,我们在期末项目中虽然一开始就清楚需要用的模型,但是真正到数据分析和模型诊断的时候会发现一大堆和数据本身有关系的问题。比方说数据本身可能有些就不合理,样本数在某一类过小有可能会影响卡方检验的力度,使得很多假设检验方法失效等等。同时我们拿到的数据集都是生物,医学相关的数据集,这就使得我们还需要了解一些基本的背景知识,做一些文献调研什么的。因此其实这也能凸显出这一门课的重点,或者甚至于生物统计学的重点:如何分析,如何解释和如何推断,而不是如何预测和如何证明。当然了,其实650(应用线性模型)就已经有期末项目在训练这方面的能力了,所以其实大家已经有了一些经验了,也不算是白手起家。
我之前写过两篇笔记,读者可以参考:广义线性模型(GLM)专题(1)——引入,指数族,整合参数与系数的估计与检验
广义线性模型(GLM)专题(2)——带约束的假设检验,模型诊断,0/1变量分析与建模
BIOSTAT 626Mach Lear for Hea Sci这一门课其实就是传统的机器学习算法,基本上从监督学习到无监督学习,从线性回归(Linear Regression)到支持向量机(Support Vector Machine,SVM)再到主成分分析(Principal Component Analysis,PCA)或K均值聚类(K-means)等等,神经网络(Neural Network)也会简单说一下但不深入。并会附上一些R语言代码介绍怎么使用它们。
这一门课一共有2次作业和2个项目,2次作业主要就是一些课上的内容,有理论有实验,比如写一个CV分析数据,推导SVM的对偶问题等等。2个项目分别对应的是监督学习和无监督学习,两次都是基因数据分析(感觉这是因为教授的研究方向主要是基因数据)。监督学习就是用各种机器学习方法做一个预测模型,最后在测试集上跑出自己的预测结果,并且提交给教授,由教授通过计算某个数值作为得分并排名(有点类似Kaggle竞赛),写报告总结自己的探索和结果。无监督学习主要是根据教授的指示完成一些小的任务,并写报告汇报自己的发现。这一门课其实每一年的作业和项目安排都是变化的,教授自己也比较佛系,所以这一门课看似作业量不多,但其实内容量并不小也很成体系。不过这一门课的作业其实还是有点复杂的,比方说推导SVM的对偶问题其实依赖的是凸优化,但是课程上在这一块教授并没有说太多,那就会带来难度。所以虽然看起来作业不多也不考试,但是课下还是会费一些时间的。Indianapolis Downtown, Indiana

EECS 598-008Deep Lear in Comp Vis欢迎我们这学期的重头戏登场!
这一门课每一学期的课号也不一样,也不是每一学期都有,因为EECS 598的名字叫Special Topics,它会提供大约十几门不同主题的课程,但是不是每一门都会在每一学期出现。这一门课介绍了深度学习在计算机视觉中的应用。如果对这一块有了解的人应该听说过斯坦福大学的cs231b,而这一门课教授就是Fei-fei Li(李飞飞)教授的学生Justin Johnson,之前也是cs231b的主讲人之一。这一门课一共有6次作业,一个期末项目(但是今年因为时间问题,期末项目不再是必需的了)。每一次作业也都是一个完整的项目,同时每一年都会根据当今计算机视觉的发展情况适当的对作业做一些调整。第一次作业主要是介绍怎么使用Pytorch(Python中做深度学习的包)和KNN。第二次主要是全连接神经网络,并且用它去跑Cifar-10(一个图像数据集),达到一定的准确率。第三次是卷积神经网络和一些优化算法,Batch Normalization,Dropout等的实现,也要拿来跑数据集刷准确率。第四次是完成一个目标检测的项目,实现Faster-RCNN和FCOS。第五次是手写RNN,LSTM,Attention和Transformer,并调参完成最后的准确率测试。第六次是实现VAE,GAN,并用它们来完成一个图像风格迁移和网络可视化的项目。期末项目是三选一,也可以自己开题,也是一样需要用Pytorch手动搭建一些复杂的网络(换句话说不能抄GitHub或者调用一些非常high-level的包),来解决诸如迁移学习一样的问题。可以看出,和上一篇文章我说的一样,相比较BIOSTAT的课来说,EECS的课程非常看重训练,课程的东西有没有听明白其实重要性并不高,因为你在做的时候所有的不清楚的问题都会遇到,也都可以自己查。例如这一门课每一次的作业都差不多有千行左右的Python code(一个项目大概一共有两三千行,但之前教授和助教会先把一些必要的架构写好,让我们填进一些对应的关键的步骤),而且非常强调手写和必要的算法步骤。例如前三次作业我们是不能够使用torch.nn的,换句话说不能够使用像官网教程所说的那种堆积木的方法来建立神经网络,而是要自己手写每个模块的前向和反向传播。后面几次作业虽然可以使用torch.nn,但是以第五次作业举例,学过Transformer的人都知道那个模型的复杂程度,所以其实压力并没有减轻很多。
这一门课应该可以说是同类课程中质量最高的课程之一,但是这一门课的workload也是特别大的。我自己最耗时的一次作业是第四次(差不多得有40-50h才做完),那一次作业因为是助教完全从头开始出的新题(因为教授要求这一门课的所有材料都代表了计算机视觉最新的发展方向),所以bug非常多,一直到ddl前两天助教都还在改code和题目描述。总体来看这一门课一周耗时少的时候差不多是10-15h,多的时候是25-30h,平均下来差不多对应CMU 11785(Intro to Deep Learning)这一门课的workload的3/4(除去必要的训练以外,11785还会有Kaggle的竞赛),也算是UM的CS课中,workload中上的一门课了。所以总体来说质量很高的课程往往逃不开精心的设计和繁重的workload,无论是这学期的802还是598都告诉我了这一点。而且这学期虽然因为这一门课耽误了很多时间,以至于快到期末的那一段时间几乎没有任何空闲时间去思考我们系的事情,但是这一门课的设计还有对于编程能力的提升(尤其是对于Pytorch各种特性的了解,还有一些编程架构方面的理解)是非常显著的。但是我自己其实也很清楚,假如说我之前没有上过595(自然语言处理)先感受一下,或者没有之前做过互联网算法,我选这一门课就有可能会在学期中把自己给玩崩,落得两边不讨好的境地。因此虽然说好课往往是可遇不可求,但是如果来的是一个没有怎么写过code,只是理论上了解Deep Learning的朋友,那么我还是会劝他三思而后行的。Fake Arc de Triomphe, Las Vegas, Nevada

最后我还是要强调一下Piazza(一个类似论坛的地方)对于CS系的训练的重要性。因为CS和统计/数学不一样的地方在于练的重要性远大于学,变化性也远大于理论课,所以仅仅只有code的教程或者理论是完全不足以说是一门合格的课程的。也正是因为如此,教授或助教认为对的code,很有可能在学生自己实践的时候完全不奏效,这也解释了为什么助教在测试通过之后发布作业,却依然在不断的改题目的原因。因此虽然无论是BIOSTAT还是EECS课程,很多都有Piazza这么一个学生和教授讨论问题的平台,但是个人感觉,Piazza对于EECS系尤为重要,这就相当于是一个所有学生的问题库,我们在做一个项目的时候可能会踩到各种各样的坑,而且这些坑很有可能助教和老师都是没踩过的,这个时候Piazza上搜索一般大概率都是可以找到问题和答案的,因为作为学生,你在做项目的时候碰到的bug,大概率别人也会碰到。如果你在做项目的时候百思不得其解,而又突然发现其实其他人也碰到过类似的bug还有解法,你自然的就会对这些东西有深刻的印象,下次面对同样的错误的时候也就不再容易掉到同一个坑里。以我自己举例,第四次作业的时候就碰到过一个reshape的bug,这个bug修改之后直接最终的准确率上升了四十个百分点,但是这个bug细微到我们一个组(当时为了做期末项目组的一个学习小组)三个人花了几天都没看出来。后来也是这个bug遇到的人多了,助教下场解决,大家才长叹了一口气。其实这也是我自己之前工作的体验,虽然可能你一下子要熟悉整个公司的系统,但其实真正创新的部分非常之少,大部分code都是你的同事们早已熟悉的,因此你只需要不会的多问问身边的同事就可以,你也会很快能赶得上。这门课一定程度上也强调了在CS社区开源和合作的重要性,一加一大于二,合作才能共赢。
另外,这门课程的材料可以在官网中找到,搜索Umich EECS 598或者搜索课名就可以了。其他的课程读者如果感兴趣,也可以搜搜看~在家门口拍的圆月

03其他课程介绍
BIOSTAT 602Biostat Inference
这一门课和601一样,有十次作业,也是系里面非常看重的一门基础课。这一门课因为涉及到了对于概率论知识的应用,也大量考察了对于微积分的掌握程度,所以其实总体难度上要比601要大很多。这一点在802上也有所体现。
BIOSTAT 620Intro to Heal Data Sci这一门课也是一门相对比较新的课程,主要介绍的是一些基本的在医疗领域所遇到的数据分析的问题。这一门课非常看重编程的训练,项目也非常多。
不过反馈来说这一门课在深度上确实是做到了零基础,教授对于很多深入的内容其实有所回避。但是总体来说因为教授对于项目和报告比较看重,所以如果不花时间或者不认真对待,其实还是容易在这一门课上栽跟头的。因此总体来说虽然不难,但是不代表不花时间,毕竟一个项目接着一个项目的……Spring in Central Campus of Umich, Ann Arbor, Michigan
BIOSTAT 695Analyze Cate Data
这一门课一共有10次作业(但是每次只有1分,所以基本上可以认为是纯拿来提供练习的目的的),3次考试(今年都是take home exam)。可以把它当成是651的进阶,在很多内容上其实和651有些重复,不过如果在现实的分析中确实经常出现需要分析离散数据的情况,那么这一门课还是值得上一下的。
STATS 507Data Sci and Analy using Python如果眼睛足够尖的话会发现其实我们在上一篇文章中已经介绍过这个课。但是要注意的是,这一门课每一学期的内容其实都是不一样的。在这学期这一门课的统计意味没有特别浓,更多的还是介绍了Python的编程规范和技巧,例如怎么写Python的向量化,怎么理解Python中numpy的维度计算等等。
我自己也简单的看过这学期的内容,感觉相比较上学期,这学期的内容其实在引导编程上总体上设计的还不错,而且跨度其实很大,不像620在很多内容上努力做到了浅尝辄止。可能因为教授希望兼容并包,这一门课的workload还是有些大的(不过比EECS比还是小一些的),一共有12次作业,可以舍弃3次。每一次作业都会设计一些小题目对应课程的内容。例如一开始是介绍基本编程,之后介绍了一些Python内面向对象的基本规范,还有介绍一些诸如Pyspark之类的大数据相关的内容。根据我身边的反馈,如果是完全的萌新,整个过程还是相当辛苦的,虽然我自己推荐还是去上一下。Fifth Avenue, Manhattan, New York City, New York
STATS 601Stat Machi Learn这一门课一共有6次作业,2次考试,1个期末项目,不过这一门课每一次作业的画风则稍微有所不同,基本上都是编程题,实现课上所说的一些算法。最后的一次期末项目是股票数据预测,形式上其实和BIOSTAT 626的第一个项目很接近。总体来说因为理论和编程都有依赖,有考试有项目(考试其实还很难……),所以这一门课的workload也非常大。EECS 545Machine Learning很多人可能看到这里又有疑问了,为什么又出来了一门机器学习。事实上这一门机器学习虽然在内容框架下和上面介绍的BIOSTAT 626,STATS 601差不多,但是细节上,对深度学习,统计学习,强化学习的内容都有所涵盖。而且EECS的课程更看重体系和编程的训练,比方说这一门课在课上会有非常详细的每一个模块的推导(不过没有STATS 601那么深入,不会介绍太多太偏数学系的内容),在作业上也会有很多证明题和编程题。
这一门课一共有6次作业,一次考试,作业可以舍弃2次(但是其实大家是后半程才知道),每一次作业的编程也是要实现一些项目,但是总体上的对项目的要求没有598那么高,大部分code都会提前写好。因为内容上和STATS 507一样太过全面,所以这一门课的workload在这一学期也显著的高于了上学期的545(对的,这一门课两个学期因为教授的不同,在讲授的内容上其实略有差异),在这一学期的评价总体不是很高。
EECS 586Algorithms
这是一门完全的讲高级计算机算法的理论课,但是其难度要比EECS 403(算法与数据结构,同EECS 281)高很多,而且其实实用性也不是很高。根据反馈,这一门课学到的更多的是拿来炫技的一些方法和技巧,可能在准备相关面试的时候可以给面试官露一手,但如果想刷题找工的话那就大可不必了。一次作业的耗时也很高,可能差不多30-40h吧……
Zion National Park, Utah
04读者答疑因为今年我们系的招生突然井喷,我们收到了非常多相关的读者提问,因此我们在这里也给大家做一些解答。
Q1
今年听说录取了363个人,是否意味着UM生物统计进入了更卷的时候?那么RA是否好找了?关于这个问题我今年收到了很多私信,这个其实涉及到录取率和offer接受率的问题。这里我做一个推断:虽然看起来这个数字很吓人,但是最终来到这个项目的人应该还是在110-130这个量级。这是因为我们去年有两个年级的人堆在了一起,然后总人数就在这个量级,而去年拿到录取通知书的人其实也有接近300人。
但是不管怎么样,最终就读的人数也已经远超过19级及以前(也就是之前没有扩招的时候)的人数了,差不多人数是翻了一倍还多的。我们目前拿到的消息是内部录取博士的名额人数依然不变,所以确实可以认为UM生物统计目前进入到了更卷的时候。所以如果希望拿到RA,也确实需要表现的比之前要更加优秀,名额上因为很多老师都已经有了更高级别的master/Ph.D学生,所以RA总体上不是特别好找,我估计大约10-20人可以在第二学期找到RA,当然到了暑假这个数字会更多。
这也是这个项目劝退很多人的地方,但是还是要强调的是,相比较统计系,生统系内部转博士依然是目前竞争压力最小的选择。当然了这可能会使得很多人放弃读博而选择找工作,那么这个时候可能诸如哥大这种地域特别好的地方是更好的选择。
Q2
Umich研究方向有哪些,是否都是genetics?是否有clinical trial相关的内容?
麻雀不小,五脏还俱全很久之前一个教授和我说过,Umich的生物统计系传统而全面,属于“麻雀不小,五脏还俱全”。做genetics(基因)相关的老师确实很多,但不代表全部是做genetics的,事实上我自己的RA老师的方向就不是genetics,也是一些相对比较偏health有关的内容。具体每一位老师在做什么这个其实不是一两句话可以解释清楚的事情,但是大家可以想到的方向基本上在UM都会有涵盖。系里有很多导师会和统计系有所合作,我也有知道的和EECS那边合作培养的学生。不过UM的生物统计系还是比较传统的,换句话说对于统计学习这一块的东西其实不是特别看重,这一点和CMU的统计系差别非常大。所以如果抱着“非machine learning不做”的心态来到我们系,有可能会吃亏Sedona, Arizona

Q3
我看到你在第一学期选择了一些EECS的课程,所以想请问一下SPH的学生选这些别的系的课程是否方便呀?会常遇到抢不到课位的情况吗?

这个其实也是很多人所关心的问题,包括我自己每一个学期其实都有一门相对还不是很水很统计的EECS的课程。但是千万不要抱着转码的心态选择这个项目,这是因为无论你的课程有多么多元化,只要你希望来我们系并申请博士,你的核心课程的GPA和你的研究经历,与导师的合作程度都永远是最重要的,换句话说如果你在EECS课程上表现优异,但是在BIOSTAT的课程上没有好成绩,又希望申请博士,那就是“捡了芝麻,丢了西瓜”,最后可能就是大本钟下寄快递,上面开摆下面寄。但是如果你对转码/DS(数据科学)很感兴趣,其实我们学校的DS是更好的选择。
需要提醒大家的是,包括我自己其实在选修EECS课程的初期也会有明显的水土不服的现象,所以我们在一开始也强调过,如果自己没有非常强的兴趣,或者对自己的能力不是很自信,那么千万不要随便选修workload很大的外系课程。当然有的人可能来了之后会觉得其实自己还是更希望找工作,那么这个时候GPA就不再重要,这个时候选修外系课程问题不大,但是要注意的是并不是所有的外系课程都会算入本系学分,所以小心学分不够,毕不了业哦。
提醒过之后再回头看这些问题,事实上因为UM的CS排名非常高(最新排名中甚至已经超过了UCB),所以其实对于BIOSTAT,很多EECS的课程的选修优先级都非常低,因为都太火了。具体来说,400+的课程(本科生高阶课)是需要填表的,且不是所有课都接受填表,500+的课程先开放EECS专业的同学选修,才会轮到外系,选满了就需要排waitlist。比方说我们这学期就已经没办法填表选EECS 484(数据库系统)了(但这个不影响DS专业,因为这一门课是DS专业的必修课),对于EECS 485(全栈开发)这种转码必修课,现在别说BIOSTAT了,其实DS系也已经很难选修上了。
为了解决这个问题,往年的学长学姐会考虑dual ds/ece学位(修双学位)这个方法来使得自己可以选上484,485等好课。但是耗时间不说,目前DS也很难选修485的这个事情其实对DS的含金量还是有很大影响的。所以还是那句话,如果并不是心向统计/读博,而更希望转码/DS,那么DS专业会更适合,虽然受制于485,但DS自己也有一套法子,比方说修个ECE的双学位?

Q4
对于转专业学生,又希望读博,什么时候找RA比较好。上课之余做科研有什么经验之谈?
积极进取,谨慎乐观这个问题其实细说的话还是要从选课开始,在刚入学的时候我们系会分配Academic Advisor和你沟通你的想法,个人感觉科班和转专业他们的想法和情况还是有些不一样的,但总体上来说,无论是科班还是转专业,认真学习拿到好成绩都是最重要的第一步,虽然这一点在硕士阶段其实本身就有点少见
至于找RA的时间其实每一个人都会有自己的经验之谈,我们建议在一开始就联系一些导师,但是不要指望老师特别积极的回复,因为大部分老师都已经有了很多学生。大概的时间线上,我们建议是在第二学期期间开始与导师取得联系,如果希望读博,最晚不能晚于暑假。至于我自己的经验,首先要注意,无论是volunteer还是hourly paid,和导师都要努力干活和花时间,因为和导师的合作能力是读博期间最为重要的事情之一。当然了实际情况下,因为volunteer的导师不会出钱,所以他们总体对于学生的要求可能相对应会低一些,对于hourly paid则不同,如果hourly paid的学生没有达到导师的expectation,其实是个非常大的麻烦。因此其实我们并不建议大家在找RA这个事情上过于激进,或者表里不一,其实导师们都看在眼里,记在心里的。好好做人,认真做事很多人可能看到这个会有点害怕,毕竟谁也不知道自己有没有达到导师的期望,导师理解的10h可能在我这儿对应的是20h,甚至40h呢?这个就真的没有一个统一的答案了,但是总体来说,有几点是需要时刻牢记的,第一是大部分导师不会指望你一年级就发JASA,所以表现的靠谱和认真其实比表现得聪明要更重要,你是因为考试耽误了进度,还是因为自己摸鱼耽误了进度,导师很容易就能看出来。第二是积极和导师沟通自己的想法,包括导师对自己的期待如何,最近是否有些地方做的没让导师满意等等。像我的RA导师,他会时刻提醒我学术以外的事情,也确实让我了解和成长了很多。
所以其实我也没有一个确定的答案,究竟如何平衡RA和课业也是一个对我来说很困难的问题,我们只能说这是一个见仁见智的问题,但是可以保证的是,导师对你的期待大部分都是符合你现在的年级的,所以不需要表现的太不自信,好好做人,认真做事就可以了。
School of Public Health, University of Michigan, Ann Arbor, Michigan

大鱼模板-聚集各类精品网站模板(织梦模板,WordPress主题,商城模板),小程序模板(禾匠商城,狮子鱼社区团购,各类小程序工具)。欢迎各位作者提交优质源码,享有高额佣金。
【大鱼模板】 » 密大生物统计第二学期就读体验

常见问题FAQ

提供最优质的资源集合

立即查看 了解详情