课程介绍
时间/地点
- CS 2916
- 每周四18:00 - 20:25 (每周三课时)
- 计算机科学与技术(致远荣誉计划)ACM班
- 上海交通大学 闵行 东中院2-403
Instructors/TAs
Instructor
TAs
- 陈奕群 (ethanicchern@gmail.com)
- 周凡 (koala99.zf@gmail.com)
- 刘一秀 (1770418133@qq.com)
- 夏世杰 (xiasj20@fudan.edu.cn)
- 李学峰 (xuefengli0301@gmail.com)
Guest Lecturers (授课顺序)
- 邱锡鹏 (复旦大学教授,上海高校青年教师教学竞赛优等奖,著作《神经网络与深度学习》,MOSS大模型领导者)
- 闫宏秀(上海交通大学教授,主要研究方向:技术哲学、数据伦理、大模型安全对齐)
- 魏忠钰 (复旦大学数据智能与社会计算实验室负责人,上海市青年教师教学比赛优秀奖,主要研究方向:多模态智能交互)
- 颜航 (上海人工智能实验室青年研究员,主要研究方向:大语言模型)
- 刘知远 (清华大学计算机系副教授, 清华大学教学成果一等奖,大模型技术相关领域取得多项创新成果)
开设背景
大语言模型(Large Language Models)技术搭配提示学习重新定了人工智能学习的建模范式和人工交互方式。 以ChatGPT为代表的产品的出现引起了各界广泛的关注和兴趣,使得国内外机构都在尝试进行相关技术积累工作。以大语言模型为核心的生成式人工智能技术的出现,在不同领域、不同方面带来结构性的变革。 以自然语言方向研究为例,传统任务建模范式发生了巨大的改变,这种任务建模范式的转变带来了科研范式的转变,逐渐形成以大语言模型为核心的研究模式,然而以大语言模型为核心的技术涉及知识点多,迭代快,造成了高校课程教育和产业技术需求的不匹配, 在国际上,为了应对这个问题,斯坦福和卡内基梅隆大学优先开设了相应的课程:
- 斯坦福计算机系在2023年增设了cs324 (large language models,大语言模型)
- 卡耐基梅隆大学也在2023年新增了课程11-667 (Large Language Models Methods and Applications,大语言模型的方法和应用)
国内目前还没有非常系统的课程,这里旨在开设一个 “大语言模型”的课程,通过学习这门课程,学生将能够及时了解并深入研究这一领域的最新进展。有助于在未来的职业生涯中保持竞争力。大预训练语言模型技术已经引发了技术革命,对自然语言处理、机器翻译、自动文本生成等领域产生了深远影响。本课程将帮助学生理解这一革命的本质、历史和未来发展,为他们在相关领域的工作做好准备。
课程形式与打分
- 该课程每个章节都会推荐一些阅读材料,授课内容也会围绕其展开,建议提前阅读;
- 课后问题讨论可以通过Canvas论坛或者通过课程讨论微信群与授课老师和TA交流
- 课程中会穿插一些代码实践指导,也会邀请与该章节相关的国际知名的学者来进行授课
- 课程一共有四个小作业,最终课程成绩将会根据权重确定得分:课程作业1,2 各占10%,作业3 各占20%,课程作业4 占60%