GCL学术报告：北大深圳研究生院袁粒老师

4月 2, 2024 1 分钟阅读时长

2024年4月1日星期一上午10:00-11:30，中国科学技术大学GCL学术报告活动在管理科研楼1418教室举行。来自北京大学深圳研究生院的袁粒老师进行了题为"大模型垂直领域应用浅析"的报告。本次报告活动由GCL实验室张举勇老师主持。

袁粒老师本科毕业于中科大精密仪器系，近期研究兴趣为多模态深度学习，在多模态大模型方面做出了多个有影响力的工作，包括ChatLaw与最近发起的Sora开源复现等。

报告的开始袁粒老师首先简单描述了大语言模型的发展与应用。大语言模型何以为大，一是参数量大，二是数据量大，例如最初版本的ChatGPT参数量达到1750亿，使用了远超45TB的纯文本训练数据，与之对应的是性能的强大和衍生的多样应用，包括最近的音频大模型Suno和具身智能大模型，都展现了令人颇为震撼的效果。

接下来袁粒老师重点介绍了由北大-兔展AIGC联合实验室共同发起的文生视频开源计划Open-Sora Plan，该计划希望聚集开源社区力量复现Tiny Sora，实现视觉版LLaMA。Open-Sora主要分为三个部分：1、视觉编码器和解码器；2、Diffusion Transformer去噪模型；3、条件注入模型：深度图、姿态图、草图、文本等控制条件。在模型训练上，Open-Sora使用了更高效的视频时空模型CausalVideoVAE以及多分辨率和多时长输入，前者已证明在图像和视频重建上都有效，而后者正在迭代融合更为先进的NaVIT模块。该计划已完成了第一阶段框架可行性的初步验证，demo视频效果惊艳；第二阶段目标是在更多数据和更大算力的加持下训练出20秒以上720P清晰度的模型。目前该计划在开源社区上参与度和活跃度都很高，仍在快速完善和快速迭代之中，相信通过开源社区逐步增加模块并筹集资源进行训练，计划目标将会逐步实现。

之后袁粒老师介绍了法律领域垂直大模型ChatLaw：是普通用户的通用法律模型，也可充当律师团队的专业法律助手。袁粒老师的见解是LLM不能只用来聊天，真正的应用基于LLM二次开发，同时也需要垂类（行业）大模型。他通过介绍ChatLaw的算法框架总结了垂类大模型的训练范式：第一种是Pretrain注入常识和逻辑，Finetune注入知识，RLHF对齐人类说话逻辑；更优的第二种是在Pretraining基础上Continue Pre Training增量预训练注入领域知识，然后SFT指令微调激发能力，最后RLHF对齐人类偏好。另外针对大模型的幻觉问题，袁老师介绍了一些减轻幻觉的方法，并指出由于垂类大模型使用者能够明辨是非，困难的幻觉问题不会制约垂类LLM，而拥有场景和行业数据的人+大模型可能最先获利。

在报告的最后，袁老师对相关疑问给出了非常详细和深入的解答，与在场师生进行了广泛而深刻的讨论，让参加本次报告会的老师与同学对大模型的方法论与具体实现都有了更为深入的了解，也对大模型应用的发展痛点和未来努力方向也更为清晰。

讲者简介

博士，北京大学信息工程学院助理教授、博士生导师，入选国家高层次青年人才计划、国家优秀留学生奖(归国类)、福布斯亚洲30U30名单等，主持国家科技重大专项课题和国自然青年基金等。研究方向为多模态深度学习和AI4S，其中AI4S方向主要研究深度学习解决化学生物中的重大问题。代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架和知识蒸馏相关工作，一作论文单篇被引用千余次，代表性应用工作包括ChatExcel，ChatLaw等垂直领域语言模型；相关工作已经发表于多个顶级计算机会议和期刊，包括IEEETPAMI/CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR/AAAI等，担任IEEE IROS 2022副编辑(Associate Editor)和多个会议和期刊的(高级)程序委员会委员/审稿人，包括IEEE TPAMI /TNNLS/TMM/Cell子刊等。博士期间曾于哈佛大学从事访问研究工作。

（中国科大图形计算与感知交互安徽省重点实验室）

学术活动