高扬,博士生导师,主要从事大模型训练、文本自动生成技术,及其技术应用转化。发表国际期刊会议高水平论文60余篇,包括ACL, AAAI, WWW, IJCAI, EMNLP, TKDE等。担任EMNLP, COLING等文本生成领域主席,Web Intelligence、Natural Language Processing Journal期刊编委,国际会议 AAAI, ACL, EMNLP, NAACL, ICDM 等程序委员会委员,及TNNLS, Computing Surveys等期刊审稿人。主持从头训练的明德基座大模型(MindLLM)及国产生态大模型建设,开源 “端侧”对话大模型,并上线检索增强大模型的智能政务服务。作为参与人获得中国电子学会科技进步奖一等奖,国防科技进步二等奖。爱丁堡大学访问学者,中文信息学会自然语言生成与智能写作委员会副秘书长,中国中文信息学会青工委委员,CCF 大模型论坛执委。
大模型训练与原理、自我进化、文本生成,及其技术应用转化
研究基于文本(同时也包含图像、视频、大规模知识等模态)语义的表示、抽取、生成的计算模型。研究并利用包括大模型训练、自我进化理论、数据驱动的文本生成技术,促进文本摘要、跨语言/跨模态、风格迁移、智能问答等系统应用。
大模型及文本生成:
1. Yinghao Li, Siyu Miao, Yang Gao*, Heyan Huang ,Word Matters: What Influences Domain Adaptation in Summarization? ACL 2024 (CCF A)
2. Jiawei Li, Yizhe Yang, Yu Bai, Xiaofeng Zhou, Yinghao Li, Huashan Sun, Yuhang Liu, Xingpeng Si, Yuhao Ye, Yixiao Wu, Yiguan Lin, Bin Xu, Ren bowen, Chong Feng, Heyan Huang, Yang Gao*, Fundamental Capabilities of Large Language Models and their Applications in Domain Scenarios: A Survey, ACL 2024 (CCF A)
3. Yizhe Yang, Huashan Sun, Jiawei Li, Runheng Liu, Yinghao Li, Yuhang Liu, Heyan Huang, Yang Gao *, MindLLM: Pre-training Lightweight Large Language Model from Scratch, Evaluations and Domain Applications. arXiv:2310.15777, 2023. (开源:https://huggingface.co/bit-dny/MindLLM-1b3-chat-zh-v2.0 )
4. Jiancheng Du, Yang Gao*, Domain adaptation and Summary Distillation for Unsupervised Query Focused Summarization, IEEE Transactions on Knowledge and Data Engineering, volume: 36, issue: 3, 2023. (CCF A)
5. Jiaao Zhan, Yang Gao*, Yu Bai, Qianhui Liu,Stage-wise Stylistic Headline Generation: Style Generation and Summarized Content Insertion. IJCAI 2022: 4489-4495. (CCF A)
6. Yu Bai, Heyan Huang, Kai Fan, Yang Gao, Yiming Zhu, Jiaao Zhan, Zewen Chi, Boxing Chen. Unifying Cross-lingual Summarization and Machine Translation with Compression Rate. SIGIR 2022: 1087-1097 (CCF A)
7. Yang Gao, Qianhui Liu, Yizhe Yang, Ke Wang , Latent representation discretization for unsupervised text style generation. Inf. Process. Manag. 61(2): 103643 (2024) (SCI 一区)
8. Xiaochen Liu, Yang Gao*, Yu Bai, Jiawei Li, Yinan Hu,Boxing Chen. PSP: Pre-trained Soft Prompts for Few-Shot Abstractive Summarization. COLING2022. (CCF B)
9. Haonan Wang, Yang Gao*, Yu Bai, Mirella Lapata, Heyan Huang, Exploring Explainable Selection to Control Abstractive Summarization, 35 th AAAI Conference on Artificial Intelligence (AAAI’2021), Feb. 2-Feb 9, 2021 (CCF A)
10. Yu Bai, Yang Gao, Heyan Huang, Cross-lingual Abstractive Summarization with Limited Parallel Resources, Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL 2021. (CCF A)
11. Wenbo Wang, Yang Gao*, Heyan Huang, Yuxiang Zhou, Concept Pointer Network for Abstractive Summarization, EMNLP 2019, Hong Kong, China, 2019. (CCF B)
推理与理解
12. Yizhe Yang, H Huang, Yang Gao*, Jiawei Li, Building knowledge-grounded dialogue systems with graph-based semantic modeling,Knowledge-Based Systems, 2024. (SCI 一区)
13. Mucheng Ren , Heyan Huang , Yuxiang Zhou , Qianwen Cao , Yuan Bu, and Yang Gao, TCM-SD: A Benchmark for Probing Syndrome Differentiation via Natural Language Processing, In Proceedings of CCL 2022, Best Paper Award.
14. Luyang Liu, Heyan Huang, Yang Gao, Yongfeng Zhang: Improving neural topic modeling via Sinkhorn divergence. Inf. Process. Manag. 59(3): 102864 (2022) (SCI一区)
15. Mucheng Ren, Heyan Huang, Yang Gao: Interpretable modular knowledge reasoning for machine reading comprehension. Neural Computation. Applications 34(12): 9901-9918 (2022)
16. Mucheng Ren, Heyan Huang, Yang Gao,Prediction or Comparison: Toward Interpretable Qualitative Reasoning. ACL/IJCNLP 2021: 664-675 (CCF A)
17. Mucheng Ren, Heyan Huang, Yang Gao: SKR-QA: Semantic ranking and knowledge revise for multi-choice question answering. Neurocomputing 459: 142-151 (2021)
18. Yuxiang Zhou, Lejian Liao, Yang Gao, Zhanming Jie, Wei Lu: To be Closer: Learning to Link up Aspects with Opinions. EMNLP (1) 2021: 3899-3909
19. Yuxiang Zhou, Lejian Liao, Yang Gao*, et al. TopicBERT: A Topic-Enhanced Neural Language Model Fine-Tuned for Sentiment Classification. IEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023,34(1): 380-393. (SCI 一区)
20. Yang Gao, Yue Xu, Heyan Huang, Qian Liu, Linjing Wei, Luyang Liu, Jointly Learning Topics in Sentence Embedding for Document Summarization, IEEE Transactions on Knowledge and Data Engineering (TKDE), Vol: 32, Issue: 4, 2020: 688 - 699.(CCF A)
21. Luyang Liu, Heyan Huang, Yang Gao, Yongfeng Zhang, Xiaochi Wei, Neural Variational Correlated Topic Modeling, WWW 2019,San Francisco, CA, USA. (CCF A)
22. Yuxiang Zhou, Lejian Liao, Yang Gao*, Heyan Huang, Extracting salient features from convolutional discriminative filters, Information Sciences, volume 558, May 2021: 265-279. (SCI一区)
23. Qian Liu, Heyan Huang, Guangquan Zhang, Yang Gao, Junyu Xuan, Jie Lu. Semantic Structure-based Word Embedding by Incorporating Concept Convergence and Word Divergence, AAAI 2018. (CCF A)
24. Yang Gao, Yuefeng Li, Raymond Y.K., Lau, Yue Xu, Md Abul Bashar, Finding Semantically Valid and Relevant Topics by Association-based Topic Selection Model, ACM Transactions on Intelligent Systems and Technology (TIST), 2017 (SCI)
25. Qian Liu, Heyan Huang, Yang Gao, Xiaochi Wei, Yuxin Tian, Luyang Liu. Task-oriented Word Embedding for Text Classification, COLING 2018. (CCF B)
26. Yang Gao, Yue Xu, Yuefeng Li, Pattern-based topics for document modelling in information filtering, IEEE Transactions on Knowledge and Data Engineering (TKDE), 2015, 24(6): 1629-1642.(CCF A , SCI)
主持项目:
1. 国家自然科学基金重大研究计划培育,数据与知识双驱动的可信决策生成研究与应用,2024年01月至 2026年 12月,项目负责人
2. 国家自然科学基金青年项目, 融合语义相似性和关联性的深层主题模型研究, 2017年1月-2019年12月,项目负责人
3. CCF-AIR青年基金,基于大规模预训练模型的少样本学习研究,2022年10月-2023年10月,项目负责人
4. 腾讯创意基金,基于医疗知识的可规划文本摘要生成,2020年10月1日-2021年12月31日,项目负责人
5. 北京理工大学青年发展基金,面向多模态数据的文本描述生成系统,2021年1月-2023年12月,项目负责人
主要参与项目:
1. 国家重点研发计划, 大数据知识工程基础理论及其应用研究, 2016 年 7 月 至 2020 年 12 月, 项目骨干。
2. 国家自然科学基金应急管理项目,中文语义深度计算与阅读理解,2018年1月至2018年12月,项目骨干。
3. 教育部-中国移动科研基金,基于语义的电信领域客户投诉内容的实体挖掘与主题关键词抽取研究,2018.4-2020.4,项目骨干。
4. 北京市重点项目,面向城市态势的多源跨媒体深度语义分析与推理关键技术,2020.1-2023.12,项目骨干。
5. 北京市基金重点项目, 融合听觉信息的语言理解技术研究及应用验证,2018.1-2019.12,项目骨干。
6. 国家重点研发计划课题,基于***的人物画像分析,2017.3-2020.4,项目骨干
1. 2018年 “基于海量知识的智能理解与推理关键技术及智能政务应用”获中国电子学会科技进步奖一等奖(11)
2. 2022年“异构大数据智能处理关键技术及应用”获国防科技进步二等奖(7)
3. 2021年, 北京理工大学优秀硕士学位论文(王浩男同学),指导教师
课题组招收博士、硕士,并欢迎高年级本科生实习