-
Notifications
You must be signed in to change notification settings - Fork 0
/
index_zh.html
362 lines (308 loc) · 19 KB
/
index_zh.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
<html>
<head>
<meta http-equiv="Content-Type" content="text/html">
<meta name="description" content="***">
<meta name="keywords" content="俞凯,上海交通大学">
<meta charset="UTF-8">
<font face="Times New Roman,SimSun"> </font>
<title> 俞凯,上海交通大学</title>
<style>
.tag {
position: relative;
left: 0;
color: white; /* 标签文字颜色 */
padding: 2px 5px; /* 标签内边距 */
border-radius: 3px; /* 圆角边框 */
font-size: 12px; /* 文字大小 */
}
.blue-tag {
background-color: #3498db;
}
.red-tag {
background-color: #e74c3c;
}
.green-tag {
background-color: #2ecc71;
}
.yellow-tag {
background-color: #f1c40f;
}
</style>
</head>
<body>
<table>
<tr>
<th></th>
<th></th>
<th></th>
<tr>
<td><img src="kaiyu.jpeg" width=200 alt="a photo"></td>
<td> </td>
<td><h1> 俞凯 </h1>
</p>
<strong>特聘教授</strong></br>
<a style="text-decoration:none" href="https://x-lance.sjtu.edu.cn/" target="_blank">跨媒体语言智能实验室(X-LANCE)</a></br>
<a style="text-decoration:none" href="https://www.cs.sjtu.edu.cn/index.aspx" target="_blank">计算机科学与工程系</a></br>
<a style="text-decoration:none" href="https://www.sjtu.edu.cn/" target="_blank">上海交通大学</a></br>
</br>
邮箱: kai.yu [AT] sjtu [DOT] edu [DOT] cn</br>
地址: 上海市闵行区东川路800号上海交通大学计算机科学与工程系 200240</br>
</br>
<a style="text-decoration:none" href="./index.html" target="_blank">[English]</a>|[中文]
</td>
</table>
<hr>
<h3>个人介绍</h3>
<!-- 俞凯,现任上海交通大学计算机科学与工程系特聘教授、博导,思必驰公司联合创始人、首席科学家。国家“万人计划”科技创新领军人才,曾获国家自然科学基金委青年优青、上海市“东方学者”特聘教授。清华大学自动化系本科、硕士,英国剑桥大学工程系博士。长期从事人工智能领域的智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作。在语音识别及合成、自然语言理解 、口语对话系统、认知型人机交互等方面取得了一系列国际先进的研究、工程和产业化成果。在国际一流会议和期刊发表论文200余篇,获得Computer Speech and Language,Speech Communication 等顶级期刊最优论文奖和Interspeech等多个顶级国际会议优秀论文奖,在语音识别、对话系统等一系列国际评测中获得冠军。他是国际电子电气工程师协会(IEEE)高级会员,中国大陆高校首个IEEE Speech and Language Processing Technical Committee 委员(2017-2019),IEEE Transactions on Audio Speech and Language Processing 副主编,曾任Interspeech等国际会议程序委员会主席,ACL、EMNLP等国际会议研究领域主席。-->
<p>
现任上海交通大学计算机科学与工程系特聘教授、博导,计算机系智能人机交互研究所所长,上海交通大学人工智能研究院语音及语言处理中心主任,思必驰公司联合创始人及首席科学家。国家高层次人才项目获得者,科技部中青年科技创新领军人才,国家自然科学基金委优青,上海市“东方学者”特聘教授。清华大学自动化系本科(1999)、硕士(2002),英国剑桥大学工程系博士(2006)。2012年回国在上海交通大学创立智能语音实验室(SpeechLab),后扩展并更名为跨媒体语言智能实验室(X-LANCE)。
</p>
<p>
研究兴趣主要集中在人工智能领域,尤其是以对话为核心的智能语音及自然语言处理,涵盖了语音信号处理、语音识别及合成、音频分析、语言理解、对话管理、语言基础模型、多模态语音及语言处理等方面。研究目标是构建认知型对话智能体,它可以在复杂的现实环境中运行,处理不确定性,以人性化的方式传递信息并通过与环境交互而不断进化。已在国际一流的会议和期刊上发表了200余篇论文,并获得了包括Computer Speech and Language、Speech Communication等顶级期刊的最优论文奖,Interspeech等多个顶级国际会议的优秀论文奖,以及一系列国际研究评测的冠军。现任IEEE高级会员,作为中国大陆高校首位入选者,曾任 IEEE Speech and Language Processing Technical Committee 委员(2017-2019)。曾任Interspeech、ICMI、SigDial等国际会议的程序委员会主席,全国人机语音通讯会议大会主席,以及ACL、EMNLP等国际会议的研究领域主席。现任中国计算机学会(CCF)杰出会员,CCF语音对话及听觉专委会主任,中文信息学会(CIPSC)第九届理事会理事,语音信息处理专委会副主任。
</p>
<p>
相关研究成果不仅在学术界得到了认可,也成功实现了大规模产业化。作为联合创始人创立“思必驰信息科技有限公司”,任首席科学家,进行智能口语对话交互技术的产业化。思必驰公司因在人工智能技术和产业化方面的领先性,2016年作为中国仅有的两家人工智能创业公司之一,入选高盛发布的全球人工智能报告中的“Key AI Players”;2017年作为中国仅有的三家人工智能公司之一,入选国际权威IT咨询机构Gartner发布的“Cool Vendors for AI (East Asia)”列表。2022年,思必驰被科技部授予“语言计算国家新一代人工智能开放创新平台”,成为国家级的人工智能战略力量。
</p>
<hr>
<h3> 上海交通大学跨媒体语言智能实验室 </h3>
<font color="DarkRed"><i>我们正在招募对智能语音和自然语言处理有浓厚兴趣,并且具备自我驱动力,致力于解决真实世界难题的博士/硕士/本科生和博士后,欢迎发送简历联系。 </i></font><br/>
<h4>研究兴趣</h4>
<ul>
<li> <i> 语音及音频信息处理:</i> 神经语音信号处理,鲁棒语音及声纹识别,高逼真度语音合成,丰富音频分析及听觉认知,多模态语音处理及通用语音大模型 </li>
<li> <i> 自然语言处理:</i> 意图及结构化语言理解,知识问答及阅读理解,统计对话系统,多语种语言处理,语言基础大模型,大模型智能体系统 </li>
<li> <i> 多模态交互:</i> 可控数字人,图形界面理解及交互,科学通用智能体 </li>
</ul>
<!--<h4>Students</h4>
<ul>
<li>Lu Chen (Ph.D., -)</li>
<li>Ruisheng Cao (Ph.D., 2021.3-)</li>
<li>Danyang Zhang (Ph.D., 2020.9-)</li>
<li>Zihan Zhao (Ph.D., 2020.9-)</li>
<li>Hongshen Xu (Ph.D., 2019.9-)</li>
</p>
</ul>
-->
<hr>
<h3> 论文摘选 <a class="grey" href="https://scholar.google.com/citations?user=APssqUMAAAAJ&hl=zh-CN">[Google Scholar]</a><a class="grey" href="./publication_2023.pdf">[More Papers]</a></p></h3>
<!-- </td></tr></table> -->
<h4>语音及音频信息处理</h4>
<ul>
<li>
<p><span class="tag blue-tag">ASR</span> <b>TDT-KWS: Fast and Accurate Keyword Spotting Using Token-and-duration Transducer</b><br/>
Yu Xi, Hao Li, Baochen Yang, Haoyu Li, Hainan Xu and <b>Kai Yu</b><br/>
ICASSP 2024
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<p><span class="tag blue-tag">Signal</span> <b>Speech Enhancement With Integration of Neural Homomorphic Synthesis and Spectral Masking</b><br/>
Wenbin Jiang and <b>Kai Yu</b><br/>
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 1758-1770, 2023
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag blue-tag">TTS</span> <b>Text-To-Speech With Latent Diffusion</b><br/>
Zhijun Liu, Yiwei Guo and <b>Kai Yu</b><br/>
ICASSP 2023
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag blue-tag">TTS</span> <b>VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature</b><br/>
Chenpeng Du, Yiwei Guo, Xie Chen and <b> Kai Yu </b> <br/>
Interspeech 2022
</li>
<li>
<p><span class="tag blue-tag">RAA</span> <b>Towards Duration Robust Weakly Supervised Sound Event Detection</b><br/>
Heinrich Dinkel, Mengyue Wu and <b> Kai Yu </b> <br/>
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 887-900, 2021
</li>
</ul>
<h4>自然语言处理</h4>
<ul>
<li>
<p><span class="tag red-tag">LLM</span> <b>SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research</b><br/>
Liangtai Sun, Yang Han, Zihan Zhao, Da Ma, Zhennan Shen, Baocai Chen, Lu Chen and <b>Kai Yu</b><br/>
AAAI 2024
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag red-tag">LLM</span> <b>Large Language Models Are Semi-Parametric Reinforcement Learning Agents.</b><br/>
Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao and <b>Kai Yu</b><br/>
NeurIPS 2023
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag red-tag">NLP</span> <b>A Heterogeneous Graph to Abstract Syntax Tree Framework for Text-to-SQL</b><br/>
Ruisheng Cao, Lu Chen, Jieyu Li, Hanchong Zhang, Hongshen Xu, Wangyou Zhang, <b>Kai Yu</b> <br/>
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 45, no. 11, pp. 13796-13813, 2023
</li>
<p><span class="tag red-tag">NLP</span> <b>OPAL: Ontology-Aware Pretrained Language Model for End-to-End Task-Oriented Dialogue</b><br/>
Zhi Chen, Yuncong Liu, Lu Chen, Su Zhu, Mengyue Wu and <b>Kai Yu</b> <br/>
Transactions of the Association for Computational Linguistics (TACL), vol.11, pp. 68-84, 2022
</li>
<li>
<p><span class="tag red-tag">NLP</span> <b>LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations</b><br/>
Ruisheng Cao, Lu Chen, Zhi Chen, Yanbin Zhao, Su Zhu and <b>Kai Yu</b> <br/>
ACL 2021
</li>
</ul>
<h4>多模态交互</h4>
<ul>
<li>
<p><span class="tag green-tag">Avatar</span> <b>DIFFDUB: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder</b><br/>
Tao Liu, Chenpeng Du, Shuai Fan, Feilong Chen and <b>Kai Yu</b><br/>
ICASSP 2024
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag green-tag">Avatar</span> <b>DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder</b><br/>
Chenpeng Du, Qi Chen, Tianyu He, Xu Tan, Xie Chen, <b>Kai Yu</b>, Sheng Zhao and Jiang Bian<br/>
ACM-MM 2023
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag green-tag">GUI</span> <b>Towards Multi-modal Conversational Agents on Mobile GUI</b><br/>
Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and <b>Kai Yu</b><br/>
EMNLP 2022
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
<li>
<p><span class="tag green-tag">GUI</span> <b>TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages</b><br/>
Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen and <b>Kai Yu</b><br/>
NAACL 2022
<!-- <a class="grey" href="https://arxiv.org/abs/2308.13149">[Paper]</a><a class="grey" href="https://bai-scieval.duiopen.com/#/">[Website]</a></p> -->
</li>
</ul>
<hr>
<h3> 专业资质与服务任职 </h3>
<h4> 国际电子电气工程师协会 (IEEE)</h4>
<ul>
<li> IEEE 高级会员 </li>
<li> IEEE 信号处理分会会议事务理事会成员 </li>
<li> IEEE 信号处理分会会员事务理事会成员 </li>
<li> IEEE 语音及语言处理技术委员会委员 (2017-2019) </li>
<li> IEEE/ACM Transactions on Audio Speech and Language Processing 副主编 </li>
</ul>
<h4> 中国计算机学会 (CCF)</h4>
<ul>
<li> CCF 杰出会员 </li>
<li> CCF 语音对话及听觉专委会主任 </li>
<li> CCF 企智会(苏州)副主席 </li>
<li> CCF 大模型论坛常务委员 </li>
</ul>
<h4> 中文信息学会 (CIPSC)</h4>
<ul>
<li> CIPSC 第九届理事会理事 </li>
<li> CIPSC 语音信息处理专委会副主任 </li>
</ul>
<h4> 产业界服务任职 </h4>
<ul>
<li> 科技部语言计算国家人工智能开放创新平台主任 </li>
<li> 工信部人工智能关键技术和应用评测重点实验室学术委员会委员 </li>
<li> 全国信标委用户界面分委会(TC28/SC35)委员 </li>
<li> 中国人工智能产业联盟(AIIA)学术及知识产权组组长 </li>
<li> 中国语音产业联盟技术工作组副组长 </li>
</ul>
<h4> 其它服务任职 </h4>
<ul>
<li> 上海市欧美同学会副会长 </li>
<li> 上海市欧美同学会人工智能分会会长 </li>
<li> 世界顶尖科学家论坛青年科学家委员会委员 </li>
</ul>
<h4> 学术会议服务 </h4>
<ul>
<li> <b>ICASSP</b> </li>
<ul><li> IEEE 语音语言处理技术委员会委员 </li></ul>
<li> <b>Interspeech</b> </li>
<ul><li> 程序委员会主席,研究领域主席(语音识别/对话系统) </li></ul>
<li> <b>EUSIPCO</b></li>
<ul><li> 研究领域主席(语音处理) </li></ul>
<li> <b>ACL</b> </li>
<ul><li> 滚动审稿机制下的领域主席/主审稿人/执行编辑(对话系统) </li></ul>
<li> <b>NAACL</b></li>
<ul><li> 滚动审稿机制下的领域主席/主审稿人/执行编辑(对话系统) </li></ul>
<li> <b>EMNLP</b> </li>
<ul><li> 滚动审稿机制下的领域主席/主审稿人/执行编辑(对话系统) </li></ul>
<li> <b>SigDial</b> </li>
<ul><li> 程序委员会主席 </li></ul>
<li> <b>ICMI</b> </li>
<ul><li> 程序委员会主席 </li></ul>
<li> <b>全国人机语音通讯会议(NCMMSC)</b> </li>
<ul><li> 大会主席,程序委员会主席 </li></ul>
</ul>
<h4> 审稿人 </h4>
<ul>
<li> <b> 期刊 </b> </li>
<ul>
<li> IEEE/ACM Transactions on Audio, Speech, and Language Processing </li>
<li> IEEE Transactions on Pattern Analysis and Machine Intelligence </li>
<li> IEEE Signal Processing Letters </li>
<li> IEEE Signal Processing Magazine </li>
<li> Speech Communication </li>
<li> Computer Speech and Language </li>
<li> 计算机学报 </li>
<li> 自动化学报 </li>
</ul>
<li> <b> 会议 </b> </li>
<ul>
<li> ICASSP, Interspeech, IEEE ASRU, IEEE SLT, APSIPA, ISCSLP, NCMMSC </li>
<li> ACL/NAACL/EACL, EMNLP, SigDial </li>
<li> AAAI, Neurips </li>
</ul>
<li> <b> 项目及奖项 </b> </li>
<ul>
<li> 国家自然科学基金委、科技部、工信部、教育部、中科院 </li>
<li> 香港研究资助局(RGC) </li>
<li> 以色列科学基金会(ISF) </li>
<li> 英国工程及物理科学研究理事会(EPSRC) </li>
<li> 新加坡科学及技术研发局下属科学及工程研究理事会(Science and Engineering Research Council, Agency for Science and Technology Research) </li>
</ul>
</ul>
<hr>
<h3> 获奖及荣誉 </h3>
<h4> 最优论文奖 </h4>
<ul>
<li> EURASIP Speech Communication 最优期刊论文奖 </li>
<li> International Symposium on Chinese Spoken Language Processing 最优会议论文奖 </li>
<li> ISCA Computer Speech and Language 最优期刊论文奖 </li>
<li> Interspeech 最优会议论文奖 </li>
<li> IEEE SLT 最优会议论文奖 </li>
<li> NCMMSC Best 最优会议论文奖 </li>
</ul>
<h4> 国家及省部级奖励 </h4>
<ul>
<li><i> 国家高层次人才计划 </i>
<li><i> 中青年科技创新领军人才 </i> (科技部) </li>
<li><i> 优秀青年科学基金 </i> (自然科学基金委) </li>
<li><i> 中国专利奖优秀奖 </i> (国家知识产权局) </li>
<li><i> “东方学者”特聘教授 </i> (上海市教委) </li>
</ul>
<h4> 专业协会奖励 </h4>
<ul>
<li><i> 青竹奖 </i> (中国计算机学会) </li>
<li><i> 前沿学科讲座(ADL)杰出讲者 </i> (中国计算机学会) </li>
<li><i> 吴文俊人工智能科技奖进步奖二等奖 </i> (中国人工智能学会)</li>
<li><i> 吴文俊人工智能科技奖自然奖一等奖 </i> (中国人工智能学会) </li>
</ul>
<h4> 其它奖励 </h4>
<ul>
<li><i> 科学中国人年度人物(2016) </i> (《科学中国人》杂志社) </li>
</ul>
<hr>
</br>
<!--<hr>
<h3>Teaching</h3>
<ul>
<li><a href=""><i>Natural Language Processing</i></a> for CS&AI undergraduates at SJTU, 2021/2022/2023 Fall</li>
<li><a href=""><i>Knowledge Representation and Reasoning</i></a> for AI undergraduates at SJTU, 2022/2023/2024 Spring</li>
</p>
</ul>
<hr>
-->
<div class="content footer">
Last updated on <font color="DarkRed">2024-04-3</font>.
<!-- Visitor number: <a href="https://www.hitwebcounter.com" target="_blank">
<img src="https://hitwebcounter.com/counter/counter.php?page=7804457&style=0027&nbdigits=8&type=page&initCount=0" title="Free Counter" Alt="web counter" border="0"/></a>
-->
</div>
</body>
</font>
</html>