【科大讯飞】清华实验室实习生

ai13aimeng · 发表于 2016-12-5 11:12:38

本帖最后由 ai13aimeng 于 2016-12-5 11:14 编辑

实习生招聘需求

岗位要求：
1) 计算机/电子/自动化/数学等相关专业在读硕士；
2) 有自然语言处理相关的学习，科研，及工程背景者优先；
3) 能熟练阅读外文文献者优先；
4) 有深度学习经验者优先，了解常用的网络如CNN, RNN, LSTM 等；对自然语言处理方向如word embedding相关学习模型 (RNNLM, CBOW/Skip-gram, NNLM, LBL等)了解者优先；
5) 有较强的编程实现能力，熟悉c++，java, 或python等脚本语言
6) 有深度平台(如TensorFlow，Theano 等 )相关经验者优先；
7) 实习期6个月（含）以上；

岗位职责：利用深度学习技术进行自然语言处理中相关任务的探索，具体见如下各方向；

方向1：结构或者半结构化知识的嵌入式表示(knowledge embedding)学习
word embedding相关模型使得在无结构化文本中可以较好的学到词的向量化表示，但是在各种实际应用中存在或者已经积累了大量的半结构化(专业指导教材，词典等) 或者结构化(如知识图谱等)的语料，而且这种半结构化/结构化的语料往往蕴涵了丰富的知识。如何有效地将这些知识利用起来，融合于高层任务的深度学习模型中，关键是首先要有效的将这些结构或者半结构化知识进行向量化表示：
1）构建深度学习模型进行结构或者半结构化知识的的向量化表示学习；
2）探索与word embedding等融合模型进行多维度知识表示学习；
3）结合具体的任务对knowledge embedding进行测试分析；

方向2：无结构化语料的多尺度语义压缩及可视化表示
人在快速获取知识的时候习惯于一种top-down的方式，即：1) 希望迅速获取到抽象的全貌而不是大量的文本描述；2) 习惯于读图(表), 即看简洁的结构化知识；3) 根据兴趣进行逐级展开获得想要的相对详细描述；因此需要对无结构化语料进行多尺度语义压缩及可视化表示：
1）构建state-tracking/aim-discovering等模型对语料在high-level级别进行抽象压缩表示；
2）结合自动摘要等技术构建基于深度学习的语义压缩模型，对语料在middle-level或low-level级别进行多尺度的压缩；
3）对获取的相关结构知识进行可视化表示；

方向3：基于深度学习表示和attention机制的停词过滤
直接的TF-IDF等传统方法去停词只是停留在符号层面，无法有效利用语义信息进行深层分析，在实际应用中效果并不太好，也不利于与其他深度学习模型相结合使用，因此有必要利用深度学习模型从语义层面进行停词过滤：
1）构建语义深度学习模型，获取停词在语义空间的相关属性；
2）构建有效的attention机制与语义深度学习模型结合对停词进行过滤；
3）结合具体应用验证方法的有效性；

ai13aimeng · 发表于 2016-12-8 10:09:39

ai13aimeng · 发表于 2016-12-6 10:01:47

		自动登录	找回密码
密码			注册(开放注册)

北京工业大学论坛|工大方式

[招聘信息] 【科大讯飞】清华实验室实习生