|
本帖最后由 ai13aimeng 于 2016-12-5 11:14 编辑
实习生招聘需求
岗位要求:
1) 计算机/电子/自动化/数学等相关专业在读硕士;
2) 有自然语言处理相关的学习,科研,及工程背景者优先;
3) 能熟练阅读外文文献者优先;
4) 有深度学习经验者优先,了解常用的网络如CNN, RNN, LSTM 等;对自然语言处理方向如word embedding相关学习模型 (RNNLM, CBOW/Skip-gram, NNLM, LBL等)了解者优先;
5) 有较强的编程实现能力,熟悉c++,java, 或python等脚本语言
6) 有深度平台(如TensorFlow,Theano 等 )相关经验者优先;
7) 实习期6个月(含)以上;
岗位职责:利用深度学习技术进行自然语言处理中相关任务的探索,具体见如下各方向;
方向1:结构或者半结构化知识的嵌入式表示(knowledge embedding)学习
word embedding相关模型使得在无结构化文本中可以较好的学到词的向量化表示,但是在各种实际应用中存在或者已经积累了大量的半结构化(专业指导教材,词典等) 或者结构化(如知识图谱等)的语料,而且这种半结构化/结构化的语料往往蕴涵了丰富的知识。如何有效地将这些知识利用起来,融合于高层任务的深度学习模型中,关键是首先要有效的将这些结构或者半结构化知识进行向量化表示:
1)构建深度学习模型进行结构或者半结构化知识的的向量化表示学习;
2)探索与word embedding等融合模型进行多维度知识表示学习;
3)结合具体的任务对knowledge embedding进行测试分析;
方向2:无结构化语料的多尺度语义压缩及可视化表示
人在快速获取知识的时候习惯于一种top-down的方式,即:1) 希望迅速获取到抽象的全貌而不是大量的文本描述;2) 习惯于读图(表), 即看简洁的结构化知识;3) 根据兴趣进行逐级展开获得想要的相对详细描述;因此需要对无结构化语料进行多尺度语义压缩及可视化表示:
1)构建state-tracking/aim-discovering等模型对语料在high-level级别进行抽象压缩表示;
2)结合自动摘要等技术构建基于深度学习的语义压缩模型,对语料在middle-level或low-level级别进行多尺度的压缩;
3)对获取的相关结构知识进行可视化表示;
方向3:基于深度学习表示和attention机制的停词过滤
直接的TF-IDF等传统方法去停词只是停留在符号层面,无法有效利用语义信息进行深层分析,在实际应用中效果并不太好,也不利于与其他深度学习模型相结合使用,因此有必要利用深度学习模型从语义层面进行停词过滤:
1)构建语义深度学习模型,获取停词在语义空间的相关属性;
2)构建有效的attention机制与语义深度学习模型结合对停词进行过滤;
3)结合具体应用验证方法的有效性;
|
|