概况

  • 目前在Easiware-Dictanova担任机器学习科学家。
  • 工作和研究内容主要是自然语言处理和机器学习模型的优化。
  • 熟悉多种机器学习框架,参与了多个与实际应用相关项目的搭建并对分布式运算感兴趣。 PDF 简历可以在这里下载.

工作经历

机器学习科学家

2017 至今
  • 用Deeplearning4j从头搭建了一个双语言单词和关键词组的映射网络。
  • 根据语训练好的词组向量实现了一个话题聚类系统。
  • 对Nd4j追加了诸如稀疏矩阵和其他一些线形操作的优化。
  • 用Pytorch设计并实现了一个encoder-decoder框架, 该框架主要是用来学习客户关键词的向量表示。 在OVH旗下的nvidia gpu cloud服务器上以CPU或GPU模式运算。
  • 将以Transformer结构为基础的各种模型应用在我们的神经网络来解决实际应用需求例如对话系统。

结果:

  • 对于单词和词组的双语辞典提取, 在客户的数据集上提高了22%(MAP)。
  • 新的话题模型代替了之前的模型。

环境:

  • Java
  • Python
  • Pytorch
  • Deeplearning4j
  • Keras
  • Scikit Learn
  • OpenStack-Docker

自然语言处理实习

2016
  • 实现了一个关于简繁体中文关键词提取和基于Aspect的情感分析(ABSA)系统。
  • 改进了FNLP的中文预处理(主要是在POS-tagging方面). 同时创新性地增加了一个中文的lemmatizer(针对中文叠词).
  • 数据的提取,可视化和分析。

结果:

  • 在Semeval2016的基于Aspect的情感分析任务中达到了与现有技术的近似的结果。
  • 提高了原有的关键词提取的F-score的50%.

环境:

  • Java
  • UIMA
  • Deeplearning4j
  • Python
  • R
  • ElasticSearch

自然语言处理实习

2015
  • 与其他参与Duel Project项目的科研员共同开发对话角色分类器。
  • 用Brat进行对话预料库标注和构建。

环境:

  • Java-Corenlp
  • Perl
  • Python
  • Numpy
  • Brat

教育

自然语言处理博士

2017-01 - 2020-01
课题: Unsupervised cross-lingual representation modeling for variable length phrases.
  • 无监督双语词组对应。
  • 研究比较RNN, CNN, LSTM和基于Transformer的模型对序列的表示。
  • 双语辞典提取。
  • 对数据缺乏的领域进行数据扩充和选择。

结果:

  • 在专有领域数据缺乏的背景下,提高了词组近义词提取现有技术的结果(MAP:33%)。
  • 在双语词典提取任务中,到达了与现有技术近似的结果。
  • 提出了一个新的序列模型结构。该结构是一个不要额外树形结构的图(graph)神经网络。在无监督双语词组对应任务中,使用它超过了现有技术的结果(MAP:8.8)。并且即使在纯单词模式中也保持了与现有技术近似的结果。

自然语言处理硕士

2014-2016

部分课程:

机器学习; 统计; 算法; 一阶逻辑; 文本挖掘。

应用数学学士

2012-2014

部分课程:

线性代数; 数学分析; Java; C; 概率理论; HTML/CSS/PHP; MySQL

交流项目

2011-2012

法语金融双学士

2008-2012

发表文章

技能 & 工具

后端

  • Java8
  • Python3
  • C
  • Perl
  • PHP

机器学习框架

  • Deeplearning4j
  • Pytorch
  • Keras
  • R
  • Tensorflow
  • Torch

其他

  • HTML
  • CSS
  • MySQL
  • LaTeX
  • HDFS Hadoop
  • Git
  • Unit Test
  • Agile
  • Gradle
  • Lua
  • Neo4j
  • ElasticSearch

其他项目

  • 诗歌机器人
    基于deeplearning4j的中文的诗歌机器人。 [code]
  • Hackthon CafData 2015
    48小时内为法国政府机构CAF 实现了一个预测排队等待时间的系统。
  • Gounki
    实现了一个基于C的Gounki游戏。
  • 自然演化游戏
    实现了一个基于Java的简易界面的羊群与狼的自然演化游戏。
  • 菜谱网站
    制作了一个基于PHP和MySQL的菜谱网站。该网站可通过巴黎第七大学校网登陆并注册。想学习某道菜的同学可以找到会做该菜的同学。

志愿经历

  • Deeplearning4j自定义网络
    为了Deeplearning4贡献了一个自定义神经网络(在alpha版本之前,当时不支持梯度的自动计算),该pull request已被采纳。
  • 机器学习Meetup
    在南特机器学习兴趣小组进行相关的 演讲
  • 联络员
    负责 Extream Sailing Series 2011 青岛站法国罗斯柴尔德与主办方的协调工作。

语言

  • 中文 (母语)
  • 英语 (流利)
  • 法语 (流利)

兴趣

  • 羽毛球, 篮球, 跑步
  • 语言, 历史
  • 桌面 & 电子游戏