
概况
- 目前在Easiware-Dictanova担任机器学习科学家。
- 工作和研究内容主要是自然语言处理和机器学习模型的优化。
- 熟悉多种机器学习框架,参与了多个与实际应用相关项目的搭建并对分布式运算感兴趣。 PDF 简历可以在这里下载.
工作经历
- 用Deeplearning4j从头搭建了一个双语言单词和关键词组的映射网络。
- 根据语训练好的词组向量实现了一个话题聚类系统。
- 对Nd4j追加了诸如稀疏矩阵和其他一些线形操作的优化。
- 用Pytorch设计并实现了一个encoder-decoder框架, 该框架主要是用来学习客户关键词的向量表示。 在OVH旗下的nvidia gpu cloud服务器上以CPU或GPU模式运算。
- 将以Transformer结构为基础的各种模型应用在我们的神经网络来解决实际应用需求例如对话系统。
结果:
- 对于单词和词组的双语辞典提取, 在客户的数据集上提高了22%(MAP)。
- 新的话题模型代替了之前的模型。
环境:
- Java
- Python
- Pytorch
- Deeplearning4j
- Keras
- Scikit Learn
- 实现了一个关于简繁体中文关键词提取和基于Aspect的情感分析(ABSA)系统。
- 改进了FNLP的中文预处理(主要是在POS-tagging方面). 同时创新性地增加了一个中文的lemmatizer(针对中文叠词).
- 数据的提取,可视化和分析。
结果:
- 在Semeval2016的基于Aspect的情感分析任务中达到了与现有技术的近似的结果。
- 提高了原有的关键词提取的F-score的50%.
环境:
- Java
- UIMA
- Deeplearning4j
- Python
- R
- ElasticSearch
教育
课题: Unsupervised cross-lingual representation modeling for variable length phrases.
- 无监督双语词组对应。
- 研究比较RNN, CNN, LSTM和基于Transformer的模型对序列的表示。
- 双语辞典提取。
- 对数据缺乏的领域进行数据扩充和选择。
结果:
- 在专有领域数据缺乏的背景下,提高了词组近义词提取现有技术的结果(MAP:33%)。
- 在双语词典提取任务中,到达了与现有技术近似的结果。
- 提出了一个新的序列模型结构。该结构是一个不要额外树形结构的图(graph)神经网络。在无监督双语词组对应任务中,使用它超过了现有技术的结果(MAP:8.8)。并且即使在纯单词模式中也保持了与现有技术近似的结果。
部分课程:
机器学习; 统计; 算法; 一阶逻辑; 文本挖掘。
部分课程:
线性代数; 数学分析; Java; C; 概率理论; HTML/CSS/PHP; MySQL
发表文章
-
Alignement de termes de longueur variable en corpus comparables spécialisés
TALN2018
-
Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms
Coling2018
-
Continuous phrase representation learning with wrapped context prediction
In preparation
-
A unified and unsupervised framework for bilingual phrase alignment on specialized comparable corpora
ECAI2020
-
From unified phrase representation to bilingual phrase alignment in an unsupervised manner
In preparation
技能 & 工具
后端
-
Java8
-
Python3
-
C
-
Perl
-
PHP
机器学习框架
-
Deeplearning4j
-
Pytorch
-
Keras
-
R
-
Tensorflow
-
Torch
其他
- HTML
- CSS
- MySQL
- LaTeX
- HDFS Hadoop
- Git
- Unit Test
- Agile
- Gradle
- Lua
- Neo4j
- ElasticSearch
其他项目
志愿经历
-
Deeplearning4j自定义网络为了Deeplearning4贡献了一个自定义神经网络(在alpha版本之前,当时不支持梯度的自动计算),该pull request已被采纳。
-
机器学习Meetup在南特机器学习兴趣小组进行相关的 演讲 。
-
联络员负责 Extream Sailing Series 2011 青岛站法国罗斯柴尔德与主办方的协调工作。
语言
- 中文 (母语)
- 英语 (流利)
- 法语 (流利)
兴趣
- 羽毛球, 篮球, 跑步
- 语言, 历史
- 桌面 & 电子游戏