Résumé

Je m'appelle Jingshu Liu. Avec une capacité pratique sur l'apprentissage automatique et l'apprentissage profond, je travaille actuellement chez Easiware-Dictanova en tant que data scientist en préparant mon doctorat en traitement du langage naturel sous la direction de Emmanuel Morin. Mon travail et ma recherche incluent NLP et l'apprentissage automatique, et surtout se concentrent sur les applications multilingues et la modélisation de séquences avec l'apprentissage par transfert à l'aide des modèles de lange pré-entrainés. En outre, je suis aussi intéressé par l'apprentissage automatique appliqué dans des scénarios pragmatique et l'apprentissage distribué. La version PDF peut être téléchargée.

Experience

Data scientist/Machine learning

2017 - Présent
  • Construire à partir de zéro un cadre de mapping de mots et de phrases basé sur un réseau neuronal bilingue en Java avec Deeplearning4j-0.91.
  • Implémenter les pipelines pour la modélisation des thématiques en utilisant le clustering sur des représentations de phrases unifiées pré-entrainés.
  • Effectuer des optimisations pour les matrices creuses et d'autres opérations mathématiques pour Nd4j-0.91.
  • Dessiner et construire un framework encodeur-décodeur pour la modélisation de séquences avec Pytorch-1.2. Compatible en mode CPU et GPU exécuté sur le serveur cloud OVH à l'aide des outils de gestion openstack et nvidia gpu cloud.
  • Incorporer des modèles de langue basés sur Transformer pré-entrainés dans nos réseaux de neurones pour des scénarios réels.
  • Fine-tuner des modèles de langue pré-entrainés pour des diologues.

Achievements:

  • Améliorer l'induction de lexique bilingue des multi-mots et des mots simples par une moyenne de 22 points en MAP sur les données client.
  • Le nouveau système de modélisation de thématiques a remplacé le système existant.

Environements:

  • Java
  • Python
  • Pytorch
  • Deeplearning4j
  • Keras
  • Scikit Learn
  • OpenStack-Docker

Stagière en Natural Language Processing

2016
  • Implémenter un système d'extraction de termes et d'analyse de sentiments basée sur l'aspect(ABSA) pour le chinois simplifié et traditionnel avec l'architecture UIMA et le stockage ElasticSearch.
  • Améliorer le prétraitement en chinois (étiquetage POS) pour FNLP. En plus, nous avons inventé un lemmatiseur original pour les mots rédupliqués.
  • Nettoyage et visualisation des données avec Pandas et R.

Accomplissement:

  • Résultats état-de-l'art pour l'analyse des sentiments basée sur l'aspect sur le défi Semeval2016.
  • Améliorer la précision pour l'extraction terminologique de 50%.

Environements:

  • Java
  • UIMA
  • Deeplearning4j
  • Python
  • R
  • ElasticSearch

Stagière enNatural Language Processing

2015
  • Collaborer avec des chercheurs pour le projet Duel Project sur la classification des rôles de parole pour les dialogues.
  • Annoter des coprus pour l'analyse de sentiment avec Brat.

Environements:

  • Java-Corenlp
  • Perl
  • Python
  • Numpy
  • Brat

Education

Doctorat en NLP

janvier, 2017 - janvier, 2020
Titre de la thèse: Unsupervised cross-lingual representation modeling for variable length phrases.
  • Alignement non supervisé des multi-mots bilingues.
  • Modélisation de séquences monolingues avec RNN, CNN, LSTM et les architectures modernes basées sur Transformer.
  • Bilingual word embedding.
  • Augmentation/sélection des données pour les scenarios avec peu de ressource.

Results:

  • Améliorer les résultats d'état-de-l'art sur la synonymie des multi-mots de près de 33% sur les corpus de domaine spécialisé à faibles ressources.
  • Obtenir les results d'état-de-l'art sur bilingual word mapping.
  • Proposer un nouveau réseau neuronal basé sur un graphe sans arbre pour encoder de courtes séquences et des mots simples. Il a surpassé les résultats d'état-de-l'art sur l'alignement non supervisé des multi-mots bilingues par une moyenne de 8,8 points en MAP tout en conservant des résultats comparables pour les mots simples.

Master en NLP

2014-2016

Cours:

Machine learning; Statistics; Algorithm; 1st order logic; Text mining.

Licence en mathematiques appliquées

2012-2014

Cours:

Linear algebra; Mathmatical analysis; Java programming; C programming; Probability theory; HTML/CSS/PHP; MySQL

Programme d'échange

2011-2012

Double licence en français et finance

2008-2012

Cours:

French; Statistics; Visual basic programming; Accounting.

Publications

Compétence & Outils

Backend

  • Java8
  • Python3
  • C
  • Perl
  • PHP

Machine Learning Framework

  • Deeplearning4j
  • Pytorch
  • Keras
  • R
  • Tensorflow
  • Torch

Autres

  • HTML
  • CSS
  • MySQL
  • LaTeX
  • HDFS Hadoop
  • Git
  • Unit Test
  • Agile
  • Gradle
  • Lua
  • Neo4j
  • ElasticSearch

Autres projets

  • Poem bot
    Construire en Java un peom bot qui peut générer la deuxième partie suivante d'un couplet étant donné la première. [code]
  • Hackthon CafData 2015
    Construire en 48h un système de prédiction du temps d'attente en Python basé sur les données fournies par la Caf dans un concours de hackthon.
  • Jeu Gounki
    Implementer un jeu Gounki en C.
  • Jeu d'évolution
    Implementer un jeu d'évolution en Java avec un UI minimal.
  • Site web pour les recettes
    Créer un site de recettes avec Mysql et PHP hébergé sur le réseau campus de l'Université Paris Dederot. Un étudiant peut s'inscrire pour trouver d'autres personnes qui peuvent lui enseigner les recettes qu'il veut apprendre.

Experience volontaire

Langue

  • Chinois (maternel)
  • Anglais (Professionnel)
  • Français (Professionnel)

Intérêts

  • Badminton, Basketball, Running
  • Langue, Histoire
  • Board & Video game