
Résumé
Je m'appelle Jingshu Liu. Avec une capacité pratique sur l'apprentissage automatique et l'apprentissage profond, je travaille actuellement chez Easiware-Dictanova en tant que data scientist en préparant mon doctorat en traitement du langage naturel sous la direction de Emmanuel Morin. Mon travail et ma recherche incluent NLP et l'apprentissage automatique, et surtout se concentrent sur les applications multilingues et la modélisation de séquences avec l'apprentissage par transfert à l'aide des modèles de lange pré-entrainés. En outre, je suis aussi intéressé par l'apprentissage automatique appliqué dans des scénarios pragmatique et l'apprentissage distribué. La version PDF peut être téléchargée.
Experience
- Construire à partir de zéro un cadre de mapping de mots et de phrases basé sur un réseau neuronal bilingue en Java avec Deeplearning4j-0.91.
- Implémenter les pipelines pour la modélisation des thématiques en utilisant le clustering sur des représentations de phrases unifiées pré-entrainés.
- Effectuer des optimisations pour les matrices creuses et d'autres opérations mathématiques pour Nd4j-0.91.
- Dessiner et construire un framework encodeur-décodeur pour la modélisation de séquences avec Pytorch-1.2. Compatible en mode CPU et GPU exécuté sur le serveur cloud OVH à l'aide des outils de gestion openstack et nvidia gpu cloud.
- Incorporer des modèles de langue basés sur Transformer pré-entrainés dans nos réseaux de neurones pour des scénarios réels.
- Fine-tuner des modèles de langue pré-entrainés pour des diologues.
Achievements:
- Améliorer l'induction de lexique bilingue des multi-mots et des mots simples par une moyenne de 22 points en MAP sur les données client.
- Le nouveau système de modélisation de thématiques a remplacé le système existant.
Environements:
- Java
- Python
- Pytorch
- Deeplearning4j
- Keras
- Scikit Learn
- OpenStack-Docker
- Implémenter un système d'extraction de termes et d'analyse de sentiments basée sur l'aspect(ABSA) pour le chinois simplifié et traditionnel avec l'architecture UIMA et le stockage ElasticSearch.
- Améliorer le prétraitement en chinois (étiquetage POS) pour FNLP. En plus, nous avons inventé un lemmatiseur original pour les mots rédupliqués.
- Nettoyage et visualisation des données avec Pandas et R.
Accomplissement:
- Résultats état-de-l'art pour l'analyse des sentiments basée sur l'aspect sur le défi Semeval2016.
- Améliorer la précision pour l'extraction terminologique de 50%.
Environements:
- Java
- UIMA
- Deeplearning4j
- Python
- R
- ElasticSearch
- Collaborer avec des chercheurs pour le projet Duel Project sur la classification des rôles de parole pour les dialogues.
- Annoter des coprus pour l'analyse de sentiment avec Brat.
Environements:
- Java-Corenlp
- Perl
- Python
- Numpy
- Brat
Education
- Alignement non supervisé des multi-mots bilingues.
- Modélisation de séquences monolingues avec RNN, CNN, LSTM et les architectures modernes basées sur Transformer.
- Bilingual word embedding.
- Augmentation/sélection des données pour les scenarios avec peu de ressource.
Results:
- Améliorer les résultats d'état-de-l'art sur la synonymie des multi-mots de près de 33% sur les corpus de domaine spécialisé à faibles ressources.
- Obtenir les results d'état-de-l'art sur bilingual word mapping.
- Proposer un nouveau réseau neuronal basé sur un graphe sans arbre pour encoder de courtes séquences et des mots simples. Il a surpassé les résultats d'état-de-l'art sur l'alignement non supervisé des multi-mots bilingues par une moyenne de 8,8 points en MAP tout en conservant des résultats comparables pour les mots simples.
Cours:
Machine learning; Statistics; Algorithm; 1st order logic; Text mining.
Cours:
Linear algebra; Mathmatical analysis; Java programming; C programming; Probability theory; HTML/CSS/PHP; MySQL
Cours:
French; Statistics; Visual basic programming; Accounting.
Publications
-
Alignement de termes de longueur variable en corpus comparables spécialisés
TALN2018
-
Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms
Coling2018
-
Continuous phrase representation learning with wrapped context prediction
In preparation
-
A unified and unsupervised framework for bilingual phrase alignment on specialized comparable corpora
ECAI2020
-
From unified phrase representation to bilingual phrase alignment in an unsupervised manner
In preparation
Compétence & Outils
Backend
-
Java8
-
Python3
-
C
-
Perl
-
PHP
Machine Learning Framework
-
Deeplearning4j
-
Pytorch
-
Keras
-
R
-
Tensorflow
-
Torch
Autres
- HTML
- CSS
- MySQL
- LaTeX
- HDFS Hadoop
- Git
- Unit Test
- Agile
- Gradle
- Lua
- Neo4j
- ElasticSearch
Autres projets
-
Poem botConstruire en Java un peom bot qui peut générer la deuxième partie suivante d'un couplet étant donné la première. [code]
-
Hackthon CafData 2015Construire en 48h un système de prédiction du temps d'attente en Python basé sur les données fournies par la Caf dans un concours de hackthon.
-
Jeu GounkiImplementer un jeu Gounki en C.
-
Jeu d'évolutionImplementer un jeu d'évolution en Java avec un UI minimal.
-
Site web pour les recettesCréer un site de recettes avec Mysql et PHP hébergé sur le réseau campus de l'Université Paris Dederot. Un étudiant peut s'inscrire pour trouver d'autres personnes qui peuvent lui enseigner les recettes qu'il veut apprendre.
Experience volontaire
-
Coouche customisée pour Deeplearning4jImplementerune couche customisée pour Deeplearning4j (avant la version alpha) et la pull request a été fusionnée dans le projet principal.
-
Machine Learning MeetupPrésenter nos travaux à Nantes machine learning meetup 2019.
-
LiaisonResponsable de la communication entre l'équipe du Groupe Edmond de Rothschild et la ville hôte de Extream Sailing Series 2011 à Qingdao.
-
InterprèteInterprète pour Tianhui (SARL) à Salon chinois de l'importation et de l'exportation à Guangzhou, 2010.
Langue
- Chinois (maternel)
- Anglais (Professionnel)
- Français (Professionnel)
Intérêts
- Badminton, Basketball, Running
- Langue, Histoire
- Board & Video game