Papiers longs (L) : 15 minutes de présentation + 5 minutes pour les questions
Papiers courts/déjà publiés (C/DP) : 10 minutes de présentation + 5 minutes pour les questions
Papiers longs et nominés : 3 minutes de vidéo pour la session « Minute of madness » pour présenter votre travail (par exemple, quelques transparents avec une voix off)
Posters : 3 minutes de vidéo pour la session Poster et démonstration
Les présentations à distance sont estampillées avec l’icône .
Kartu-Verbs : un système d’informations logiques de formes verbales fléchies pour contourner les problèmes de lemmatisation des verbes géorgiensMireille Ducassé
TENET, un outil pour construire des ontologies OWL à partir de textes en langue naturelleDavid Rouquet, Aurélien Lamercerie, Valérie Bellynck, Christian Boitet, Vincent Berment and Guillaume De Malézieux
Détection d’anomalies en temps réel dans le flux vidéoFabien Poirier and Rakia Jaziri
Le TDM pour tous grâce à des web services au sein de LODEX, outil libre de visualisationValérie Bonvallot, François Parmentier, Lucile Bourguignon, Isabelle Clauss and Stéphanie Gregorio
MEMORIA SI en ligne pour décrire des protocoles de rechercheIwona Dudek, Jean-Yves Blaise and Miora Rabefandroana
QuickFill : travailler plus pour générer moins en synthèse de programmesVanessa Fokou, Peggy Cellier, Maurice Tchuente and Alexandre Termier
Extraction de contraintes dans des spécifications devalidation de donnéesArthur Remaud (C)
Les spécifications de la validation de données, dans le domaine ferroviaire par exemple, sont majoritairement constituées de phrases dont les groupes verbaux expriment des contraintes à vérifier. Dans une optique d’automatisation du traitement de ces spécifications écrites en langage naturel, il est nécessaire d’identifier ces contraintes en utilisant des outils de traitement automatique de la langue. Nous avons expérimenté une approche utilisant un modèle BERT avec un fine-tuning. Une liste de contraintes à extraire, ainsi qu’un corpus de phrases et propositions a été élaboré pour l’entraînement, et un générateur de paraphrases a été utilisé pour pallier le manque de données. Les résultats sont encourageant, mais peuvent encore être améliorés, notamment en complétant les exemples pour l’entraînement.
Évaluation des propriétés multilingues d’un embedding contextualiséFélix Gaschi, Alexandre Joutard, Parisa Rastin and Yannick Toussaint (C)
Les modèles d’apprentissage profond comme BERT, un empilement de couches
d’attention avec un pré-entraînement non supervisé sur de larges corpora, sont
devenus la norme en NLP. mBERT, une version pré-entraînée sur des corpora
monolingues dans 104 langues, est ensuite capable d’apprendre une tâche dans une
langue et de la généraliser à une autre. Cette capacité de généralisation ouvre
la perspective de modèles efficaces dans des langues avec peu de données
annotées, mais reste encore largement inexpliquée. Nous proposons une nouvelle
méthode fondée sur des mots traduits en contexte pour analyser plus finement
qu’avec d’autres techniques la similarité de représentations contextualisées à
travers les langues. Nous montrons que les représentations de différentes
langues apprises par mBERT sont plus proches pour des couches profondes, et
dépassent les modèles spécifiquement entraînés pour être alignés.
Réseau antagoniste génératif pour la fouille des contradictions TRIZ dans les brevetsGuillaume Guarino, Ahmed Samet and Denis Cavallucci (DP)
L’apprentissage semi-supervisé avec des réseaux antagonistes génératifs (GANs) a attiré beaucoup d’attention ces dernières années dans les domaines souffrant d’un manque de données labélisées.
Dans cet article, nous proposons une nouvelle approche appelée PaGAN qui est une combinaison d’un classifieur de documents et d’un classifieur de phrases dans un GAN pour la compréhension des brevets. PaGAN est appliqué et évalué sur un jeu de données réelles. Les expériences montrent que les résultats de PaGAN sont supérieurs à ceux des approches de références.
Processus de Dirichlet profonds pour le topic modelingMiguel Palencia-Olivar, Stéphane Bonnevay, Alexandre Aussem and Bruno Canitia (DP)
Cet article présente deux nouveaux modèles : l’Embedded Dirichlet
Process et le Hierarchical Embedded Dirichlet Process. Ces méthodes sont des ex-
tensions non-paramétriques de l’Embedded Topic Model (ETM) qui permettent
d’apprendre simultanément le nombre de thématiques, des représentations la-
tentes de documents et des embeddings de thématiques et de mots. Pour ce faire,
nous remplaçons l’a priori logistique-normal de l’ETM par un processus de Di-
richlet et un processus de Dirichlet hiérarchique dans un cadre d’inférence par
autoencodage variationnel amorti. Nous testons nos modèles sur deux jeux de
données : 20 Newsgroups et Humanitarian Assistance and Disaster Relief. Nos
modèles présentent l’avantage de maintenir une faible perplexité tout en fournis-
sant des représentations sémantiquement parlantes des documents, des sujets et
des mots qui surpassent les autres méthodes de l’état de l’art, permettant ainsi
d’extraire des thématiques dans un contexte multilingue, sans sacrifice
d’un a priori de type Dirichlet.
Classification non supervisée de documents à partir des modèles TransformeursMira Ait-Saada, François Role and Mohamed Nadif (DP)
Les plongements de mots basés sur les modèles Transformeurs sont maintenant largement utilisés dans l’exploration de textes où ils sont connus pour améliorer significativement les tâches supervisées telles que la classification de textes et la reconnaissance d’entités nommées. Puisque les modèles Transformeur créent plusieurs plongements différents pour la même entrée, un à chaque couche de leur architecture, diverses études ont essayé d’identifier ceux de ces plongements qui contribuent le plus au succès des tâches mentionnées ci-dessus. En revanche, la même analyse n’a pas encore été réalisée dans le cadre non supervisé. Dans cet article, nous évaluons l’efficacité des Transformeurs sur de la classification non supervisée de documents. En particulier, nous présentons une approche d’ensemble de clustering qui exploite toutes les couches du réseau. Des expériences numériques menées sur des ensembles de données réels avec différents Transformeurs montrent l’efficacité de la méthode proposée par rapport à plusieurs stratégies habituellement utilisées.
NER sur décisions judiciaires françaises : CamemBERT Judiciaire ou méthode ensembliste ?Sid Ali Mahmoudi, Bruno Mathis, Stéphane Mussard, Charles Condevaux and Guillaume Zambrano (C) Applicatif
The well-representation of the text tokens taking in consideration both their morphology and their context plays a crucial role for robust systems doing a named entity recognition (NER) task. NER general approach is to, first, for a given token, identify if it is a named entity or not based on its representation, then classify it in which entity it belongs. This paper proposes an ensemble learning applied to static embeddings: FastText and word2vec with contextualized embeddings: ELMo and BERT, and we use the BiLSTM-CRF architecture as a classifier. By combining an ensemble of BiLSTM-CRF models and Judicial CamemBERT based on their performance using appropriate coefficients, we obtained a more conceptually grounded model that can be used for NER task. The relative improvement of this approach is experimentally validated by a comparison: the ensemble NER model arrives to outperform an excellent baseline CRF model
Chair: Christel Vrain / Chair visio : Nicolas Labroche
Apprentissage Joint de la Représentation et du Clustering avec un Réseau Convolutif sur GrapheChakib Fettal, Lazhar Labiod and Mohamed Nadif (DP)
Nous proposons un modèle pour l’apprentissage simultané de la représentation et le partitionnement (ou clustering) de graphes attribués. Basé sur un simple réseau convolutif sur graphe, notre modèle effectue le clustering en minimisant la différence entre la représentation réduite des données convoluées et la reconstruction des centroïdes calculés dans l’espace de dimension réduite. Nous montrons l’efficacité du modèle par rapport à l’état de l’art sur différents jeux de données de graphes attribués sur la tâche du clustering.
Détection d’anomalies dans les flux de graphes et attaques d’empoisonnementFatma Zohra Khaoula Saadi, Abd Errahmane Kiouche, Karima Amrouche, Hamida Seba and Mohamed-Lamine Messai (C)
Le problème de détection d’anomalies dans les flux de graphes a de nombreuses applications en particulier en cyber-sécurité et en finance. Plusieurs méthodes sont proposées dans la littérature pour répondre à cette problématique. Cependant, la plupart de ces méthodes sont vulnérables aux attaques par empoisonnement qui consistent à compromettre le processus d’apprentissage en injectant des données corrompues lors de la phase d’initialisation ou d’entraînement pour que le système échoue sur des attaques futures.
Dans ce travail, nous étendons une des méthodes, les plus récentes et les plus effectives, de détection d’anomalies pour traiter cette attaque. Nous procédons par hybridation en considérant une autre méthode de détection d’anomalies comme un filtre qui élimine ces données empoisonnées injectées durant la phase d’initialisation afin d’altérer le modèle représentant le comportement normal des éléments.
Nous avons implémenté et testé notre approche sur des jeux de données empoisonnés pour montrer son efficacité.
MTCopula: Génération de données synthétiques et complexes utilisant les CopulaFodil Benali, Damien Bodénès, Nicolas Labroche and Cyril de Runz (DP)
Cet article est une version courte d’un article publié à DOLAP2021. Comme il n’est pas toujours possible d’accéder à de grands volumes de données de bonne qualité, il est nécessaire de générer des données synthétiques. La plupart des techniques existantes fonctionnent bien pour des données à faible dimension et peuvent échouer à capturer les dépendances complexes entre les dimensions des données. L’identification de la bonne combinaison de modèles et de leurs paramètres respectifs reste un problème ouvert. Nous présentons MTCopula, une nouvelle approche de génération de données synthétiques complexes, flexible et extensible, qui choisit automatiquement le meilleur modèle Copula et les marginales les mieux ajustées pour capturer la complexité des données en se reposant sur le critère d’information d’Akaike. Les comparaisons avec les générateurs de données synthétiques de l’état de l’art montrent que notre approche préserve mieux les comportements des variables et leurs interdépendances dans les données synthétiques générées.
Echantillonnage d’itemsets à forte utilité moyenne sous contraintes de tailleLamine Diop (C)
Les algorithmes d’extraction d’High-Utility Itemset sont des méthodes permettant de découvrir des connaissances dans une base de données où les items sont pondérés. Leur importance a été largement démontrée dans de nombreuses applications réelles. Les algorithmes traditionnels renvoient l’ensemble des motifs ayant une utilité supérieure à un seuil qui est difficile à fixer, tandis que les algorithmes dits top-k ont tendance à manquer de diversité sur les motifs produits. Dans cet article, nous proposons un algorithme nommé HAISampler pour échantillonner des itemsets tirés avec une probabilité proportionnelle à leur utilité moyenne dans la base de données et sous contraintes de taille pour éviter le problème de la longue traîne. L’originalité de notre méthode découle du fait qu’elle combine des contraintes de taille avec des utilités qualitatives et quantitatives. Les expérimentations montrent que HAISampler tire en quelques secondes des milliers de motifs à forte utilité moyenne sur différents jeux de données.
Repondération Préférentielle pour l’Apprentissage BiqualitéPierre Nodet, Vincent Lemaire, Alexis Bondu and Antoine Cornuéjols (DP)
Cet article propose une vision originale et globale de l’Apprentissage Faiblement Supervisé, menant à la conception d’approches génériques capable de traiter tout type de faiblesses en supervision. Un nouveau cadre appelé « Données Biqualité » » est introduit, qui suppose qu’un petit jeu de données fiable d’exemples correctement étiquettes est disponible, en plus d’un jeu de données non fiable comprenant un grand nombre d’exemples potentiellement corrompus. Dans ce cadre nous proposons un nouveau schéma de repondération capable de détecter les exemples non corrompus du jeu de données non fiable. Cet algorithme permet d’apprendre des classifieurs sur les deux jeux de données. Nos expériences simulant plusieurs types de bruits d’étiquetage démontrent empiriquement que l’algorithme proposé surperforme l’état de l’art.
Detection d’anomalies contextuelles dans un graphe attribuéRémi Vaudaine, Baptiste Jeudy and Christine Largeron (DP)
La détection d’anomalies dans des données relationnelles modélisées par un graphe s’est avérée très utile dans un large éventail de domaines, par exemple pour détecter des comportements frauduleux sur des plateformes en ligne ou des intrusions sur des réseaux de télécommunication. Cependant, la plupart des méthodes existantes utilisent des prédicteurs pré-construits à partir du graphe et n’exploitent pas nécessairement des informations locales. Pour surmonter ces limites, nous proposons CoBaGAD, un détecteur d’anomalies, basé sur le contexte, qui exploite les informations locales pour détecter les noeuds anormaux d’un graphe de manière semi-supervisée. Ce modèle de réseaux de neurones, inspiré du Graph Attention Network (GAT), avec un mécanisme d’attention personnalisé permet de créer des représentations des noeuds, de les agréger et de classer les noeuds non étiquetés en normal ou anormal. Les résultats expérimentaux ont montré que CoBaGad surpasse les méthodes de pointe en terme de rappel et de précision.
Chair: Pierre Gançarski / Chair visio : Nicolas Labroche
Stratégies coalitionnelles pour une explication efficace des prédictions individuelles.Elodie Escriva, Gabriel Ferrettini, Julien Aligon, Jean-Baptiste Excoffier and Chantal Soulé-Dupuy (DP)
Ce papier est un résumé des travaux publiés dans le journal Information Systems Frontiers (Ferretini et al., 2021).
Face aux nombreuses applications de l’apprentissage machine (ML) dans de nombreux domaines, la nécessité de comprendre le fonctionnement des algorithmes en boite noire est devenu croissante, particulièrement chez les non-experts.
Plusieurs méthodes fournissant des explications sur les prédictions des modèles existent, avec des temps de calculs longs ou des hypothèses restrictives sur les interactions entre attributs. Ce papier détaille des méthodes basées sur la détection de groupes d’attributs pertinents – appelés coalitions – influençant la prédiction. Nos résultats montrent que les méthodes coalitionnelles sont plus performantes que celles existantes, comme SHAP. Le temps d’exécution est réduit en préservant la précision des explications. Ces méthodes permettent une augmentation des cas d’utilisation afin d’accroître la confiance entre les modèles ML, les utilisateurs et toute personne affectée par une décision impliquant ces modèles.
Qu’est-ce que mon GNN capture vraiment ? Exploration des représentations internes d’un GNNLuca Veyrin-Forrer, Ataollah Kamal, Stefan Duffner, Marc Plantevit and Celine Robardet (L) Académique
Nous considérons l’explication de GNN. Alors que les travaux existants expliquent la décision du modèle en s’appuyant sur la couche de sortie, nous cherchons à analyser les couches cachées pour identifier les attributs construits par le GNN. Nous extrayons d’abord des règles d’activation qui identifient des ensembles de neurones co-activés pour une même catégorie. Ces règles définissent des représentations internes ayant un impact fort sur la classification. Ensuite, nous associons à celles-ci un graphe dont le plongement produit par le GNN est très proche de celui identifié par la règle. La recherche de graphe par MCTS est dirigée par une mesure de similarité entre le plongement du graphe et la représentation interne de la règle, ainsi qu’un facteur de réalisme sur la distribution des étiquettes dans le graphe produit. Des expériences sur 6 jeux de données et 3 baselines démontrent que notre méthode génère des graphes réalistes de haute qualité.
Une approche basée sur les motifs graduels pour la recommandation dans un contexte de consommation répétéeMichael Chirmeni Boujike, Norbert Tsopze, Jerry Lonlac, Rosette Nganmeni Njamnou, Engelbert Mephu Nguifo and Laure Pauline Fotso (C)
Les systèmes de recommandation ont été conçus pour résoudre le problème de surcharge de données. L’objectif est donc de sélectionner parmi un nombre élevé d’items ceux de faible quantité pertinents pour un utilisateur donné. La prise en compte de la nature répétitive et périodique des interactions entre les utilisateurs et les items a permis d’améliorer les performances des systèmes existants. Mais ces systèmes ne prennent pas en compte les données numériques associées à ces interactions. Nous proposons dans cet article une approche de recommandation basée sur les motifs graduels qui permettent de modéliser les covariations entre items. Les résultats expérimentaux obtenus avec cette approche sont meilleurs que ceux obtenus avec certains algorithmes existants, et pour certains paramètres, l’écart atteint 40% pour le NDCG, 20% pour le rappel et 10% pour la précision.
Générer des explications contrefactuelles à l’aide d’un autoencodeur superviséVictor Guyomard, Francoise Fessant, Bouadi Tassadit and Thomas Guyet (L) Académique
Dans cet article nous proposons une manière d’améliorer l’interprétabilité des explications contrefactuelles. Une explication contrefactuelle se présente sous la forme d’une version modifiée de la donnée à expliquer qui répond à la question : que faudrait-il changer pour obtenir une prédiction différente ?
La solution proposée consiste à introduire dans le processus de génération du
contrefactuel un terme basé sur un auto-encodeur supervisé. Ce terme contraint
les explications générées à être proches de la distribution des données et de leur
classe cible. La qualité des contrefactuels produits est évaluée sur un jeu de données d’images par le biais de différentes métriques. Nous montrons que notre solution s’avère compétitive par rapport à une méthode de référence de l’état de l’art.
Découverte de sous-groupes de prédictions interprétables pour le triage d’incidentsYoucef Remil, Anes Bendimerad, Marc Plantevit, Céline Robardet and Mehdi Kaytoue (DP)
Le besoin de maintenance prédictive s’accompagne d’un nombre croissant d’incidents qui doivent être rapidement assignés aux services appropriés pour des actions correctives. Il existe des modèles prédictifs pour automatiser cette assignation, mais les plus efficaces sont opaques. Des méthodes ont été conçues pour expliquer localement chaque prédiction de tels modèles, mais elles fournissent une explication à chaque résultat, inconcevable en présence d’un nombre important de prédictions à analyser. Nous proposons d’abord un modèle efficace de triage d’incidents, puis une méthode basée sur la découverte de sous-groupes pour grouper les explications de ses prédictions. Cette méthode permet (1) de grouper les incidents dont les prédictions partagent des explications similaires et (2) de fournir une description interprétable à chacun de ces sous-groupes d’incidents. Cet article est une traduction résumée de (Remil et al. (2021))
Chair: Marc Plantevit / Chair visio : Veronika Peralta
Construction de variables à l’aide de classifieurs comme aide à la régression : une évaluation empiriqueColin Troisemaine and Vincent Lemaire (C)
Cet article propose une méthode de création automatique de variables (pour la régression) qui viennent compléter les informations contenues dans le vecteur initial d’entrée, les variables explicatives. Notre méthode fonctionne comme une étape de pré-traitement dans laquelle les valeurs continues de la variable a régresser sont discrétisées en un ensemble d’intervalles. Ces intervalles permettent de définir des seuils de valeurs. Ensuite, des classifieurs sont entraînés pour prédire si la valeur à régresser est inférieur à chacun de ces seuils. Les différentes sorties des classifieurs sont ensuite concaténées sous la forme d’un vecteur additionnel de variables qui vient enrichir le vecteur initial de variables explicatives du problème de régression. Le système implémenté peut donc être considéré comme un outil de pré-traitement générique. Nous avons testé la méthode d’enrichissement proposée avec 5 types de régresseurs et l’avons évalué dans 33 jeux de données de régression. Nos résultats expérimentaux confirment l’intérêt de l’approche.
Détection d’entités quasi-dupliquées dans une base de connaissances avec PIKAGuillaume Gadek, Maxime Prieur and Bruno Grilhères (L)
Cet article explore l’utilisation des modèles de réseaux de neurones adaptés aux graphes pour produire des représentations vectorielles des noeuds afin de résoudre le problème de la détection d’éléments similaires dans une base de connaissances. En s’appuyant sur des modèles pré-entraînés pour la similarité sémantique textuelle, notre méthode proposée, PIKA, agrège les caractéristiques hétérogènes (structurées et non structurées) d’une entité et de son voisinage pour produire un vecteur pouvant être utilisé dans différentes tâches telles que la recherche d’information ou la classification. Notre méthode apprend des poids spécifiques pour chaque type d’information apportée par une entité, ce qui nous permet de la traiter de manière inductive.
Une méthode KNN sans paramètre pour prédire les notes des utilisateursJunior Medjeu Fopa, Modou Gueye, Samba Ndiaye and Hubert Naacke (L) Applicatif
La factorisation de matrices offre une grande qualité de prédiction pour les systèmes de recommandation. Mais sa nature statique empêche de tenir compte des nouvelles notes que les utilisateurs produisent en continu. Ainsi, la qualité des prédictions décroît entre deux factorisations lorsque de nombreuses notes ne sont pas prises en compte. La quantité de notes écartées est d’autant plus grande que la période entre deux factorisation est longue, ce qui accentue la baisse de qualité. Nos travaux visent à améliorer la qualité des recommandations. Nous proposons une factorisation de matrices utilisant des groupes de produits et intégrant en ligne les nouvelles notes des utilisateurs. Nous attribuons à chaque utilisateur un biais pour chaque groupe de produits similaires que nous mettons à jour. Ainsi, nous améliorons significativement les prédictions entre deux factorisations. Nos expérimentations sur des jeux de données réels montrent l’efficacité de notre approche.
Classification automatique d’articles encyclopédiquesLudovic Moncla, Khaled Chabane and Alice Brenon (L) Applicatif
Cet article propose une étude comparative de différentes approches de classification supervisée appliquées à la classification automatique d’articles encyclopédiques. Notre corpus d’apprentissage est constitué des 17 volumes de texte de l’Encyclopédie de Diderot et d’Alembert (1751-1772) représentant un total d’environ 70 000 articles. Nous avons expérimenté différentes approches de vectorisation de textes (sac de mots et plongement de mots) combinées à des méthodes d’apprentissage automatique classiques, d’apprentissage profond et des architectures BERT. En plus de la comparaison de ces différentes approches, notre objectif est d’identifier de manière automatique les domaines des articles non classés de l’Encyclopédie (environ 2 400 articles). En perspective de ce travail et dans le contexte d’une étude diachronique des discours encyclopédiques, nous souhaitons utiliser les modèles générés pour la comparaison des articles déjà classés. L’ensemble du code développé ainsi que les résultats obtenus dans le cadre de ce projet sont disponibles en open-source.
Prédiction conformelle basée sur les copules pour la régression multi-ciblesSoundouss Messoudi, Sébastien Destercke and Sylvain Rousseau (DP)
Il existe peu de travaux traitant de la prédiction conformelle pour la régression multi-cibles. Cet article se concentre sur l’obtention de prédictions multivariées valides (c’est-à-dire calibrées en fréquence). Pour ce faire, nous proposons d’utiliser des copules pour la prédiction conformelle inductive, et nous montrons que la méthode proposée garantit l’efficacité et la validité pour les problèmes de régression multi-cibles sur divers ensembles de données.
Chair: Julien Aligon / Chair visio : Nicolas Labroche
Les raisons majoritaires : des explications abductives pour les forêts aléatoires.Gilles Audemard, Steve Bellart, Louenas Bounia, Frédéric Koriche, Jean-Marie Lagniez and Pierre Marquis (L) Académique
Les forêts aléatoires constituent un modèle d’apprentissage automatique efficace, ce qui explique qu’elles sont encore massivement utilisées aujourd’hui. Cependant, s’il est assez facile de comprendre le fonctionnement d’un arbre de décision, il est beaucoup plus complexe d’interpréter la décision prise par une forêt aléatoire, car elle est typiquement issue d’un vote majoritaire entre de nombreux arbres. Nous examinons ici diverses définitions d’explications abductives pour les forêts aléatoires sur des attributs binaires. Nous nous intéressons notamment au problème de génération (en trouver une explication) ainsi qu’au problème de minimisation (trouver une des explications parmi les plus courtes). Nous montrons notamment que les explications abductives les plus irredondantes (ou raisons minimales) peuvent être difficiles à obtenir pour les forêts aléatoires. Nous proposons à leur place les « »raisons majoritaires » », des explications abductives moins concises mais que l’on peut calculer en temps polynomial.
Sur le pouvoir explicatif des arbres de décisionGilles Audemard, Steve Bellart, Louenas Bounia, Frédéric Koriche, Jean-Marie Lagniez and Pierre Marquis (L) Académique
Les arbres de décision constituent un modèle d’apprentissage adapté aux applications pour lesquelles l’interprétabilité des décisions est d’une importance primordiale. Nous examinons ici la capacité des arbres de décision binaires à extraire, minimiser et compter des explications abductives / contrastives. Nous prouvons que l’ensemble de toutes les explications abductives irredondantes (ou raisons suffisantes) d’une instance peut être de taille exponentielle. Aussi, générer l’intégralité de cet ensemble peut se révéler hors de portée. De plus, deux raisons suffisantes d’une même instance peuvent différer sur tous leurs attributs. Ainsi, le calcul d’une seule raison suffisante ne donne qu’une vision parcellaire des explications possibles. Nous présentons les notions d’attribut nécessaire / pertinent pour l’explication et la notion d’importance explicative d’un attribut et nous montrons que ces notions peuvent être utiles pour dériver une vue synthétique des raisons suffisantes d’une instance.
Evaluation de l’uplift sur des données biasées dans le cas du Non-Random AssignmentMina Rafla, Nicolas Voisine and Bruno Cremilleux (L)
L’uplift est une mesure d’impact d’une action (marketing, traitement médical) sur le comportement d’une personne. La prédiction d’uplift repose sur des groupes de personnes ayant subi des actions particulières. Ces groupes sont estimés « »équivalents » ». Or, en pratique, on constate qu’il existe des biais entre ces groupes. Pour résoudre cet écueil nous proposons un protocole d’évaluation de l’uplift dans le cas du biais de “Non-Random Assignment » ». Muni de ce protocole nous évaluons les performances sur les principales méthodes d’uplift de la littérature puis nous proposons une méthode pour réduire l’effet de ce biais. Des résultats expérimentaux sur 8 jeux de données montrent que la méthode proposée apporte une amélioration significative des performances de l’estimation de l’uplift.
Une méthode d’apprentissage par optimisation multicritère pour le rangement de motifs en fouille de donnéesNassim Belmecheri, Noureddine Aribi, Nadjib Lazaar, Yahia Lebbah and Samir Loudni (C)
La découverte de motifs pertinents reste une tâche difficile en fouille de données. D’une part, des approches ont été proposées pour apprendre automatiquement des fonctions de rangement de motifs spécifiques à l’utilisateur. Ces approches sont souvent efficaces en qualité, mais très couteuses en temps d’exécution. D’autre part, de nombreuses mesures sont utilisées pour évaluer l’intérêt des motifs avec l’objectif de se rapprocher le plus possible du rangement spécifique à l’utilisateur. Dans cet article, nous formulons le problème d’apprentissage des fonctions de rangement des motifs comme un problème de prise de décision multicritère. L’approche proposée permet d’agréger des mesures d’intérêt en une seule fonction linéaire pondérée dont les coefficients sont calculés via la méthode AHP (Analytic Hierarchy Process). Des expérimentations menées sur de nombreux jeux de données montrent que notre approche réduit drastiquement le temps d’exécution, tout en assurant un rangement proche de l’utilisateur et comparable à celui des approches existantes.
S3B: Interaction et multimodalité (Amphi 3) – Lien visio
Chair: Guy Mélançon / Chair visio : Cyril de Runz
Interactive knowledge discovery in large document collectionsCédric Boscher and Elöd Egyed-Zsigmond (L)
In this paper we present a study on multi modal document classification implemented on an assisted, interactive document collection manipulation web application. The application, called CATI, helps non computer scientist users to discover, browse and classify large document collections, where documents contain text and can come with images and metadata such as timestamp, author, geolocation, etc. The classification criteria is not predefined, users are assisted to provide some positive and negative examples. CATI provides a set of classification assistants such as event detection, text and image based document clustering. It comes with an interface that helps users select among several text and other information based features to classify the documents. Our study shows that using the classification assistants and helping users choose the right features gives good classification results for large document collection within a few clicks.
Etude comparative de reconnaissance de texte dans les bandes dessinéesFlorian Le Meur, Frédéric Rayar, Sylvie Treuillet and Frédéric Daubignard (C) Applicatif
Cette étude se place dans le contexte de l’amélioration de l’accessibilité
des livres, en particulier des bandes dessinées (BDs), aux publics empêchés
de lire. A cette fin, la reconnaissance automatique de texte dans les BDs est
une tâche fondamentale dans l’analyse de ces dernières. Nous proposons ici une
étude comparative de différents algorithmes de segmentation et de reconnaissance
de texte dans des BDs à partir d’images acquises à main levée à l’aide
d’un terminal mobile. Nos expériences, réalisées sur une base de données créée
spécifiquement pour cet usage, ont permis de retenir les méthodes les plus prometteuses, et de les intégrer au sein d’une application mobile, destinée aux personnes souffrantes de troubles de la lecture afin de les assister dans la lecture de livres.
L’ambiguïté dans la représentation des émotions : état de l’art des bases de données multimodalesHélène Tran, Lisa Brelet, Issam Falih, Xavier Goblet and Engelbert Mephu Nguifo (L)
La reconnaissance des émotions est une brique fondamentale dans l’octroi de l’intelligence émotionnelle aux machines. Les premiers modèles ont été conçus pour reconnaître les émotions fortement exprimées et facilement identifiables. Cependant, nous sommes rarement en proie à ce type d’émotions dans notre vie quotidienne. La plupart du temps, nous éprouvons une difficulté à identifier avec certitude notre propre émotion et celle d’autrui : c’est l’ambiguïté émotionnelle. Les bases de données, à la racine du développement des systèmes de reconnaissance, doivent permettre d’introduire l’ambiguïté dans la représentation émotionnelle. Ce papier résume les principales représentations émotionnelles et propose un état de l’art des bases de données multimodales pour la reconnaissance des émotions, avec une étude de leur positionnement sur la problématique. Le papier poursuit sur une discussion de la possibilité de représenter l’ambiguïté des émotions à partir des bases de données sélectionnées.
Traduction d’un jeu de données de dialogues en français et Détection d’émotion à partir de textePierre-Yves Genest, Laurent-Walter Goix and Előd Egyed-Zsigmond (L) Académique
Les chatbots permettent à un programme informatique d’interagir plus naturellement avec un interlocuteur. Ils demeurent toutefois limités, n’étant pas sensibles à l’état d’esprit ou aux émotions de l’utilisateur, ce qui leur permettrait pourtant d’apporter des réponses plus pertinentes. La détection d’émotion sur des discussions textuelles a déjà été explorée pour l’anglais (SemEval 2019 Task 3), mais en français aucun dataset satisfaisant n’est disponible.
Nous proposons de traduire le dataset de dialogues EmotionLines, dont les répliques anglaises sont issues de la série Friends, en exploitant sa diffusion en VF. Notre méthode de génération de dataset par traduction est adaptable à tout dataset tiré de séries ou films étrangers disponibles en VF.
En utilisant ce dataset traduit, nous proposons un classifier basé sur le modèle de langage BERT, permettant de détecter l’émotion de l’utilisateur à partir de texte. Il tient compte du contexte de la discussion pour affiner ses prédictions.
Prédiction des niveaux de risque pollinique à partir de données historiques multi-sources: aérobiologiques, météorologiques et géo-spatialesEsso-Ridah Bleza, Valérie Monbet and Pierre-François Marteau (L)
allergenic species permanently threaten the health of millions of people in France.
Preventive information on the risk of pollen exposure would become a real asset for
allergy sufferers. The main objective of this article is to study, thanks to statistical
learning techniques using historical data and meteorological parameters of the day (D),
the ability to predict 3 days (D+3) in advance the risk levels of pollen presence in the
air on a given territory (in Metropolitan France).The aggregation of binary logistic regression
models for each level of risk by a random forest classifier allowed us to predict the
level of pollen risk with performances in the range of 75% to 90% of AUC and 70% of
precision and recall.
Désagrégation temporelle du cumul annuel de croissance de l’herbeLaurent Spillemaecker, Thomas Guyet, Simon Malinowski and Anne-Isabelle Graux (L)
Connaitre la croissance de l’herbe au cours de l’année est essentielle aux modèles simulant l’utilisation de cette ressource pour la production de fourrages conservés ou pour l’alimentation des animaux au pâturage.
Malheureusement, cette information n’est que rarement disponible.
Le défi réside dans la reconstruction de la croissance de l’herbe à partir de deux sources d’informations : les données journalières sur le climat et la croissance cumulée sur l’année.
Dans cet article, nous formulons ce défi comme un problème de désagrégation du cumul annuel en une série temporelle. Pour résoudre ce problème, on applique une méthode de prévision de série temporelle en s’aidant des informations sur le climat.
Plusieurs variantes de la méthode sont proposées et comparées expérimentalement à partir d’une base de données issue d’un modèle de simulation des prairies. Les résultats montrent que notre méthode reconstruit précisément la série temporelle indépendamment de l’utilisation de l’information sur le cumul annuel.
Vers une meilleure identification d’acteurs de Bitcoin par apprentissage superviséRafael Ramos Tubino, Remy Cazabet and Céline Robardet (L) Applicatif
Bitcoin est la crypto-monnaie la plus largement répandue et la plus étudiée. De par sa nature décentralisée, les données de transactions sont librement accessibles et peuvent être analysées. La première étape de la plupart des analyses consiste à regrouper les adresses anonymes en agrégats supposés correspondre à des acteurs. Dans cet article, nous proposons une nouvelle méthode pour réaliser ces agrégats à base d’apprentissage automatique. Notre approche repose sur la construction d’un jeu de données d’apprentissage dont la variable de classe est obtenue par une vérité de terrain calculée a posteriori. Ce jeu de données est utilisé pour identifier les adresses de change des transactions, adresses appartenant au donneur d’ordre de la transaction. Cela nous permet d’augmenter le nombre d’adresses découvertes appartenant à un même acteur. Nous montrons expérimentalement la pertinence de cette méthode en comparaison des heuristiques habituellement utilisées à l’aide d’un critère de validation externe.
Parcours éducatif optimal d’un patient : étude par simulation d’algorithmes adaptatifsXavier Goblet (C)
Dans le cadre d’une éducation thérapeutique digitalisée où l’aspect motivationnel est prépondérant, une personnalisation du parcours patient doit se rapprocher d’une trajectoire optimale dans un large espace d’activités ludiques (défis, quiz, QCM, etc.), caractérisées par un niveau de difficulté et des compétences à maîtriser. La machine doit apprendre des succès ou échecs pour faire dynamiquement des recommandations des futures étapes et offrir l’expérience la plus adaptée à chaque patient. En abordant cette problématique sous l’angle des algorithmes adaptatifs, nous proposons une approche originale. Nous étudions deux familles d’algorithmes (règles logiques et bandit Thompson Sampling) en comparant leurs performances à travers un environnement de simulation. Les premiers résultats montrent un avantage pour le bandit TS quelles que soient les caractéristiques d’apprentissage du patient.
Chair: Bruno Crémilleux / Chair visio : Lamine Diop
USTEP: Structuration des logs en flux grâce à un arbre de recherche évolutifArthur Vervaet, Raja Chiky and Mar Callau-Zori (DP)
Les registres de logs enregistrent en temps réel des informations relatives à l’exécution d’un système informatique. Ceux-ci sont régulièrement consultés à des fins de développement ou de surveillance. Afin d’être utilisables plus facilement pour des tâches d’exploration automatique, les messages des logs doivent être structurés. Cette étape se déroulant en amont des opérations d’analyses, elle peut devenir un goulot d’étranglement temporel et influencer l’efficacité des méthodes en aval. Dans ce papier, nous présentons USTEP, une méthode de structuration des logs en flux. Basé sur un arbre de recherche évolutif, USTEP est capable de découvrir et d’encoder efficacement de nouvelles règles de structuration. Nous présentons ici une évaluation des performances de USTEP sur un panel de 13 jeux de données issus de systèmes différents.Nos résultat mettent en valeur la supériorité de notre approche en matière d’efficacité et de robustesse par rapport à d’autres méthodes de structuration en ligne.
Clustering semi-supervisé de séries temporelles multivariées par apprentissage profondDino Ienco and Roberto Interdonato (C)
Des grandes volumes de données sont aujourd’hui produites par differents capteurs qui mesurent, généralement, plusieurs variables en même du temps. Ces informations peuvent être organisées sous forme de séries temporelles multivariées. Recueillir suffisamment d’échantillons étiquetés pour mettre en place une analyse supervisée pour ce type de données est un grand défi aujourd’hui. Dans ce contexte, les méthodes de clustering semi-supervisé représentent un outil bien adapté pour exploiter au mieux la quantité réduite de connaissances à disposition. Dans le but d’améliorer l’analyse de séries temporelles multivariées dans telles conditions, nous proposons un cadre de clustering semi-supervisé (sous contraint) de séries temporelles à travers des méthodes d’apprentissage profond qui utilise de contraintes de type must- et cannot-link comme forme de supervision faible. L’évaluation expérimentale sur différents jeux de données a mis en évidence la plus value de notre proposition.
Double-ML-Weibull : du Machine Learning à la RUL, vers une distribution de probabilitéFrançois Meunier (C)
Les méthodes classiques d’estimation de la durée de vie utile restante (Remaining Useful Life) proposent une distribution de probabilité du risque de défaillance, qui permet en conséquence de donner une probabilité de défaillance avant chaque instant.
Cependant, les méthodes récentes d’apprentissage automatique, qui utilisent des modèles plus complexes pour mieux comprendre les liens de causalité éventuelle entre les données disponibles et l’indicateur ciblé, proposent uniquement une régression.
Dans cet article, nous introduisons une transformation de la valeur de sortie d’un régresseur basée sur l’apprentissage automatique en le complétant par un autre qui, en parallèle, calcule l’erreur estimée de ce modèle et l’utilise pour créer une distribution grâce à une loi de Weibull. Cette approche, appelée double-ML-Weibull, est un bien meilleur outil pour proposer une simulation dans un contexte stochastique, au lieu d’utiliser telles quelles des valeurs scalaires comme la « » » »Mean Time To Failure » » » » ou la « » » »Mean Time Between Failure » » » ».
PDHP : un Prior Temporel Flexible pour Clustering Textuel DifficileGaël Poux-Médard, Julien Velcin and Sabine Loudcher (DP)
Le contenu textuel d’un document et sa date de publication sont corrélés. Par exemple, une publication scientifique est influencée notamment par les précédents articles cités par ladite publication. Utiliser cette corrélation permet d’améliorer la compréhension de grands corpus textuel datés. Cependant, cette tâche peut se compliquer lorsque les textes considérés sont courts ou possèdent des vocabulaires similaires. De plus, la corrélation entre texte et date est rarement parfaite.
Nous développons une méthode répondant à ces limites, permettant de créer des clusters de documents en fonction de leur contenu et de leur date : le processus p-Dirichlet-Hawkes (PDHP). Nous montrons que PDHP présente de meilleures performances que les modèles état de l’art (qu’il généralise) lorsque l’information textuelle ou temporelle est peu informative. Le PDHP se libère également de l’hypothèse d’une corrélation parfaite entre texte et date des documents. Enfin, nous illustrons une possible application sur des données réelles, provenant de Reddit.
Apprentissage machine pour la prédiction de l’attrition: une étude comparativeLouis Geiler, Severine Affeldt and Mohamed Nadif (L)
La prédiction du taux d’attrition est une préoccupation économique majeure pour de nombreuses entreprises. Différentes approches d’apprentissage ont été proposées, toutefois le choix à priori du modèle le plus adapté reste une tâche non triviale car extrêmement dépendante des caractéristiques intrinsèques des données d’attrition. Notre étude compare huit méthodes d’apprentissage supervisé combinées à sept approches d’échantillonnage sur treize jeux de données publiques relatifs au désabonnement. Nos évaluations, rapportées en termes d’aire sous la courbe (AUC), explorent l’influence du rééquilibrage et des propriétés des données sur les performances des méthodes d’apprentissage. Nous nous appuyons sur le test de Nemenyi et l’Analyse des Correspondances comme moyens de visualisation de l’association entre modèles, rééquilibrages et données. Notre étude comparative identifie les meilleures méthodes dans un contexte d’attrition et propose un pipeline générique performant basé sur une approche ensemble.