23 Novembre 2020 : Soutenance de thèse de Mararida Ramos

Publié le lun 23 Nov 2020

Représentation des connaissances et terminologie: application à l’industrie du liège

Mots-clés :terminologie, domaine-ontologie, définition par intention, corpus spécialisé, liège,

Résumé :

Cette thèse vise à prouver la pertinence des textes dans le volet conceptuel du travail terminologique. Notre méthodologie sert à démontrer comment les linguistes peuvent déduire des informations de connaissance à partir de textes et les systématiser par la suite, soit à travers des représentations semi-formelles ou formelles. Nous nous concentrons principalement sur l’analyse terminologique de corpus spécialisé faisant appel à des outils semi-automatiques d’analyse de texte pour systématiser les relations lexico-sémantiques observées dans un contexte de discours spécialisé et la modélisation ultérieure du système conceptuel sous-jacent. L’objectif de cette méthodologie est de proposer une typologie qui peut aider les lexicographes à rédiger des définitions. Sur la base de la double dimension de la terminologie, nous émettons l’hypothèse que la modélisation textuelle et logique ne va pas de pair puisque cette dernière n’est pas directement liée à la première. Nous soulignons que la connaissance et le langage sont essentiels pour la systématisation des connaissances, tout en gardant à l’esprit qu’ils appartiennent à différents niveaux d’analyse, car ils ne sont pas isomorphes. Détail de la soutenance : https://www.adum.fr/as/detailSout.pl?provenance=etab1 de 224/09/2020, 09:41

Nous avons eu recours à des textes spécialisés produits dans l’industrie du liège. Ces textes nous fournissent un banc d’essai constitué de données riches en connaissances qui nous permettent de démontrer nos mécanismes déductifs utilisant la formule aristotélicienne : X = Y + DC à travers l’analyse linguistique et conceptuelle des données textuelles extraites semi-automatiquement. Pour l’exploitation du corpus, nous avons recours à des stratégies de text mining où les expressions régulières jouent un rôle central. Le but de cette étude est de créer une ressource terminologique pour l’industrie du liège, où deux types de ressources sont liés, à savoir le CorkCorpus et l’OntoCork. TermCork est un projet qui découle de l’organisation des connaissances dans le domaine spécialisé du liège. À cette fin, une base de données de connaissances terminologiques est en cours de développement pour alimenter un dictionnaire électronique. Cet e-dictionnaire est conçu comme un produit multilingue et multimodal, où plusieurs ressources, à savoir linguistiques et conceptuelles, sont jumelées. OntoCork est une micro-ontologie de domaine où les concepts sont enrichis de définitions de langage naturel et complétés par des images, annotées avec des méta-informations ou enrichies d’hyperliens vers des informations supplémentaires. Ce type de dictionnaire électronique désigne ce que nous considérons comme un outil terminologique utile dans la société de l’information numérique actuelle : la prise en compte de ses principales caractéristiques, ainsi qu’un format électronique qui peut être intégré dans le Web sémantique en raison de son format de données d’interopérabilité. Cet aspect met l’accent sur sa contribution à réduire autant que possible l’ambiguïté et à accroître l’efficacité de la communication entre les experts du domaine, les futurs experts et les professionnels de la langue.