ISTEX pour le TDM

En plus de permettre l’accès rétrospectif à la littérature scientifique, ISTEX a la particularité d’être une source de données compatible, par sa licence, par la qualité des données avec la fouille et l’analyse de textes, le Text and Data Mining – TDM.

decoration

Le fait marquant

Depuis le printemps 2019, l'Inist propose des collections de corpus spécialisés constituées par l'équipe ISTEX en vue d'une exploitation en traitement automatique des langues et en fouille de textes.

Ces corpus spécialisés sont composés de documents en texte intégral ciblant un domaine scientifique ou une thématique particulière pour répondre à différents cas d’usage :

  • Réaliser des analyses scientifiques (analyse syntaxique et terminologique, analyse temporelle de thématiques) ;
  • Mettre au point ou tester des outils (permettant la détection de noms d’espèces, de définition de concepts, de termes ou des outils d’exploration thématique) ;
  • Proposer des corpus Gold pour évaluer les performances d’un outil (Unitex).

Tous ces corpus spécialisés sont disponibles sur le portail data.istex.fr.

Dans la continuité de l’alimentation de sa plateforme, ISTEX compte de nouveaux chargements de corpus :

4 nouveaux corpus éditeur chargés : Lavoisier, Brepols e-books, Duke, ACS ;

4 anciens corpus éditeur mis à jour : Springer E-books, Nature, EEBO, Wiley.

Les documents du fonds ISTEX ont été enrichis afin de permettre le TDM.

26  corpus éditeurs chargés (+ 18 %)
23 027 718  documents (+ 5 %)
9 279  revues
345 369  monographies
22 591 878  documents (98,11%) avec au moins 1 enrichissement
73 740 142  enrichissements générés sur les documents (tout type confondu) au 13 janvier 2020

Partenariats
et collaborations

En collaboration avec le réseau des URFIST, l'Inist a proposé des ateliers pratiques visant à aller plus loin dans l’usage des services et des outils gravitant autour d’ISTEX. Ces ateliers ont permis de construire un corpus spécialisé à partir du réservoir ISTEX et de le valoriser en utilisant des outils pour la visualisation et la fouille de contenus (Lodex, Gargantext, Cillex).

Actions de
communication

  • Présentation du format TEI utilisé dans ISTEX (schéma ODD-ISTEX, pub2TEI, enrichissements en TEI), ANF TEI, Stéphanie Gregorio et Valérie Bonvallot, 3 décembre, Paris.
  • Se familiariser à la fouille de textes par l’exemple à travers l’exploitation des corpus Istex afin d’accompagner les chercheurs dans ce nouveau champ d’activité dont ISTEX sera certainement l’infrastructure incontournable, Journées TDM organisées par l’ENSSIB, Laurent Schmitt, Sabine Barreaux, Camille de Salabert, Pascal Cuxac, Nicolas Thouvenin, 25 et 26 septembre, Paris. https://www.inist.fr/nos-actualites/retour-sur-une-approche-concrete-du-tdm/
  • Réalisation d’un projet d’étude autour du « Merveilleux scientifique » (exposition BnF) avec 19 étudiants en Master PBD (Politique des Bibliothèques et de la Documentation), TD ENSSIB, Anne-Marie Badolato et Stéphanie Gregorio, 20 novembre, Villeurbanne. https://www.inist.fr/nos-actualites/lodex-presente-aux-etudiants-de-lenssib/
  • ISTEX: A database of twenty million scientific papers with a mining tool which uses named entities, Denis Maurel (université de Tours), Enza Morale, Nicolas Thouvenin, Patrice Ringot, Angel Turri. Information, 10 (5): 178.
  • SKEEFT: indexing method taking into account the structure of the document, Pascal Cuxac, Nicolas Kieffer, Jean-Charles Lamirel (Loria), 20th Collnet meeting, 5-8 novembre, Dalian, China.
En poursuivant votre navigation, sans modifier vos paramètres, vous acceptez l'utilisation et le dépôt de cookies destinés à mesurer la fréquentation du site grâce au logiciel Matomo.
OK
Modifier les paramètres