Analyser & fouiller l'information scientifique

ISTEX pour le TDM

En plus de permettre l’accès rétrospectif à la littérature scientifique, ISTEX a la particularité d’être une source de données compatible, par sa licence, par la qualité des données avec la fouille et l’analyse de textes, le Text and Data Mining – TDM.

Le fait marquant

Depuis le printemps 2019, l'Inist propose des collections de corpus spécialisés constituées par l'équipe ISTEX en vue d'une exploitation en traitement automatique des langues et en fouille de textes.

Ces corpus spécialisés sont composés de documents en texte intégral ciblant un domaine scientifique ou une thématique particulière pour répondre à différents cas d’usage :

Réaliser des analyses scientifiques (analyse syntaxique et terminologique, analyse temporelle de thématiques) ;
Mettre au point ou tester des outils (permettant la détection de noms d’espèces, de définition de concepts, de termes ou des outils d’exploration thématique) ;
Proposer des corpus Gold pour évaluer les performances d’un outil (Unitex).

Tous ces corpus spécialisés sont disponibles sur le portail data.istex.fr.

Dans la continuité de l’alimentation de sa plateforme, ISTEX compte de nouveaux chargements de corpus :

4 nouveaux corpus éditeur chargés : Lavoisier, Brepols e-books, Duke, ACS ;

4 anciens corpus éditeur mis à jour : Springer E-books, Nature, EEBO, Wiley.

Les documents du fonds ISTEX ont été enrichis afin de permettre le TDM.

26 corpus éditeurs chargés (+ 18 %)

23 027 718 documents (+ 5 %)

9 279 revues

345 369 monographies

22 591 878 documents (98,11%) avec au moins 1 enrichissement

73 740 142 enrichissements générés sur les documents (tout type confondu) au 13 janvier 2020

Partenariats
et collaborations

En collaboration avec le réseau des URFIST, l'Inist a proposé des ateliers pratiques visant à aller plus loin dans l’usage des services et des outils gravitant autour d’ISTEX. Ces ateliers ont permis de construire un corpus spécialisé à partir du réservoir ISTEX et de le valoriser en utilisant des outils pour la visualisation et la fouille de contenus (Lodex, Gargantext, Cillex).

https://www.inist.fr/realisations/atelier-pratique-istex-vers-la-fouille-de-texte/
Cinq sessions ont eu lieu à Nancy, Bordeaux, Rennes, Villeurbanne et Toulouse, et ont réuni 46 stagiaires, parmi lesquels des professionnels de l’IST, des enseignants chercheurs et des doctorants.
Animateurs : Sabine Barreaux, Camille de Salabert, Stéphanie Gregorio, Claude Niederlender, François Parmentier, Pascale Viot.

Actions de
communication

Présentation du format TEI utilisé dans ISTEX (schéma ODD-ISTEX, pub2TEI, enrichissements en TEI), ANF TEI, Stéphanie Gregorio et Valérie Bonvallot, 3 décembre, Paris.
Se familiariser à la fouille de textes par l’exemple à travers l’exploitation des corpus Istex afin d’accompagner les chercheurs dans ce nouveau champ d’activité dont ISTEX sera certainement l’infrastructure incontournable, Journées TDM organisées par l’ENSSIB, Laurent Schmitt, Sabine Barreaux, Camille de Salabert, Pascal Cuxac, Nicolas Thouvenin, 25 et 26 septembre, Paris. https://www.inist.fr/nos-actualites/retour-sur-une-approche-concrete-du-tdm/
Réalisation d’un projet d’étude autour du « Merveilleux scientifique » (exposition BnF) avec 19 étudiants en Master PBD (Politique des Bibliothèques et de la Documentation), TD ENSSIB, Anne-Marie Badolato et Stéphanie Gregorio, 20 novembre, Villeurbanne. https://www.inist.fr/nos-actualites/lodex-presente-aux-etudiants-de-lenssib/
ISTEX: A database of twenty million scientific papers with a mining tool which uses named entities, Denis Maurel (université de Tours), Enza Morale, Nicolas Thouvenin, Patrice Ringot, Angel Turri. Information, 10 (5): 178.
SKEEFT: indexing method taking into account the structure of the document, Pascal Cuxac, Nicolas Kieffer, Jean-Charles Lamirel (Loria), 20th Collnet meeting, 5-8 novembre, Dalian, China.

ISTEX pour le TDM

Le fait marquant

Partenariats et collaborations

Actions de communication

Partenariats
et collaborations

Actions de
communication