
ISTEX pour le TDM
En plus de permettre l’accès rétrospectif à la littérature scientifique, ISTEX a la particularité d’être une source de données compatible, par sa licence, par la qualité des données avec la fouille et l’analyse de textes, le Text and Data Mining – TDM.

Le fait marquant
Depuis le printemps 2019, l'Inist propose des collections de corpus spécialisés constituées par l'équipe ISTEX en vue d'une exploitation en traitement automatique des langues et en fouille de textes.
Ces corpus spécialisés sont composés de documents en texte intégral ciblant un domaine scientifique ou une thématique particulière pour répondre à différents cas d’usage :
- Réaliser des analyses scientifiques (analyse syntaxique et terminologique, analyse temporelle de thématiques) ;
- Mettre au point ou tester des outils (permettant la détection de noms d’espèces, de définition de concepts, de termes ou des outils d’exploration thématique) ;
- Proposer des corpus Gold pour évaluer les performances d’un outil (Unitex).
Tous ces corpus spécialisés sont disponibles sur le portail data.istex.fr.
Dans la continuité de l’alimentation de sa plateforme, ISTEX compte de nouveaux chargements de corpus :
4 nouveaux corpus éditeur chargés : Lavoisier, Brepols e-books, Duke, ACS ;
4 anciens corpus éditeur mis à jour : Springer E-books, Nature, EEBO, Wiley.
Les documents du fonds ISTEX ont été enrichis afin de permettre le TDM.

Partenariats et collaborations
- https://www.inist.fr/realisations/atelier-pratique-istex-vers-la-fouille-de-texte/
- Cinq sessions ont eu lieu à Nancy, Bordeaux, Rennes, Villeurbanne et Toulouse, et ont réuni 46 stagiaires, parmi lesquels des professionnels de l’IST, des enseignants chercheurs et des doctorants.
- Animateurs : Sabine Barreaux, Camille de Salabert, Stéphanie Gregorio, Claude Niederlender, François Parmentier, Pascale Viot.

Actions de communication
- Présentation du format TEI utilisé dans ISTEX (schéma ODD-ISTEX, pub2TEI, enrichissements en TEI), ANF TEI, Stéphanie Gregorio et Valérie Bonvallot, 3 décembre, Paris.
- Se familiariser à la fouille de textes par l’exemple à travers l’exploitation des corpus Istex afin d’accompagner les chercheurs dans ce nouveau champ d’activité dont ISTEX sera certainement l’infrastructure incontournable, Journées TDM organisées par l’ENSSIB, Laurent Schmitt, Sabine Barreaux, Camille de Salabert, Pascal Cuxac, Nicolas Thouvenin, 25 et 26 septembre, Paris. https://www.inist.fr/nos-actualites/retour-sur-une-approche-concrete-du-tdm/
- Réalisation d’un projet d’étude autour du « Merveilleux scientifique » (exposition BnF) avec 19 étudiants en Master PBD (Politique des Bibliothèques et de la Documentation), TD ENSSIB, Anne-Marie Badolato et Stéphanie Gregorio, 20 novembre, Villeurbanne. https://www.inist.fr/nos-actualites/lodex-presente-aux-etudiants-de-lenssib/
- ISTEX: A database of twenty million scientific papers with a mining tool which uses named entities, Denis Maurel (université de Tours), Enza Morale, Nicolas Thouvenin, Patrice Ringot, Angel Turri. Information, 10 (5): 178.
- SKEEFT: indexing method taking into account the structure of the document, Pascal Cuxac, Nicolas Kieffer, Jean-Charles Lamirel (Loria), 20th Collnet meeting, 5-8 novembre, Dalian, China.