
ISTEX : Web de données
Le portail data.istex.fr vise à présenter et permettre un accès à l’archive ISTEX au travers :
- des référentiels documentaires ;
- de corpus scientifiques spécialisés ;
- d’une revue de sommaire (titre de revues)
Toutes les données sont consultables sur le site, mais également au travers d’un base de données sémantique (un triplestore) garantissant l’interopérabilité des données sur Internet.

Le fait marquant
- Après avoir extrait automatique les entités nommées géographiques dans les documents ISTEX, les équipes ISTEX ont cherché à aligner chaque lieux avec un référentiel géographie (GeogNames). Pour un certain nombre de lieux, l'alignement a nécessité une désambiguïsation.
- Suite à un travail de recherche et développement, une méthode automatique de désambiguïsation a été mise au point.
Nouveau service d’exposition des données ISTEX avec la mise à disposition des « dumps » (les fichiers RDF du triple store) sur un serveur web (https://public-dump.data.istex.fr)
Chargement des exports étendus dans le triple store, portant le nombre de triplets de 300 millions à presque 500 millions.
Référencement de l’ontologie ISTEX sur le site Linked Open Vocabularies.
La navigation dans le portail a été entièrement repensée pour permettre d’identifier facilement les différents types d’information mais également de naviguer entre chaque information simplement.
Le site data.istex.fr est maintenant consultable quel que soit le type d’écran (Interface responsible).

Partenariats et collaborations
- IRIS - IRIT : travail collaboratif lors d’un séminaire sur « Désambiguïsation et alignement d'entités géographiques dans les textes scientifiques ».
- Science Miner : détection et extraction des références citées dans le fonds ISTEX.

Actions de communication
- Des bases de données massives au Web de données : désambiguïsation et alignement d’entités géographiques dans les textes scientifiques, Pascal Cuxac, Alain Collignon, Stéphanie Gregorio et François Parmentier. In 12e Colloque international d’ISKO-France : Données et mégadonnées ouvertes en SHS : de nouveaux enjeux pour l’état et l’organisation des connaissances ? Montpellier.
- Feature selection and graph representation for an analysis of science fields evolution: an application to the digital library ISTEX. Lamirel J.C., Cuxac P. BIR 2019, 8th International Workshop on Bibliometric-enhanced Information Retrieval ; 41st European Conference on Information Retrieval, 14-18 april, Cologne, Germany.
- From massive databases to the Web of data: disambiguation and alignment of geographical entities in scientific texts. Pascal Cuxac, 20th Collnet meeting, 5-8 november, Dalian, China.
- LODEX : des données structurées au web sémantique, Stéphanie Gregorio, Alain Collignon, François Parmentier, Nicolas Thouvenin. Atelier Web des Données de la 19e Conférence sur l’Extraction et la Gestion des Connaissances (EGC 2019), janvier, Metz.
- Alignement automatique et désambiguïsation d’entités géographiques dans ISTEX, Pascal Cuxac, Journées d'études GIS-URFIST : De P2N à l'IST - analyses brevet, état des lieux et perspectives. IMSIC (Institut méditerranéen des sciences de l'information et de la communication), 4-5 juillet, Toulon.
- Désambiguïser les entités géographiques dans les publications de la base ISTEX, Pascal Cuxac, Journée d'étude « Données et protocoles dans les Humanités Numériques - Rechercher les lieux, les lieux de la recherche - Identification et indexation des terrains d'étude dans les textes scientifiques : enjeux et pratiques ». Laboratoire Géographie-cités, 18 juin Paris.
- Désambiguïser les entités géographiques dans les textes scientifiques, article publié sur le site web Inist