18 mai 2006
De Dublin Core vers TEF (XSLT)
TEF est un format d'échange. C'est le véhicule par lequel les établissements disposant d'un outil de gestion des thèses en local pourront échanger leurs métadonnées avec STAR. Cela implique pour ces outils de savoir exporter du TEF - mais pas de gérer TEF comme format interne, encore moins dans toutes sa richesse.
Dans la plupart des cas, exporter du TEF consistera à convertir les données du format XML géré par l'outil vers TEF, et ce au moyen d'une feuille de style de transformation XSLT. Même si d'autres outils émergent sur la scène universitaire française (Castore à Nantes, OGET à Lyon 2, ORI...), les outils les plus courants sont Eprints et DSpace. Sans surprise, ces outils s'appuient essentiellement sur le format Dublin Core.
C'est pourquoi nous publions aujourd'hui un exemple d'XSLT qui part d'un format Dublin Core étendu vers du TEF valide. Il ne peut s'agir d'un XSLT générique, qui marche à tous les coups, en toutes circonstances, et ce pour deux raisons au moins :
- Les formats de départ seront variés, parce qu'il existe de nombreuses manières différentes de rédiger des métadonnées DC et d'étendre ce coeur DC avec des éléments spécifiques aux thèses ;
- Il y a des situations diverses : un établissement peut ne gérer que du PDF ; un autre peut produire de l'XML, de l'HTML et du PDF (plusieurs éditions) et diffuser des thèses amputées des illustrations qui posent des difficultés de droit d'auteur (différentes versions). Selon le cas, le programme de conversion pourra varier.
L'XSLT que nous publions à titre d'exemple part d'une situation simple et largement majoritaire : une thèse complète en PDF (une version, une édition, un fichier). Voici une instance de départ, en DC étendu. Voici l'instance d'arrivée, du TEF valide.
Dans le cadre du déploiement de STAR, nous (l'ABES) collaborons avec certains des établissements qui possèdent un outil de gestion des thèses. Nous rendrons publics les XSLT opérationnels issus de cette collaboration, ce qui pourra rendre service à d'autres. Nous commencerons sans doute par Eprints (avec INP Toulouse) et OGET (avec Lyon 2).
Si vous utilisez un autre outil et que vous souhaitez collaborer, contactez star@abes.fr.
Deux outils qui intègrent TEF
On m'a récemment informé de deux outils qui intègrent TEF :
1. ORI : un "outil de référencement et d’indexation des ressources numériques", en cours de développement. Contrairement à des outils comme DSpace qui ne gèrent que du DC, ORI sera capable de faire cohabiter plusieurs schémas de métadonnées (DC, TEF LOM...). Il se présente comme une brique au sein d'un environnement numérique de travail (ENT).
Je crois que Rosa Maria pourra nous en dire plus... ;-)
Pour entendre parler d'ORI, venez ici.
2. Weblide. C'est un validateur XML. Au côté de bien des langages XML vénérables, comme DC, XHTML, DocBook ou METS, Weblide valide désormais les instances TEF (W3C XML Schema + Schematron).
Merci à Alexandre Alapetite pour ces développements et pour son mail.
29 avril 2006
La solitude du thésard au moment ... de choisir des mots-clés
Si vous errez sur un campus plus ou moins verdoyant, vous y trouverez différents types de chemins. D'un côté, les chemins officiels, tracés à dessein, votés en CA, pavés ou goudronnés. De l'autre, les chemins officieux, coupant allègrement à travers les plate-bandes. Leur contour est net et leur surface pelée, comme à dessein. Pourtant, personne n'a voulu ces chemins alternatifs - pas même un syndicat minoritaire au CA, agissant nuitamment. Ces chemins officieux émergent spontanément, par l'action convergente mais non planifiée de milliers de petits pas.
Que vous empruntiez l'un ou l'autre chemin, vous finirez bien par trouver une bibliothèque. Vous pourrez y interroger le catalogue, à la recherche des thèses portant sur un sujet donné. Le contenu des thèses est décrit par des mots (ou des expressions) : soit des mots tirés d'un vocabulaire contrôlé (type Rameau), soit des mots-clés, librement choisis par l'auteur lui-même. D'un côté, un vocabulaire artificiel, contraignant, réputé rationnel ; de l'autre un vocabulaire libre, voire anarchique, ce qui rend difficile de regrouper des thèses sous une même étiquette.
Peut-on parler d'un vocabulaire officiel et d'un vocabulaire officieux ? La comparaison vaut-elle entre les chemins et les vocabulaires ? Non. Le thésard devant son formulaire est ... seul. A la différence des étudiants qui se suivent et se coordonnent dans les allées du campus, faisant ainsi émerger des itinéraires réguliers qui se matérialisent en chemins de terre tassés et pelés, le thésard ne peut s'appuyer sur les mots-clés des autres. Pas de chemin, ni officiel ni officieux, juste un gazon uniformément piétiné. Chaque thésard pond ses mots-clés dans son coin, ce qui rend impossible l'émergence d'un vocabulaire stable, ne serait-ce qu'au sein d'une discipline.
Ces temps-ci, on appelle folksonomie ce genre de vocabulaire "officieux", émergeant spontanément des interactions entre les "gens". En général, c'est gens, ce sont les lecteurs, ceux qui organisent leurs signets (del.icio.us), les articles scientifiques qu'ils lisent (Connotea) ou les chansons qu'ils écoutent (Last.fm). Mais ces gens pourraient aussi bien être les auteurs (comme dans Flickr), en l'occurrence les auteurs de thèse.
Au lieu de les laisser seuls devant la page blanche des métadonnées, on leur soumettrait un nuage de mots-clés déjà utilisés dans un contexte analogue, tout en leur permettant de taper un mot-clé inédit, si le nuage ne suffit pas. Il reste à cerner la nature de ce "contexte analogue" : thèses de la même discipline ? travaux cités en bibliographie (eux-mêmes tagués via Connotea... en principe) ? Il faudrait tester.
Quelques remarques en vrac :
- Il faudrait analyser les mots-clés de toutes les thèses référencées dans le Sudoc, en mesurer la distribution (par discipline ?), comparer les mots-clés des thèses qui ont la même indexation Rameau, dessiner de bons gros nuages....
- On aurait un point de départ pour offrir ce service de mots-clés assistés, service qui s'améliorerait à mesure qu'on l'utiliserait - il faudrait que j'en parle à l'équipe de l'ABES qui travaille sur STAR ;-).
- Une fois de plus, on manque d'un vocabulaire contrôlé pour désigner les disciplines.
- Quand on décrit une thèse avec un terme issu d'un vocabulaire contrôlé, que ce soit en Dublin Core, en MARC ou en TEF, on mentionne le terme et le vocabulaire d'origine. Qu'en est-il pour un mot-clé issu d'une folksonomie ? Ce qui a un sens, est-ce le mot "apple" ou le couple apple-Flickr ou apple-Connotea ? On retrouve la question du contexte, question qui ne se pose pas pour les mots-clés du thésard solitaire.