14 décembre 2007
Open Archives Initiative Object Reuse and Exchange (OAI-ORE)
OAI-ORE est la nouvelle initiative des créateurs d'OAI-PMH - je vous laisse tirer les conclusions de cet emploi éhonté de l'argument d'autorité.
Ce n'est pas ce soir que je rentrerai dans le détail de ce projet conceptuel et normatif complexe. L'important est de comprendre qu'il cherche à décrire de manière universelle les documents complexes que nous manipulons tous les jours sur le Web. Ils sont complexes au sens intellectuel et au sens technique : ce ne sont pas des atomes, des blocs, des monolithes. Une thèse (par exemple) est complexe car :
- elle est un tout, dont les parties ont un sens indépendamment de ce tout (un résumé, des images, des tableaux, un document en annexe, une bibliographie... et une page de titre bourrée de métadonnées) ;
- elle est une constellation de variantes : les versions avant soutenance, la version de soutenance, la version corrigée, la version publiée... voire le chapelet d'articles par lesquels la thèse se recycle.
OAI-ORE entend donner les moyens conceptuels et techniques grâce auxquels ces documents complexes et leurs composantes pourront être interrogés finement, parcourus, conservés à long terme, analysés d'un point de vue bibliométrique et réutilisés (j'emprunte cette liste à la page d'introduction du projet).
OAI-ORE se positionne à mi-chemin entre deux efforts analogues :
- entre RDF qui a la même ambition mais au-delà du seul domaine documentaire (RDF parle des documents, entre autres "choses" : des personnes, des concepts, des organisations, des vagues ... d'émotion ou de tsunami. Pour RDF, le Web, ce n'est pas que des documents !)
- et des projets particuliers dans le domaine documentaire qui, pour un besoin défini, cherche à brosser le portrait d'une classe de documents complexes. Typiquement, ces projets se traduisent en "profils METS" ; TEF en est un.
Les documents proposés à vos commentaires sont de premières moutures (Alpha). Les commentaires seront lisibles (ou à poster) ici.
04 juillet 2007
TEF en RDF - premier essai
Je soumets à la cantonade un premier essai pour exprimer les métadonnées TEF en RDF.
Cet essai, c'est un texte de 28 pages, qui essaye d'avancer pas à pas dans la transition de TEF vers RDF. De ce fait, il ne présuppose pas d'acquis en RDF (en principe...vous me direz...).
Il s'agit vraiment d'un document de travail, qui n'a rien d'achevé, ni de systématique, ni de normatif. En le publiant, j'espère à la fois amener certains lecteurs novices en RDF à s'y intéresser et les connaisseurs à nous apporter leurs lumières, corriger les erreurs de forme et de fond.
TEF en RDF - premier essai (.pdf)
Résumé :
TEF est un vocabulaire pour les thèses électroniques françaises.
C'est une recommandation AFNOR dont le but est de faciliter les
échanges de métadonnées de thèses entre les établissements habilités français.
Les métadonnées TEF sont encodées en XML (METS).
Ce texte est une première tentative pour exprimer TEF dans le langage RDF. TEF en RDF
permettra de mieux refléter le modèle conceptuel de TEF, appuyé sur les FRBR, et d'expliciter
les relations entre TEF et d'autres vocabulaires (Dublin Core, FOAF…). Les métadonnées de
thèse seront alors plus faciles à diffuser, à réutiliser et à agréger à d'autres métadonnées (dans le
cadre local d'un système d'information ou à l'échelle du Web).
Cet essai n'engage pas le groupe AFNOR, auteur de TEF.
Existe aussi sous forme décorative :
Vous pouvez laisser les commentaires ici, m'écrire ou visiter http://www.scribd.com/doc/156199/TEF-en-RDF-premier-essai.
06 mars 2007
Diapos de la SDBIS sur les thèses et le droit
La présentation de Rachel Creppy (SDBIS) sur les contraintes juridiques variées auxquelles sont soumises les thèses électroniques est désormais en ligne.
J'y faisais allusion dans mon post précédent.
25 février 2007
Métadonnées de droit : l'impact de la DADVSI
Ces jours-ci, à l'ABES, nous organisons des séances de formation à STAR. Suite au lancement de STAR, en octobre, nous avons vu remonter des premiers utilisateurs des besoins de formation, qui portaient autant sur le circuit administratif de gestion des thèses ou sur les questions juridiques que sur l'outil proprement dit. Rachel Creppy, de la sous-direction des bibliothèques, a présenté une synthèse très préci(eu)se sur les multiples contraintes juridiques qui pèsent sur les thèses.
La DADVSI et les accords sectoriels
Rachel a notamment commenté les accords sectoriels sur l'utilisation des oeuvres protégées à des fins d'enseignement et de recherche, qui viennent de paraître au BOEN. Vous vous souvenez que la DADVSI prévoit à compter du 1er janvier 2009 des exceptions au droit d'auteur "à des fins exclusives d'illustration dans le cadre de l'enseignement et de la recherche". D'ici là, s'appliquent les accords signés en 2006 par les Ministères de l'Education et de la Culture aves des sociétés de gestion collective. Je vous laisse découvrir la teneur de ces accords, c'est-à-dire la litanie des conditions restrictives qui encadrent ces exceptions - les exceptions aux exceptions semblent la règle... Remarquez bien que 2007 et 2008 sont des années de transition pendant lesquelles doivent remonter "les difficultés d’application qui pourront être rencontrées", avant le vote d'une nouvelle loi.
Le CFC et les métadonnées
Ces exceptions ont pour contrepartie la perception d'une somme forfaitaire de quatre millions d'euros, qui sera répartie aux ayants droit. Qui précisément ? Pour le savoir, "la reproduction numérique d’une œuvre doit
faire l’objet d’une déclaration pour permettre d’identifier les œuvres
ainsi reproduites. Cette déclaration consiste à compléter le formulaire
mis en ligne à l’adresse suivante : http://www. cfcopies.com/declaration-enseignement". Si j'en crois ce formulaire, les métadonnées recueillies seront :
- le titre
- l'auteur
- l'éditeur
- le nombre de pages réutilisées
- le public
- des informations sur l'enseignant et son établissement
Les métadonnées demandées montrent que ce formulaire vise le prof qui alimente son cours, et non le thésard qui incorpore dans sa thèse des extraits de "ressources externes" comme dit TEF. J'imagine qu'un autre formulaire suivra. Bon. Faisons comme si.
Première conclusion : le recueil d'informations sur les ressources externes se fera par une procédure spéciale, et non au cours du circuit de gestion de la thèse qui lui-même recueille, agrège et recycle des métadonnées de toutes sortes, que TEF conditionne sous une enveloppe XML. Cela signifie que les métadonnées portant sur les ressources externes n'auront pas à être encodées par TEF. C'est une bonne nouvelle pour ceux qui craignaient de devoir le faire dans les formulaires de STAR. Ce n'est pas le genre d'informations qu'un agent de la scolarité ou de la bibliothèque devrait avoir à gérer, encore moins à saisir.
Par contre, le thésard devra le gérer. Monsieur Jourdain des métadonnées, il devra saisir des informations sur des oeuvres, qui entreront dans un cycle de traitement du côté du CFC. Alors quelle est la forme d'organisation qui permet de retirer le maximum de bénéfices de cet effort du thésard ? L'organisation qui se profile me paraît assez inefficace :
- Si j'ai bien compris les explications de Rachel, le document lui-même devra comprendre la liste des ressources externes. Le thésard devra donc faire un double travail.
- Le CFC saura qui utilise quoi, mais pas dans quel contexte. Autrement dit, le formulaire du CFC ne veut pas savoir que c'est dans une nouvelle oeuvre précise (la thèse) que les extraits ont été réutilisés. Cette information n'a pas d'intérêt pour les ayants droit, mais c'est pourtant une information intéressante d'un point de vue scientifique, bibliométrique, voire pratique ...
Le problème est donc que le dispositif juridique oblige la collecte de métadonnées qui s'évaporent ensuite dans la nature - ou plus précisément, qui finissent cloîtrées au CFC, et encore sous une forme dégradée puisqu'y manque la référence à la thèse.
Faut pas gâcher
Une meilleure organisation donnerait peut-être cette séquence :
- L'auteur liste dans sa thèse les oeuvres auxquelles il emprunte des extraits. Idéalement de manière structurée (XML), mais par les temps qui courent, plus probablement en texte brut (PDF).
- Il copie en bloc cette liste de références dans le formulaire du CFC qui fera les traitements nécessaires pour l'interpréter.
- Quelqu'un copie en bloc cette liste dans STAR, qui fera les traitements nécessaires pour l'interpréter. Ou bien , quelqu'un copie cette liste dans une application locale de gestion des thèses, qui l'exporte ensuite dans STAR au sein de notices TEF.
- En sortie de STAR, l'ABES publie sur le web l'ensemble des métadonnées de thèse, y compris la mention des oeuvres qui sont réutilisées par une thèse. Naturellement, tout cela en RDF - c'est-à-dire du Dublin Core plus quelques éléments TEF, comme on le verra bientôt. Il y aura bien quelqu'un pour tirer quelque chose de ces données....
Morale
Les métadonnées des thèses nous rappellent une fois encore que l'enjeu est autant leur recyclage infini que leur création initiale. On dit souvent qu'un Web sémantique, c'est-à-dire dopé aux métadonnées, est improbable en raison de leur coût. C'est souvent vrai. Mais ce que montre les thèses, c'est que les métadonnées existent déjà, pour des raisons administratives (délivrance d'un diplôme) ou pour des raisons juridiques (accords sectoriels). Le devoir du bibliothécaire-chiffonnier est de les capter, de les évaluer, éventuellement de les corriger ou de les compléter, de les reconditionner et de les partager. Le bibliothécaire peut lui-même en faire des usages intéressants, mais partagées ouvertement sur le web, elles pourront s'agréger à d'autres métadonnées complémentaires et rencontrer d'autres recycleurs qui leur apprendront de nouvelles grimaces.
30 novembre 2006
DissOnline Portal – Portail pour les thèses en ligne en Allemagne
Cet article reprend quelques informations d'une présentation par Natascha Schumann (projet dissonline) http://www.dl-forum.de/dateien/07_schuhmann_dissonline.pdf
Il s'agit d'un projet subventionné par la DFG pour les années 2005-2008
Les objectifs :
- Réunir en un seul lieu les thèses électroniques allemandes, les thèses rédigées en allemand ou portant sur l’Allemagne
- Accès unique pour la recherche : homogénéisation de la recherche ; élargissement de la recherche dans les métadonnées ; ajout de la recherche en texte intégral
- Intégration des thèses publiées par des éditeurs commerciaux avec contrôle des droits d’accès
- Intégration future dans des portails thématiques et autres dispositifs (Vascoda)
Coopération : les bibliothèques universitaires germanophones, les éditeurs, DART-Europe, NDLTD, …
*-*-*-*-*-*-*
Statistiques sur les thèses électroniques en Allemagne :
Le document cité comprend sur les pages 15-18 des statistiques en date de décembre 2005 (probablement basés sur les statistiques du catalogue de la Bibliothèque nationale allemande). Et voici les légendes en français :
Page 15 : répartition des thèses et thèses d’habilitation par année de publication
Page 16 : nombre total des thèses électroniques (= déposés à la bibliothèque nationale allemande) (40.000 au 31/12/05, 43.600 au 2/5/06)
Page 17 : accès au texte intégral du 1/7 au 31/12/2005 : accès au texte intégral en rouge, accès à la notice en bleu
Page 18 : comparaison des accès au texte intégral 2004/2005 (facteur Google)
*-*-*-*-*-*-*
N.B. (1) La DINI vient de rajouter un autre set pour l’OAI : statut du document (cf. page 8)
N.B. (2) Un deuxième volet de la présentation, non mentionné ici, concerne un tutoriel pour les auteurs
29 novembre 2006
Eprints, Dublin Core et FRBR (2)
Ce nouveau projet du JISC a fait recemment l'objet de plusieurs présentations. La dernière en date du 26 octobre 2006 à l'occasion du JISC Repositories and
Preservation Programme Meeting October 2006 à Londres.
Cette présentation est bien entendu en anglais, mais elle contient de nombreux schéma autour des FRBR.
Elle présente de façon graphique les "parties" des FRBR avec les champs Dublin Core associés.
A suivre ...
05 juillet 2006
Eprints, Dublin Core et FRBR
Un nouveau jeu de métadonnées pour les entrepôts d'archives institutionnelles Eprints est en cours de conception, sous l'égide britannique du JISC.
Cela intéresse TEF au plus haut point pour les raisons suivantes :
. Il sera basé sur le Dublin Core (forcément).
. Ils ont ressenti le besoin de passer par une modélisation FRBR, comme nous pour TEF.
. Des établissements français gèrent les thèses avec Eprints et exporteront du TEF vers STAR. Cette collaboration est assez avancée entre l'INP Toulouse et l'ABES, par exemple, ce qui servira aux autres (on publiera bien sûr les XSLT de conversion). Le nouveau jeu de métadonnées Eprints devrait être plus proche de TEF que l'ancien.
A suivre de près, et ce d'autant plus qu'Andy Powell (ex-UKOLN) est l'auteur des documents cités ci-dessus et surtout l'une des têtes pensantes du DCMI. ET précisément, le Dublin Core change. Suite à la modélisation du Dublin Core parue en 2005, les encodages XML et RDF du DC sont dans une phase de révision drastique. On en parle peu, mais c'est loin d'être anodin, sur la forme (Attention nouveaux formats !) et sur le fond (c'est le modèle conceptuel qui fait la loi - la syntaxe doit suivre - objectif Web sémantique ).
23 juin 2006
ETD 2006 - présentations TEF
Voici enfin les diapos et le texte de ma présentation sur TEF.
ps : compte-rendu du colloque sur le site ARTIST, par Jacques Ducloy.
TEL - Thèses électroniques à Leyde (NL)
Un petit regard au-delà de nos frontières
L'université de Leyde (Leiden) aux Pays Bas vient de changer sa réglementation concernant les thèses en faveur des thèses électroniques.
Depuis le 1er janvier 2006 chaque thèse à soutenir doit être déposée sous forme électronique en vue de son intégration dans l'archive institutionnelle de l'université.
Un texte en langue anglaise décrivant le dispositif plus en détail est disponible à l'adresse suivante :
http://oal.leidenuniv.nl/index.php3?m=1&c=134
Voici quelques points intéresssants (je vous laisse le plaisir d'en découvrir d'autres ....) :
- Le fomulaire VI présente la license de cession non-exclusive des droits de diffusion mondiale à travers l'archive institutionnelle à l'université. Elle prévoit, entre autres, la déclaration d'"embargo" sur des parties publiés en tant qu'article. L'université prévoit de verser des indemnités en cas de conflit avec l'éditeur commercial.
- Toujours concernant les articles : on demande au thésard dans le formulaire V sur les métadonnées de fournir le DOI pour chaque article publié dans le contexte de la thèse.
- Une carotte pour inciter au dépôt : le thésard n'est plus obligé de fournir 40-50 exemplaires papier de sa thèse destinés autrefois à l'échange entre bibliothèques.
14 juin 2006
ETD 2006 - post 3
De retour en France, je complète les quelques notes que j'ai réussi à mettre en ligne depuis Québec.
De la table ronde de vendredi après-midi, consacrée à la propriété intellectuelle, je signale seulement ce constat effectué par Eva Müller d'Uppsala : au départ réticents, les enseignants-chercheurs se sont mis à demander toujours plus de documents en ligne au moment même où ils ont vu à l'oeuvre des logiciels de détection de plagiat.
Je suis curieux de voir quels seront les effets collatéraux de la mise en ligne massive des thèses. Parmi les effets prévisibles, à mon sens, la réticence des jurys à autoriser la diffusion sur le Web de certaines thèses qui, aujourd'hui, mènent une vie discrète sous une forme papier. Au grand jour, c'est-à-dire sur le Web, certains travers deviendront rédhibitoires (indigence intellectuelle, plagiat, usage abusif d'oeuvres extérieures).
Le lendemain, j'ai admiré le dispositif néerlandais sur les thèses, subtil équilibre d'initiative locale et de consolidation nationale, de vision globale et d'opérations ciblées. La valorisation des thèses est inscrite dans un programme plus large qui vise à faciliter l'accès aux travaux de recherche, DARE. Avec le projet Cream of Science, DARE a ciblé les 207 chercheurs les plus prestigieux du pays (bibliographie exhaustive, 60% des publications en Open Access). Avec le nouveau projet Promise of Science, DARE cible les jeunes chercheurs, à travers leur thèse. L'idée est d'inciter les universités à diffuser les thèses en ligne, d'atteindre 10 000 thèse fin 2006 et un taux de diffusion en ligne de 90 % en 2007. Le plus beau, c'est qu'ils ont 6 mois d'avance sur leur premier objectif... Au niveau national, le dispositif prévoit la conservation à long terme, la gestion des autorités ou encore un site Web de recherche et d'accès.
A côté de cet objectif de massification, ils mènent des actions encore plus ciblées, pour expérimenter des innovations prometteuses (RSS, annotations, liens des thèses à leurs matière première, données brutes, statistiques, objets multmedia, simulations...), qui cherchent à replacer les thèses dans le contexte de la science et la science dans le contexte du Web.
Jean-Claude Guédon a refermé la parenthèse ETD 2006, avec un mélange de simplicité et d'énergie qui a séduit toute l'assistance.
Il ne s'est pas contenté de marteler le crédo Open Access. Voici ses suggestions.
- Dans un dépôt institutionnel, il faut rendre visible la distinction entre les ressources évaluées par les pairs (peer reviewed) et les autres. Pour lui, les thèses font partie des premières, et encore davantage que certains articles publiés par des revues.
- Il faut valoriser les bonnes thèses, genre Guide Michelin.
- Les dépôts doivent devenir des marques reconnaissables (branding) comme le sont les revues ou les universités.
- Les thèses contiennent souvent un chapitre qui passe en revue l'état de l'art du sujet traité, chapitre qui devrait être valorisé comme un "outil navigationnel" très précieux à travers les références liées au sujet. De plus, cet outil est actualisé en permanence par le flux continu des thèses qui se soutiennent chaque année.
- L'ensemble des thèses forme un océan d'information qui contient des îlots de connaissance dispersée. En réunissant les forces de l'Open Access et du Web sémantique, il y a un espoir de faire émerger cette connaissance et de la rendre réutilisable. Allusion au mouvement Science Commons, et en particulier, je devine, à NeuroCommons.
- Plus les thèses seront librement accessibles, plus elles seront citées - au risque de rendre jaloux le directeur de thèse qui publie dans des revues fermées.
- L'Open Access est l'occasion d'imaginer de nouvelles formes d'évaluation par les pairs (usages, commentaires...).
Pour Guédon, les thèses sont un excellent terrain d'expérimentation pour promouvoir l'Open Access et en tirer toutes les conséquences - ce qui demande de l'imagination.
09 juin 2006
ETD 2006 - post 2
Ce matin, panel sur les métadonnees. No auto-comment, sauf pour dire que cela s'est bien passé et que des contacts sont établis.
Je sors d'une séance consacrée aux outils de gestion de documents Cyberdocs (France), Castore (France) et Archimede (Canada). Trois outils proches les uns des autres. Consensus heureux : tout le monde est d'accord pour dire que ce pluralisme est sain, que chaque outil a ses spécificités et sa légitimité, mais aussi qu'il faut collaborer voire partager des modules. Scoop : ils se rencontrent samedi pour engager le dialogue.
En vrac sur chacun des projets :
Cyberdocs - On voit que l'outil est au coeur d'un vrai réseau international, où l'Amerique du Sud ferait presque figure de nouvelle avant-garde. Le Pérou, notamment, a apporté des améliorations notables à l'interface de consultation (compte utilisateur, export des références bibliographiques, création d'un forum autour d'une thèse).
Castore - la souplesse comme gros point fort : tolérance de plusieurs feuilles de styles pour convertir le document en XML (voire aucune), choix entre plusieurs licences de diffusion, pluralité des formats de métadonnées...
Archimede - version 2.0 lancée aujourd'hui. Gestion de tous les schémas de métadonnées qu'on souhaite. Gestion astucieuse des versions de documents (on ne réplique que ce qui a été modifié). Possibilité d'empêcher la diffusion d'une partie d'un document (par exemple, le chapitre d'une thèse, déjà diffusé comme article).
Apparemment, ces trois outils gèrent peu ou pas les processus de validation, révision. Ils gèrent des documents, mais pas vraiment des workflows.
La pause se termine, j'y retourne (il est 15.30).
08 juin 2006
ETD 2006 - post 1
Pas si evident de trouver un coin tranquille pour rendre compte de la premiere journee du colloque ETD sur les theses numeriques. L'edition 2006, a Quebec, est placee sous le signe de l'Open Access et c'est Peter Suber, l'un des grands evangelistes de l'acces ouvert, qui a ouvert le ban. Une intervention limpide : a la fois une analyse rigoureuse des specificites de la these et un argumentaire muscle pour convaincre les auteurs ou les institutionnels reticents. Suber a insiste sur le fait que les programmes d'ETD font depuis longtemps de l'Open Access sans le savoir, ce qui constitue un tremplin pour promouvoir le libre acces aux autres types de ressources produites par les universites.
A noter aussi deux interventions de l'universite d'Uppsala. L'une sur leur workflow des theses. L'autre intervention ("Added values to e-theses" co-signee par un chercheur de John Hopkins) a pris du recul et souligne la necessite de penser au-dela du seul contenu textuel, en integrant les donnees scientifiques brutes ou le multimedia. En changeant de contenu, on change aussi d'echelle, car la logique purement locale des depots institutionnels devient trop etroite. Il faut relier les theses avec d'autres types de ressources, en un sens large, ou qu'elles soient.
Ce dernier point interesse TEF, sous l'angle des metadonnees. J'en parlerai demain matin... Je cours fignoler mes diapos.
ps : desole pour les accents et la rarete des hyperliens.
ps : Quebec, c'est aussi l'occasion de rencontrer l'ABES (Non !), Cyberdocs, Castore, Artist-INIST-CNRS, l'ADBU. Peu depaysant mais sympa et utile...
18 mai 2006
De Dublin Core vers TEF (XSLT)
TEF est un format d'échange. C'est le véhicule par lequel les établissements disposant d'un outil de gestion des thèses en local pourront échanger leurs métadonnées avec STAR. Cela implique pour ces outils de savoir exporter du TEF - mais pas de gérer TEF comme format interne, encore moins dans toutes sa richesse.
Dans la plupart des cas, exporter du TEF consistera à convertir les données du format XML géré par l'outil vers TEF, et ce au moyen d'une feuille de style de transformation XSLT. Même si d'autres outils émergent sur la scène universitaire française (Castore à Nantes, OGET à Lyon 2, ORI...), les outils les plus courants sont Eprints et DSpace. Sans surprise, ces outils s'appuient essentiellement sur le format Dublin Core.
C'est pourquoi nous publions aujourd'hui un exemple d'XSLT qui part d'un format Dublin Core étendu vers du TEF valide. Il ne peut s'agir d'un XSLT générique, qui marche à tous les coups, en toutes circonstances, et ce pour deux raisons au moins :
- Les formats de départ seront variés, parce qu'il existe de nombreuses manières différentes de rédiger des métadonnées DC et d'étendre ce coeur DC avec des éléments spécifiques aux thèses ;
- Il y a des situations diverses : un établissement peut ne gérer que du PDF ; un autre peut produire de l'XML, de l'HTML et du PDF (plusieurs éditions) et diffuser des thèses amputées des illustrations qui posent des difficultés de droit d'auteur (différentes versions). Selon le cas, le programme de conversion pourra varier.
L'XSLT que nous publions à titre d'exemple part d'une situation simple et largement majoritaire : une thèse complète en PDF (une version, une édition, un fichier). Voici une instance de départ, en DC étendu. Voici l'instance d'arrivée, du TEF valide.
Dans le cadre du déploiement de STAR, nous (l'ABES) collaborons avec certains des établissements qui possèdent un outil de gestion des thèses. Nous rendrons publics les XSLT opérationnels issus de cette collaboration, ce qui pourra rendre service à d'autres. Nous commencerons sans doute par Eprints (avec INP Toulouse) et OGET (avec Lyon 2).
Si vous utilisez un autre outil et que vous souhaitez collaborer, contactez star@abes.fr.
Deux outils qui intègrent TEF
On m'a récemment informé de deux outils qui intègrent TEF :
1. ORI : un "outil de référencement et d’indexation des ressources numériques", en cours de développement. Contrairement à des outils comme DSpace qui ne gèrent que du DC, ORI sera capable de faire cohabiter plusieurs schémas de métadonnées (DC, TEF LOM...). Il se présente comme une brique au sein d'un environnement numérique de travail (ENT).
Je crois que Rosa Maria pourra nous en dire plus... ;-)
Pour entendre parler d'ORI, venez ici.
2. Weblide. C'est un validateur XML. Au côté de bien des langages XML vénérables, comme DC, XHTML, DocBook ou METS, Weblide valide désormais les instances TEF (W3C XML Schema + Schematron).
Merci à Alexandre Alapetite pour ces développements et pour son mail.
29 avril 2006
La solitude du thésard au moment ... de choisir des mots-clés
Si vous errez sur un campus plus ou moins verdoyant, vous y trouverez différents types de chemins. D'un côté, les chemins officiels, tracés à dessein, votés en CA, pavés ou goudronnés. De l'autre, les chemins officieux, coupant allègrement à travers les plate-bandes. Leur contour est net et leur surface pelée, comme à dessein. Pourtant, personne n'a voulu ces chemins alternatifs - pas même un syndicat minoritaire au CA, agissant nuitamment. Ces chemins officieux émergent spontanément, par l'action convergente mais non planifiée de milliers de petits pas.
Que vous empruntiez l'un ou l'autre chemin, vous finirez bien par trouver une bibliothèque. Vous pourrez y interroger le catalogue, à la recherche des thèses portant sur un sujet donné. Le contenu des thèses est décrit par des mots (ou des expressions) : soit des mots tirés d'un vocabulaire contrôlé (type Rameau), soit des mots-clés, librement choisis par l'auteur lui-même. D'un côté, un vocabulaire artificiel, contraignant, réputé rationnel ; de l'autre un vocabulaire libre, voire anarchique, ce qui rend difficile de regrouper des thèses sous une même étiquette.
Peut-on parler d'un vocabulaire officiel et d'un vocabulaire officieux ? La comparaison vaut-elle entre les chemins et les vocabulaires ? Non. Le thésard devant son formulaire est ... seul. A la différence des étudiants qui se suivent et se coordonnent dans les allées du campus, faisant ainsi émerger des itinéraires réguliers qui se matérialisent en chemins de terre tassés et pelés, le thésard ne peut s'appuyer sur les mots-clés des autres. Pas de chemin, ni officiel ni officieux, juste un gazon uniformément piétiné. Chaque thésard pond ses mots-clés dans son coin, ce qui rend impossible l'émergence d'un vocabulaire stable, ne serait-ce qu'au sein d'une discipline.
Ces temps-ci, on appelle folksonomie ce genre de vocabulaire "officieux", émergeant spontanément des interactions entre les "gens". En général, c'est gens, ce sont les lecteurs, ceux qui organisent leurs signets (del.icio.us), les articles scientifiques qu'ils lisent (Connotea) ou les chansons qu'ils écoutent (Last.fm). Mais ces gens pourraient aussi bien être les auteurs (comme dans Flickr), en l'occurrence les auteurs de thèse.
Au lieu de les laisser seuls devant la page blanche des métadonnées, on leur soumettrait un nuage de mots-clés déjà utilisés dans un contexte analogue, tout en leur permettant de taper un mot-clé inédit, si le nuage ne suffit pas. Il reste à cerner la nature de ce "contexte analogue" : thèses de la même discipline ? travaux cités en bibliographie (eux-mêmes tagués via Connotea... en principe) ? Il faudrait tester.
Quelques remarques en vrac :
- Il faudrait analyser les mots-clés de toutes les thèses référencées dans le Sudoc, en mesurer la distribution (par discipline ?), comparer les mots-clés des thèses qui ont la même indexation Rameau, dessiner de bons gros nuages....
- On aurait un point de départ pour offrir ce service de mots-clés assistés, service qui s'améliorerait à mesure qu'on l'utiliserait - il faudrait que j'en parle à l'équipe de l'ABES qui travaille sur STAR ;-).
- Une fois de plus, on manque d'un vocabulaire contrôlé pour désigner les disciplines.
- Quand on décrit une thèse avec un terme issu d'un vocabulaire contrôlé, que ce soit en Dublin Core, en MARC ou en TEF, on mentionne le terme et le vocabulaire d'origine. Qu'en est-il pour un mot-clé issu d'une folksonomie ? Ce qui a un sens, est-ce le mot "apple" ou le couple apple-Flickr ou apple-Connotea ? On retrouve la question du contexte, question qui ne se pose pas pour les mots-clés du thésard solitaire.


