WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Le projet Ifremmont ( Institut de Formation et de Recherche en Médecine de Montagne ): création d'une base de données et d'un Centre de ressources international en médecine de montagne

( Télécharger le fichier original )
par Michèle Lenglos
Université Paul Valéry Montpellier 3 - Master professionnel en information et communication 2008
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3.1.7. Fusion des données

Afin de fusionner les données en une seule base, il était préférable de trouver un langage commun. Pour passer du langage End Notes (xml) à celui d'Alexandrie, le fichier a été traité au format txt auquel les balises 4D ont été ajoutées. Le thésaurus MeSH 2006 au format txt a été parsé 61 pour récupérer le contenu des balises afin de l'intégrer au logiciel Alexandrie codé en balises 4D et ASCII. Ce travail a été réalisé par la Société GB Concept. Cependant pour réactualiser le thésaurus il est indispensable de passer à nouveau par un script, ce qui ne sera pas réalisable, compte tenu du coût. Cela est regrettable compte tenu de l'évolution de la science et des nouveaux termes introduits chaque année. Pour le bon fonctionnement de la base tous les slashs des intitulés ont été supprimés. Il est évident qu'un travail en amont d'harmonisation des bases aurait grandement facilité la correspondance entre les tables et évité bien des doublons.

3.1.7.1. Mise à jour de la base Docmmont et doublons

La mise à jour de la base de données Docmmont est réalisée par des imports-exports. Ainsi tous les premiers lundi du mois un export manuel sera réalisé par le Cerna sur le serveur (dossier zip contenant un fichier au format txt). Les imports automatiques dans la base Docmmont (poste du DMTM) ont lieu chaque soir dans le type de documents « Interbase » servant à l'échange de données et les pièces jointes seront dans un dossier temporaire (AL Temp\echange\out\). Chaque nouveau fichier de données importé supprime l'ancien. Il est donc impératif de vérifier les imports régulièrement au risque de perdre les notices envoyées ultérieurement. Cependant certains champs ne sont pas exportés-importés comme les liens récursifs (Contient/ contenu dans et Voir aussi), les champs Cerna (références Cerna) et le niveau d'autorisation (code intégré par script qui empêche la publication sur le web avant sa validation par le documentaliste).

Un champ N° auteur (table Auteur) et N° référence (Table référence) a été créé pour éviter les doublons dans la base. La table de référence étant la base Docmmont, en présence d'un doublon, la notice Docmmont sera choisie. Il faut tout de même vérifier les champs des notices afin de conserver la plus complète ainsi que celle mise à jour.

Cependant, lors de la fusion des données de nombreux doublons se sont révélés rendant les résultats de recherche dans la base, aléatoires (plus de 30 doublons pour un même auteur). De

61 Parsé ; anglicisme vient de «to parse » qui décrit le travail réalisé par un analyseur syntaxique (récupération des informations contenues dans les balises d'un document XML).

52

même que les mots clés en anglais n'ont pas été traduits en français ni remplacés par ceux du thésaurus MeSH. Il est à préciser qu'une notice modifiée est considérée comme nouvelle. Ce qui pose le problème suivant ; la notice est validée par Docmmont et contient de nouvelles données, elle peut donc être effacée par une autre mise à jour. Il convient alors de bien vérifier le contenu des champs de cette notice avant de valider à nouveau.

Cependant pour l'envoi de notices de l'Arpe le système est différent. L'envoi du fichier peut se faire sur le serveur mais lors de sa réception, il faut valider les champs souhaités et ensuite intégrer les notices dans la base. Certes l'idéal aurait été d'harmoniser les champs des bases. Alexandrie en version monoposte ne permet pas le changement de champs simultanés envers la bases de données du Cerna. Toutes les modifications sont possibles mais elles doivent alors être faites sur chaque poste ; celui de Marlhes (42) et d'Albertville (74) pour le Cerna et celui de Paris pour l'Arpe. L'éloignement géographique et l'impermanence des bénévoles rendaient cette entreprise difficile. Par ce fait, aucune mise à jour de la base commune n'a pu être testée. Un script d'export de la base du Cerna d'Albertville vers la base commune Docmmont a été réalisé. Il convient alors soit d'abandonner la base de Marlhes (préconisation de GB Concept) ou de s'assurer de sa mise à jour permanente avec celle d'Albertville. Actuellement seule la base de Marlhes est gérée par le Dr Claude Hébette. Linda Tamine, secrétaire du Cerna d'Albertville (base de référence) est en congé maternité.

3.1.7.2. Les aménagements effectués

ü Base du Cerna :

Le Dr Claude Hébette ne m'ayant pas autorisé à voir les bases du Cerna, lors de la conception de la base commune, quelques aménagements ont été réalisés pour établir les correspondances avec la base commune Docmmont ; rajouter les champs manquants ou les transformer en champs existants de la base Docmmont. Le but étant de ne pas perdre de données. Lors de la création de la base commune le Dr Claude Hébette m'avait affirmé avoir fait les modifications dans ses bases mais ce travail n'avait pas été réalisé au jour de l'analyse des données. J'ai donc du choisir rapidement, afin que GB Concept alors en plein travail puisse effectuer la fusion de données. Enfin, les données des notices ne correspondent pas toujours à leur catégorie, un tri manuel est donc indispensable.

o 53

Intégration des données dans les champs existants ;

- Les cotes issues de la classification Cando apparaissent dans le champ «Cote» (liste fermée). Le champ « Catégorie Cando » contiendra la classification qui n'a pu être importé dans la base car le fichier n'a pu être fourni par le Cerna.

- Les différents champs «titre» ; titre, titre original et titre traduit ont été intégrés dans le champ titre de Docmmont. La traduction du titre est alimentée par un index en lien avec le champ titre. Pour l'activer il faut alors cliquer sur le drapeau qui se situe à l'extrémité du champ titre (plusieurs choix de langues sont possibles).

- Les champs date au format libre ont été transformés en champs de type date. Le champ de type date est imposé par la base de données pour une recherche pertinente (opérateur de comparaison (< >).

- Le champ « Auteur » contient aussi un alias qui permet d'écrire un pseudonyme ou le développement d'un acronyme. Le nom de l'auteur étant enregistré dans l'alias certaines notices ne contiennent pas d'auteur tandis que d'autres en contiennent plusieurs dans le même champ (monovalué),

- Les champs « Organisateur cours stage » et « directeur de publication » ont été reliés au champ « Auteur » (ils étaient indépendants et ne pouvait donc pas constituer un index commun aux différents types de documents.

o Catégories et champs créés ;

La catégorie « A classer » contient quelques documents qui n'ont pas trouvé de correspondances dans les catégories existantes et peu nombreux pour en créer de nouvelles. Certaines notices ont été paramétrées au fur et à mesure ont été transférées dans ce dossier. Cependant, je n'ai pas trouvé l'information dans le manuel d'Alexandrie pour réintégrer ces données dans une autre notice existante dans la base Docmmont, ce qui m'imposait un recopiage des champs. Le champ « Base émettrice » permet de connaître le partenaire qui a enregistré la notice. En effet le Cerna à inventorié plusieurs fonds et en indique la provenance. Le but est de sélectionner la notice Docmmont comme notice de référence.

Enfin les champs n'ayant trouvé aucune correspondance ont été transférés dans un nouveau champ appelé « champ Cerna ».

54

o Création d'un lien récursif ;

Un défaut de conception de la base (pas de lien récursif entre une notice père-enfant) a créé une certaine redondance des données. Le champ « Auteur » n'était pas relié à la table référence ce qui ne permettait pas de réunir toutes les données en un seul index.

ü Base de l'Alpe :

Carlsson A J. Les mots clés en anglais ont été placés dans l'index «candidats ». Les séparateurs

entre les mots clés différent, tantôt un slache ou une virgule ce qui rend difficile un Carlsson A.J. transfert de données par script et a répercuté quelques erreurs. Le séparateur n'étant

pas reconnu, les termes s'affichent dans un même champ et sont traités comme un seul

Carlsson A ]

descripteur. D'autre part le logiciel End Notes ne prend pas en compte les accents et les caractères spéciaux. Le contrôle des doublons bien qu'effectué dans la base End Notes a été contourné en utilisant un enregistrement différent (ici doublons auteurs). Il faut alors rechercher avec les différentes graphies du nom pour retrouver l'intégralité des documents affiliés à un auteur. Il existe 10339 notices pour 16842 auteurs.

ü Le MeSH ;

La langue de référence du thésaurus est le français, par ce fait les mots clés an anglais ont été répertoriés dans une liste classée par ordre alphabétique comme « candidat » alors que certains figuraient dans le thésaurus MeSH.

Si un thésaurus ne tolère pas les doublons, GB Concept a « forcé » le script afin d'intégrer les données. Il faut alors réindexer* les notices contenant ces 3318 candidats pour les indexer avec le descripteur Mesh puis supprimer le candidat. Ce traitement manuel sur 5000 notices de l'Alpe est très long même si l'interface Alexandrie permet par l'intermédiaire d'un script de remplacer un candidat par un descripteur existant, ce qui permet d'agir simultanément sur un lot de notices, cela revient tout de même à plus 3000 opérations... Il est aussi à préciser que la traduction d'un descripteur n'est réalisable qu'en terme exact et ne contient pas de notes ni de renvois ce qui peut engendrer des confusions et une moins bonne pertinence des résultats de recherche et induire en erreur le chercheur. En effet un médecin français recherche un médicament par son nom courant « Aspirine » tandis qu'un médecin anglais recherchera le nom de la molécule « aspirin » en anglais mais « acide acétylsalicylique » en français (les noms commerciaux des médicaments entrent dans

le MeSH progressivement). Il en est de même pour les homonymes ou idiomatiques utilisés d'une langue à l'autre. Il faut donc être très prudent lors du choix du terme français et plutôt «penser » en anglais pour trouver le terme français correspondant (la langue de base du MeSH est l'américain). Exemple : « ambulance aérienne » (et non hélicoptère ou en jargon DZ62) traduction de « air ambulances ».

ü La base de données contient les termes de cinq langues ; français, anglais allemand, espagnol et italien. Le fichier du thésaurus MeSH en italien acquis tardivement (mai 2008) dans le projet n'a pu être intégré dans la base de données, d'autre part son surcoût n'était pas prévu dans le financement du projet. C'est ainsi que j'ai procédé à l'intégration manuelle des descripteurs en italien en reconnaissance du soutien financier de la FMS et de l'USL partenaires du projet.

ü Exemple d'une recherche avec le terme « mountain » (montagne). La recherche dans le thésaurus MeSH avec le terme mountain renvoie vers trois descripteurs : Mal de l'altitude, Fièvre pourprée de montagnes rocheuses, Alpinisme. On s'aperçoit ici de la difficulté pour l'indexeur de décomposer les termes en une équation de type MeSH. Exemple ; remplacer le terme (ligne1l n° 4204105) ; «infantile mountain sickness » par ces deux descripteurs ; «Enfant» et «Mal de l'altitude ». Il est également préférable d'ouvrir la notice pour la réindexer d'après le document, en descripteurs MeSH.

11 4D Client - [Base de données : Thesaurus]

0 Fichier

Aller a

Edition

F
·71
·L.aj Imountain OK

Aide

Sélection Fenëtres

I - Descripteur
· [record n°]
· TO term. Mots clés. Documents

p Dossiers

ease de données p Mountain accidents 5643105 Candidat A colour atlas of mountain medecine;Psych

v r Documents [ educational programs in mountain medici 5525205 Candidat Mountain medicine education in Europe

A classer mountain climbing 5487105 Candidat Cardiorespiratory response to exercise in el

arrr:va;re _adr p mountain medical 5162405 Candidat Le médecin et la prépartion d'un trekking. Q

Arrrcte, depec. mountain sickness 5131005 Candidat Thrombosis at mountain altitudes;Sp ironol

Audio visual t> chronic Mountain disease 4932105 Candidat Biological basis of chronic mountain sickne

cnaPitre L> mountain rescue 4502105 Candidat A colour atlas of mountain medecine

~r,grès ~~ t> mountaineering injuries :. _ . .. u. . aineerin. emergencies on Denali

Dossier n aineering 4338505 Candidat Ski mountaineering: observa Ion

ntile mountain sickness 4204105 Candidat Subacute infantile mountain sickne

§ ter$ase mountain medicine - i SG70., 8a.,d,d a[ - . _ .I ogram at extreme altitu e: e

Qf°`a9e [0 mountain 3814505 Candidat The High Altitude Medecine Handbook;The

P age intemet i
· mountaineering 3507405 Candidat Respiratory and metabolic characteristics or

Périodique b chronic mountain sickness 3376405 Candidat Chronic mountain sickness' pathology and

Recorecreadet P. Mal de l'altitude 2371705 Anoxie Case Report' Transient Neurological Disor

s.ta i.,temet P. Fièvre pourprée des Montagnes Rocheus 1569605 Rickettsios

< Tenter-dg.... P Alpinisme

Thèse- Mémo...

· Références Thesaurus 19

· Auteurs Andes mountains

· Personnes

® TG _ Candidat

Documents associés :

550305 Sports Médecine de l'alpinisme;Médecine de mont

55

62 DZ ; Drop Zone signifie zone d'atterrissage de l'hélicoptère. En jargon, l'hélicoptère peut être appelé aussi DZ.

56

J'ai donc procédé à une traduction des candidats en descripteurs MeSH suivants ;

Exemple de reclassement des candidats de l'Arpe en descripteurs MeSH

Termes de l'Arpe

Descripteurs MESH

Cerebral edema altitude

Brain edema

HACE (Hight Altitud Cerebral Edema)

Oedème cerebral Altitude

Pulmonary edema

HAPE (Hight Altitud Pulmonary Edema)

Oedeme pulmonaire Altitude

Acute Mountain Sickness Chronic mountain disease Altitude Sickness Mountain sickness

Mal de l'altitude

Cardio respiratory system

Appareil cardiovasculaire Appareil respiratoire

Diagnosis

Diagnostic

Frostbite

Gelures

Infantile mountain sickness

Mal de l'altitude Enfant

Mountain accidents

Accident Altitude

Radionuclide imaging

Scintigraphie

Ski mountaineering

Ski

Women Woman

Femmes

57

Exemple de reclassement des candidats du Cerna en descripteurs MeSH

Termes du Cerna

Descripteurs MeSH

Accidents de ski

Accident Ski

Aide médicale urgente

Médecine urgence Service médical urgence Service urgences Médecine d'urgence Soins première urgence

Campagnes de prévention

Prévention accident Prévention primaire Prévention sinistre

Cinématique du genou

Mouvement Genou

Contentions souples

Contention

Coût des soins

Coût soins médicaux

Economie de la santé

Économie dentaire Économie hospitalière Économie médicale...

Entorse du genou

Entorses Genou

Equipement du skieur

Équipement sportif Ski

Fractures basses de jambe

Fracture Tibia Fibula Jambe

Fractures de l'extrémité inférieure du radius

Fracture du radius

Hypothermie

Hypothermie

Hypothermie provoquée

Laxité du genou

Traumatisme Genou

Pathologie de l'altitude

Maladie Altitude

Prévention

Prévention accident Prévention primaire Prévention sinistre Médecine préventive

Prévention des accidents de ski

Prévention accident Ski

Problèmes juridiques

Jurisprudence Droit

Problèmes médico-légaux

Médecine légale

Sports d'hiver

Sports des neiges

Soins d'urgence

Soins première urgence Soins infirmiers urgence Médecine urgence

Thèse de droit

Thèse Droit

Traitement

Traitement médicamenteux...

Traumatologie du sport

Traumatologie Sport

Le documentaliste maîtrisant les techniques documentaires est capable de trouver le descripteur correspondant car il ne se laisse pas emporter par le subjectif en suivant de près la hiérarchie des termes. Mais il est aussi difficile à partir d'un candidat très général de retrouver les descripteurs correspondant ce qui requiert l'aide d'un médecin. En effet la base est utilisée essentiellement par des médecins, il convient alors de suivre leur logique associée aux techniques documentaires pour que la recherche soit pertinente.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Là où il n'y a pas d'espoir, nous devons l'inventer"   Albert Camus