WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traitement de la chaîne documentaire: base de données EcoPress de la CCIMP (Chambre de Commerce et d'Industrie de Marseille Provence)

( Télécharger le fichier original )
par Moustapha DIOP
Université Paul Cézanne Aix-Marseille III - Master sciences de l'information et de la communication 2007
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Saisie d'articles en complément de notice

Dans ma première semaine, je suis entré très rapidement dans la recherche et le traitement documentaire.

Dans la base de données, on évite parfois de créer une nouvelle notice, si un article à saisir parle de la même chose qu'un autre article saisi récemment. C'est ainsi qu'on procède parfois à des recherches pour ne pas créer inutilement une notice car il est plus rapide de rattacher un article à un autre article similaire plutôt que de créer une notice avec toutes les rubriques que celle-ci comporte.

Voici quelques exemples d'articles associés à d'autres articles déjà existants dans la base ou des articles complétés après la saisie du service communication :

· « Chantiers navals de la Ciotat : Ascenseur pour la haute plaisance » du Journal de la Marine Marchande du 7 décembre 2007

Associé à

« La Ciotat inaugure sa plate-forme pour Méga Yachts » de TPBM du 14 Novembre 2007.

· « Fos 3XL et 4XL : l'appel d'Offres en voie de lancement

Associés à

« Appels à Projets pour Fos 3XL et 4XL » de La Marseillaise du 3 décembre 2007.

· Net cacao débouté face à Nestlé

(Rubrique Actualités Consulaires)

· La gare Saint Charles fait peau neuve

(Rubrique Economie, sous rubrique Aménagement)

· La zone des Paluds toujours attractive

(Rubrique Economie, sous rubrique Entreprises/Industries)

Saisie des articles de Juillet en stock

En raison d'un déficit de personnel, le service avait connu un grand retard pendant les mois de Juin et de Juillet 2007.C'est ainsi que des dizaines d'articles n'avaient pas été saisis dans la base.

Ainsi, un grand dossier, comportant les articles de juillet m'ont été confiés avec la plus grande autonomie. Car je disposais de la liberté pour juger de la pertinence ou pas de tel ou tel article à bénéficier d'une notice mais aussi pour choisir les descripteurs qui décrivent mieux l'article. J'ai également pris une initiative personnelle pour modifier les titres d'articles pas assez clairs afin de faciliter la recherche ultérieure par une tierce personne.

Il s'agit en fait dans le champ titre de la notice de mettre des termes pertinents qu'une tierce personne mettrait pour chercher un article sur la question.

Voici quelques exemples permettant d'illustrer ce travail :

· « Pardon !lavé de toute accusation », article de Ecosud.

Une personne qui fait des recherches sur cet article ou sur cette affaire ne pourra pas trouver des informations en faisant des recherches sur le titre.

En général, la recherche par le titre n'est pas efficace. Mais une personne étrangère à la base pourrait être tentée par cette méthode d'où la nécessité, pour moi, de mettre des termes qu'il est susceptible d'utiliser dans le cadre de sa recherche.

Dans cet article, il était question de la décision du tribunal de commerce de Marseille qui a rejeté l'accusation de la Régie des transports de Marseille (RTM) concernant sa demande de réparation du préjudice supposé causé par la société Pardon. En effet, cette dernière avait détourné de façon humoristique les initiales de la RTM (Régie des Transports de Marseille) en Retarde Tout Marseille, faisant référence à la longue grève de la compagnie des transports ayant paralysé la ville de Marseille.

On voit donc qu'avec le titre « Pardon ! lavé de toute accusation », on n'en voit pas clair. D'où mon initiative d'ajouter au titre de la notice Affaire RTM. Ainsi, le titre de la notice devient : Affaire RTM : Pardon lavé de Toute accusation.

Un autre fait très intéressant à souligner réside dans le choix des descripteurs.

Dans cet exemple, j'ai eu le réflexe de regarder dans le thésaurus, le descripteur Justice afin d'indexer l'article. Il se trouve que ce descripteur est trop vague et ne permettait pas une indexation précise. C'est en regardant Tribunal que j'ai vu la rubrique Tribunal de commerce dans lequel j'ai trouvé le terme Arbitrage commercial.

Toute la difficulté de l'indexation par un thésaurus réside dans le fait de savoir ce que va mettre une personne à la recherche d'un document précis. Parfois la pertinence de tel ou tel descripteur peut être discutable.

Le même cas s'est posé dans un article de l'Ecosud de Juillet 2007 sur les relations entre les entreprises et leurs banques.

J'ai cherché automatiquement le descripteur Relations et dans les sous rubriques j'ai regardé Relations Banque Entreprises puis Relations Entreprise Clientèle. J'ai choisi ce dernier descripteur que j'ai associé à établissement financier.

Dans cet exemple j'aurai pu être tenté de regarder Banque mais dans ce cas je ne me serais pas tombé sur un descripteur aussi précis qui met en évidence la relation entre les entreprises et leurs banques.

Le choix des descripteurs se fait en se mettant à la place de quelqu'un qui utilise rigoureusement le thésaurus. Car jusqu'ici la base de donnée n'était pas encore public et n'était accessible que via une vingtaine de postes.

Il est clair que sa mise à disposition publique pour tous les autres services de la Chambre comme pour les acteurs économiques de la région nécessiterait une bonne explication du thésaurus aux chercheurs d'informations sur la base.

En plus de la difficulté existante dans le choix des descripteurs matière, on est également confronté à un problème de précision en ce qui concerne les descripteurs géographiques.

En voici pour preuve, l'exemple de l'article de la Provence sur la société Alpilles voyages.

L'article est intitulé : « Alpilles Voyages étoffe son réseau d'agences en Provence ».

Dans cet article, il est mentionné que la société va ouvrir quatre nouvelle agences en 2008 dans les villes suivantes : Montpellier, Morières-lès-avignon, Aix et Toulon.

Le problème est que le thésaurus géographique n'utilise que les noms des départements français et non ceux des villes ou des communes à l'exception des communes du département des Bouches-du-Rhône.

Une méconnaissance des départements français m'obligerait à faire de la recherche plus longue avant de pouvoir indexer correctement.

Avec l'habitude, l'expérience mais aussi une bonne culture géographique, j'ai utilisé automatiquement Hérault pour Montpellier, Vaucluse pour Morières-lès-avignon, Var pour Toulon et Aix-en-Provence qui est descripteur reconnu.

Au fur et à mesure que je m'habituais à l'alimentation de la base, je découvrais chaque jour de nouvelles astuces qui me renseignent sur la complexité de la gestion d'une base de données mais aussi de la recherche documentaire.

Je prends l'exemple de la recherche que j'ai effectuée sur le Tri sélectif. L'objectif était de trouver un article sur le tri sélectif afin de l'associer à un autre article que j'avais à indexer et qui était dans le dossier des articles de juillet 2007 non saisis.

Au début, j'ai recherché dans le résumé avec les mots clés Tri sélectif et Eco Emballages. Résultat : 0.

Deuxième tentative, j'ai recherché qu'avec le titre de la notice en entrant le terme tri sélectif. Résultat : 4 articles dont 3 avec les mots tri postal et 1 seul avec tri sélectif.

L'article trouvé sur le tri sélectif est un article de la Provence du 11 décembre intitulé :

« Déchets : La ville toujours en retard pour le tri sélectif »

En cliquant sur le numéro de la notice, je découvre paradoxalement dans le résumé le nom de la société Eco Emballage que je cherchais en vain.

En fait, le problème est que Eco Emballage était écrit dans le résumé de la base avec un trait d'union or dans le résumé on ne met pas de train d'union. Il s'agissait d'une erreur d'inattention de la part de la personne ayant indexé cet article.

Pour éviter tout problème de cette nature dans le futur, j'ai corrigé le résumé en enlevant le trait d'union.

Dans le cadre de l'alimentation de la base de donnée, j'ai été chargé d'un autre dossier intitulé Entreprises diverses.

Dans ce dossier on trouve plus d'une centaine d'articles concernant des entreprises de la région. Il s'agit également d'articles qui auraient dû être dans la base mais qui n'y ont pas été. Dans mon deuxième mois de stage, je me suis majoritairement consacré au traitement de ce dossier comme je l'avais fait pour le dossier du mois de juillet 2007 lors mon premier mois de stage en Décembre.

Ces articles, comme l'indique le nom du dossier, parlent des entreprises de la région Paca. Ma méthode de traitement consistait d'abord à chercher dans le champ Entreprise de l'interface de recherche le nom de l'entreprise en question dans un article.

Si je trouve des résultats, je les compare à l'article en question pour savoir si je dois créer une nouvelle notice ou plutôt si je dois rattacher l'article à traiter à un des articles trouvés sur la base.

En cas de création d'une nouvelle notice je renseigne le champ Entreprise afin que l'entreprise puisse être facilement retrouvé sur la base en tapant simplement le nom. Car nombreuses sont les entreprises qu'on ne pouvait retrouver que par le résumé (Recherche avancée) ou en recherche libre via l'occurrence, ce qui exige la clarté des documents scannés.

Dans le cas du résumé, il s'agissait souvent de plusieurs entreprises citées et donc pas un article parlant spécifiquement d'une entreprise particulière. Le texte libre quant à lui est inefficace car les résultats ne sont pas souvent pertinents.

A la fin de ma deuxième période de stage, plus d'une centaine d'articles ont été mis dans la base avec de nouvelles notices et à peu près autant en association avec d'autres articles déjà existants.

Une technique particulière de classement a été trouvée pour un traitement rapide de cette masse d'informations. La technique est la suivante :

J'ai procédé à un classement des articles par période et par thème.

Ainsi, j'étais à peu près sûr que la plupart des articles de la même période (le même jour ou la même semaine) traitent en commun les même sujets. Ainsi j'en choisissais certains à mettre en notice et les autres en articles rattachés donc sans création de notices. De la même façon, je recherchais par rapport à la même période, s'il n'y avait pas dans la base des articles similaires. Dans ce cas, je ne crée pas de notice. Je rattache directement les articles aux notices déjà existantes.

Sans cette technique je mettrais énormément du temps à traiter plusieurs dizaines d'articles traitant l'affaire des alliances Corsica Ferries, CMN et SNCM. Tantôt on trouvait des articles parlant de l'alliance de l'une à l'autre, tantôt la séparation. De plus le feuilleton judiciaire était tels que des dizaines d'articles émanent de sources différentes relataient les différentes décisions judiciaires sans un ordre chronologique.

Il s'agissait d'un véritable imbroglio judiciaire qu'il ne fallait pas certainement reprendre intégralement dans la base. J'ai du avertir mon responsable de l'immensité de la redondance des informations. Et une liberté m'a été ainsi donnée pour un traitement des articles que je juge essentiels.

Ceci m'amène à formuler un certain nombre de propositions destinées à améliorer l'alimentation mais aussi la recherche dans la base de donnée :

Ø Plus de rigueur dans les résumés par le choix de plusieurs mots clés susceptibles d'être utilisés par une tierce personne recherchant dans la base. Ce qui nécessite un résumé assez complet avec peu de mots vides mais des termes pertinents comme le nom de l'entreprise, le thème abordé par l'article, le contexte etc. 

Ø Plus de descripteurs car beaucoup de mots clés manquent dans le thésaurus comme c'était le cas pour le terme Pôle de compétitivité qui n'a été ajouté que récemment.

Ø Plus de qualité que de la quantité. En fait, on pouvait choisir d'être plus rigoureuse dans le choix des articles donc en ne prenant que les articles pertinents mais en faisant bien les notices notamment par des résumés complets.

En résumé je peux dire que mon initiative personnelle et mon autonomie reposaient sur le choix des bons descripteurs, des mots clés pertinents dans le résumé ainsi que le jugement sur la nécessité ou pas de créer une nouvelle notice pour tel ou tel article.

Avec, quotidiennement, plus d'une dizaine de notices créées et autant d'articles rattachés pendant les deux premiers mois de mon stage, j'ai grandement contribué à rattraper l'énorme retard constaté dans l'alimentation de la base EDIP devenu EcoPress.

Dans les deux pages qui suivent, je vais présenter concrètement l'interface de saisie qui permettra de mieux représenter ce que je viens de décrire jusqu'ici.

Cette interface de saisie est différente de l'interface de recherche présentée dans la première partie concernant la recherche dans la base de données.

Mode d'affichage des notices créées (haut de l'interface de saisie)



Mode d'affichage des notices créées (Bas de l' interface de saisie)

TROISIEME PARTIE :

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Il faut répondre au mal par la rectitude, au bien par le bien."   Confucius