WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Etude contrastive français-anglais et langue générale-langue spécialisée, de la prosodie sémantique: quelques exemples

( Télécharger le fichier original )
par Myriam Hamza Chaà¢r
Paris7 Diderot - Master 2 en langues appliquées 2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE III: Méthodologie

La prosodie sémantique, n?étant pas toujours accessible par l?introspection (Louw 1993, Stubbs 1995), elle doit être étudiée en utilisant des corpus. Ces derniers nous permettent, entre autres, l?analyse des unités lexicales sélectionnées pour l?étude, pour ainsi faire des comparaisons d?une langue à une autre, mais aussi d?une langue générale à une langue spécialisée.

Dans le présent travail, nous avons utilisé quatre corpus. Deux de langue générale, dans deux langues ; anglais et français, pour pouvoir tester la première hypothèse de Partington (1998) selon laquelle deux unités lexicales équivalentes de deux langues, pourraient avoir une prosodie sémantique différente.

Nous avons aussi utilisés deux corpus de langue de spécialité ; le corpus des sciences de la terre (CST), dans deux langues aussi, l?anglais et le français. Ces corpus nous ont permis de tester la deuxième hypothèse de Partington (2004), selon laquelle une unité lexicale utilisée en langue générale et en langue de spécialité pourrait avoir des prosodies sémantiques différentes. Nous pourrons par ailleurs, grâce à ces quatre corpus, voir si des équivalents de deux langues ont la même prosodie sémantique dans la langue de spécialité.

Par ailleurs, il est important de noter que, à court de temps et d?expérience, le nombre maximum de concordances que nous avons retenu à chaque analyse, (s?il était supérieur) est de 5000.

1. Description des corpus :

Les corpus de langue générale que nous allons utiliser sont, le British National Corpus (BNC) pour l?anglais, et le Corpus Français de l?Université de Leipzig, pour le français.

Le British National Corpus (BNC) a été crée en 1991 par le Consortium BNC en Angleterre, et il commence à être obsolète vu que la date limite des textes est en 1992.

Le BNC compte 100 millions de mots et il est composé de textes de différentes sources. La partie écrite (90% du BNC) comprend des extraits de journaux, des périodiques, des livres, et beaucoup d?autres variétés de textes, pour représenter au mieux le l?anglais britannique du 20ème siècle, tandis que la partie orale (10%) comporte des heures de transcription des conversations informelles, qui ont été enregistrés par des volontaires de différents âges, régions, et classes sociales. La partie orale comprend aussi du langage parlé recueilli par des réunions d?affaires ou gouvernementales, des émissions de radio, etc. Ce corpus est gratuitement accessible en ligne à l?adresse suivante : http://www.natcorp.ox.ac.uk/ .

Toutefois, pour une utilisation plus facile et pour obtenir des requêtes où le mot recherché est souligné, pour ainsi l?analyser d?une façon plus claire et simple, nous avons consulté le BNC sur le site de Mark Davis à l?adresse suivante : http://corpus.byu.edu/bnc/ . Pour l?interroger, il suffit d?écrire le mot dans la case devant « word(s) " et cliquer sur « search ». Pour rechercher le lemme d?un mot et ainsi obtenir des résultats avec toutes ses formes de conjugaison, il faut mettre le mot dans la case entre crochets « [~] ". Grâce à la case « collocates " on peut également obtenir les collocations les plus fréquentes d?un mot.

Pour faire une comparaison des mots anglais sélectionnés pour notre étude, avec leurs équivalents dans la langue générale, nous avons utilisé le corpus français de Leipzig. Ce dernier a été conçu récemment, et il est composé de près de 37 millions de phrases, soit environ 700 millions de mots. Il n?est donc pas tout à fait comparable au BNC (100 millions de mots), mais c?est le seul corpus représentatif de la langue française générale accessible en ligne. De plus, son interface est beaucoup moins sophistiquée que celle du BNC et la façon de l?interroger n?est pas la méme. Quand nous mettons dans la case devant « mot clé » lunité lexicale que nous recherchons, nous obtenons les cooccurrences les plus fréquentes de cette dernière et ses collocations les plus significatives. D?autre part, nous ne pouvons pas accéder à toutes les concordances trouvées et nous devons nous contenter des exemples sélectionnés, bien que le nombre de ses exemples ne soit pas négligeable.

Quoi qu?il en soit, le corpus français de Leipzig a été réalisé par l?Université de Leipzig, en Allemagne, dans le cadre des travaux de recherche du projet Leipzig Corpora Collection?. Il est gratuitement accessible sur internet à l?adresse suivante :

http://wortschatz.uni-leipzig.de/ws_fra/). Le corpus, dédié à l'étude du français contemporain écrit, est composé de trois parties:

 

informations tirées de journaux francophones : plus de 19 millions de phrases pages Web : plus de 11 millions de phrases

Wikipédia : près de 6 millions de phrases

Pour analyser les unités lexicales sélectionnées dans la langue de spécialité, nous avons eu recours à deux corpus composés de textes traitant le domaine des sciences de la terre. Ces derniers ont été compilés par des étudiants de l?Université de Paris Diderot dans le cadre du Master 1 en ILTS (2009-2010), et nettoyés par leurs professeurs, notamment Kübler et Volanschi.

Le corpus des sciences de la terre en anglais (CSTen) est un corpus homogène. Il comprend 10 100 859 mots et comporte 1871 textes. Ce corpus est composé d?articles scientifiques provenant des journaux internationaux.

Le corpus des sciences de la terre en français (CSTfr) est moins homogène que le CSTen et les deux n?ont pas le méme genre de textes. Et pour cause, comme la plupart des chercheurs francophones dans ce domaine rédigent leurs articles scientifiques en anglais, pour compléter le corpus français, les étudiants ont dû utiliser des articles du Bulletin de la Société Française de Géologie. Par conséquent, le CSTfr, qui compte 10 642 938 mots et contient 686 textes, comporte des articles scientifiques, mais aussi des thèses, mémoires, rapports d?activités, cours, comptes rendus, sites web, etc. Quoiqu?il en soit, malgré les différences entre ces deux corpus, la taille assez similaire de ces derniers, nous a permis d?obtenir des résultats assez comparables.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"La première panacée d'une nation mal gouvernée est l'inflation monétaire, la seconde, c'est la guerre. Tous deux apportent une prospérité temporaire, tous deux apportent une ruine permanente. Mais tous deux sont le refuge des opportunistes politiques et économiques"   Hemingway