|
![]() | |||||||
|
On met à votre disposition le premier corpus parallèle et multilingue en ligne qui comprend en même temps les langues basque, polonaise et française. Pour l’instant, c’est une version expérimentale de l’outil, mais, après des tests réussis sur un matériel linguistique probatoire, on a quand même décidé de le mettre en ligne. Actuellement le corpus fonctionne avec un moteur de recherche simplifié, néanmoins même celui-ci permet d’obtenir des résultats intéressants.
Corpus est un ensemble systématisé et possiblement étendu de « textes qui servent à investigations linguistiques, telles que déterminer la fréquence d’apparition de mots, les constructions syntaxiques, les contextes où apparaissent les mots. Une application plus récente des corpus consiste à enseigner les ordinateurs pendant le processus de traitement de langues naturelles. » [1]. De plus « les données extraites de corpus [...] servent à rédiger les dictionnaires, les thesaurus, les glossaires et sont utiles pendant l’enseignement de vocabulaire de langues étrangères, [...] les outils d’extraction de vocabulaire de corpus [...] permettent d’utiliser ces données pendant la traduction, aussi bien celle effectuée par un traducteur (Computer-Aided Translation / CAT) que durant la traduction automatique (Machine Translation / MT) [...] » [2].
Pour instant le corpus fonctionne avec un seul moteur de recherche très simple : dans la première colonne du formulaire il faut choisir la langue et entrer quelques premières lettres du mot cherché (sans caractères supplémentaires * ni % à la fin). Comme résultat vous obtiendrez tous les enregistrements qui contiennent les mots qui commencent par la séquence désirée des lettres. Par exemple, après avoir entré blanc avec la langue française choisie, vous obtiendrez les enregistrements qui contiennent les mots : blanc, blancs, blanche et blanches, mais aussi des mots comme blanchis, blanchies et blancheur. Il faut se rendre compte que plus de lettres initiales on fait entrer, plus limités seront les résultats de recherche. L’option seconde langue permet de restreindre les résultats de la recherche aux enregistrements qui contiennent les séquences désirées dans deux champs (langues) de la base en même temps (opérateur logique AND). Par exemple, vous pouvez chercher seulement les enregistrements dans lesquels le texte français contient le mot femme tandis que son équivalent basque le mot emakume. Grâce à cette option vous pouvez aussi chercher les enregistrements qui contiennent deux séquences différentes dans le même champ (la même langue), par exemple : après avoir choisi deux fois la langue française et entré dans un champ femme et dans l’autre homme, vous obtiendrez seulement les citations qui contiennent ces deux mots en même temps. Afin d’améliorer la lisibilité de la page avec les résultats vous pouvez utiliser l’option montrer les résultats en qui permet de choisir seulement ces langues qui vous actuellement intéressent. Les citations en autres langues seront cachées. La dernière option permet de déterminer le nombre d’enregistrements montrés sur une seule page. Les préférences de recherche sont sauvegardées et il ne faut pas les ajuster avant de lancer une nouvelle recherche. Elles ne se perdent qu’après avoir quitté la page. Cependant les préférences de langue sont sauvegardées dans un fichier cookie, c’est pourquoi elles seront rétablies automatiquement quand vous rentrés sur la page du corpus.
_________ SOURCES:
|