logo  polski español français english
Skróty Statystyki Bibliografia Linki Nota prawna Redakcja/Kontakt

słowo lub początek (bez * ? % etc.) pokazuj wyniki w: pokazuj:

profesjonalne
tłumaczenia techniczne

wyników na stronę
Drodzy Użytkownicy,

Oddajemy do Waszej dyspozycji pierwszy internetowy, wielojęzyczny korpus równoległy, uwzględniający jednocześnie języki polski i baskijski. Jest to póki co wersja próbna narzędzia, tym niemniej po testach wstępnych pomyślnie przeprowadzonych na materiale próbkowym, zdecydowaliśmy się umieścić ją on-line. Tymczasowo zaimplementowany został uproszczony mechanizm wyszukiwania wyrazów (p. niżej), lecz nawet on pozwala uzyskać interesujące wyniki.

Trochę teorii

Korpus to w miarę możliwości duży, usystematyzowany „zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Nowszym zastosowaniem korpusów jest uczenie maszynowe w przetwarzaniu języków naturalnych” [1]. Ponadto „dane korpusowe są [...] przydatne do opracowywania słowników, tezaurusów i glosariuszy oraz w nauczaniu słownictwa języka obcego, [...] narzędzia pozyskiwania leksyki z korpusów [...] pozwalają na użycie tych materiałów w procesie przekładu - zarówno przekładu dokonywanego przez tłumacza (Computer-Aided Translation / CAT) [...], jak i przekładu maszynowego (Machine Translation / MT) [...]” [2].

więcej »»

Jak to działa?

Na razie w korpusie zaimplementowany jest jeden prosty mechanizm wyszukiwania: w pierwszej kolumnie formularza należy określić język i w polu wpisać początkowe kilka liter szukanego słowa (bez dodatkowych znaków % czy * na końcu). W wyniku otrzymamy wszystkie rekordy zawierające wyrazy zaczynające się od zadanego ciągu. Np. szukanie ciągu kobie przy zaznaczonym języku polskim zwróci segmenty zawierające wyrazy: kobieta, kobiety, kobiecie itd., także kobieciny, kobiecy itp., lecz niestety może być to też kobierzec (sic!) itp. Należy mieć na uwadze, że im więcej początkowych liter zostanie podanych, tym bardziej ograniczone będą wyniki szukania.

Opcja drugi język pozwala zawęzić wyniki wyszukiwania do rekordów zawierających zadane ciągi w dwóch wybranych polach (językach) bazy naraz (operator logiczny AND). Np. można wyszukać tylko segmenty, w których polski tekst zawiera wyraz kobieta, a jego baskijski odpowiednik wyraz emakume. Korzystając z tej opcji można też wyszukać rekordy zawierające dwa różne ciągi w jednym polu (języku), np. wybierając dwa razy język polski i wpisując w jednym polu kobie, a w drugim mężczy, otrzymamy w wyniku wszystkie cytaty zawierające słowa kobieta i mężczyzna.

Opcja pokazuj wyniki w pozwala wyłączyć wyświetlanie cytatów w językach, które aktualnie nas nie interesują, i poprawić w ten sposób czytelność strony z wynikami.

Ostatnia opcja pozwala dostosować ilość naraz wyświetlanych wyników.

Ustawienia opcji wyszukiwania są zapamiętywane i nie trzeba ich dostosowywać przy każdym szukaniu. Giną dopiero po zamknięciu okna przeglądarki. Ustawienia językowe natomiast przechowywane są w pliku cookie, więc zostaną automatycznie przywrócone przy ponownym wejściu na stronę korpusu.

W planach:

  • rozbudowa bazy tekstów do wielkości co najmniej 1 mln wyrazów tekstowych dla każdego z języków,
  • uwzględnienie nowych rodzajów tekstów: dramatów, traktatów filozoficznych, dzieł naukowych oraz fragmentów Pisma Świętego,
  • lemmatyzatory dla języka polskiego (prace nad nim i pierwsze próby już trwają) i baskijskiego, a w następnej kolejności także dla pozostałych języków,
  • dodanie języka niemieckiego,
  • bardziej rozbudowane zapytania.

_________

ŹRÓDŁA:

[1]Wikipedia.
[2]Lewandowska-Tomaszczyk Barbara (red.), Podstawy językoznawstwa korpusowego, Wydawnictwo Uniwersytetu Łódzkiego, Łódź 2005.

login:   hasło: