![]() |
![]() |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Wyszukiwanie w KorpusieWyrazy, ich ciągi i lematyNajprostszą formą wyszukiwania jest zapytanie o dokładną formę wyrazu, np. "wiosnę" albo ciąg wyrazów, np. "mieć czas". Teksty Korpusu są lematyzowane, tzn. do każdej formy wyrazu została podana jej postać słownikowa, co pozwala na wyszukiwanie wszystkich możliwych form dowolnego wyrazu, które znajdą się w Korpusie, np. "lemma='książka'". Informacje morfoskładnioweObie części językowe Korpusu zawierają rozszerzoną adnotację gramatyczną w formacie MULTEXT-East (wersja 4). Oryginalna informacja gramatyczna dla języka polskiego pochodzi z analizatora Morfeusz i tagera TaKIPI, dla języka ukraińskiego – z Ukraińskiego Słownika Gramatycznego i analizatora morfoskładniowego UGTAg. Dla potrzeb spójności formatu w PolUKR została ona w obu przypadkach znacznie zmodyfikowana i rozszerzona. Zarówno polski, jak i ukraiński zestaw znaczników gramatycznych (ang. tagset) w Korpusie liczy ponad 1200 unikalnych gramatycznych kodów, które są porównywalne pojęciowo ze względu na wspólny format. Morfoskładniowe specyfikacje obejmują wykaz możliwych kategorii, ich atrybutów wraz z wartościami oraz możliwe w danym jezyku kombinacje wartości atrybutów dla danej kategorii. Oprócz tego opis gramatyki jest przedstawiany w indeksach morfoksładniowych, które zawierają możliwe tagi z przykładami ich użycia.
Pliki ze specyfikacjami i indeksami dla obu języków do pobrania:
Opis znaczników polskiej części Korpusu został przedstawiony w artykule Integrating the Polish language into the MULTEXT-East family: morphosyntactic specifications, converter, lexicon and corpus., dostępny jest także konwerter z formatu KIPI na format MTE. Oprócz tego istnieje możliwość wyszukiwania informacji morfoskładniowych w polskich tekstach według oryginalnych znaczników Korpusu IPI PAN. Dopuszczone aliasy znaczników morfoskładniowychZnaczniki są podane w formacie "atrybut {możliwe wartości atrybutu}". pos (część mowy)noun type {com, prop} gen {masc, fem, neut, com} num {sg, pl} cas {nom, gen, dat, acc, inst, loc, voc} anim {yes, no} verb {main, aux} asp {perf, imperf, biasp} form {ind, imp, inf, impers, ger} tense {pres, past, fut} per {pri, sec, ter} adj {qual, rel, part} deg {pos, comp, sup} def {short, full} voice {act, pas} pron type {pers, dem, ind, poss, int, rel, refl, neg, gen, emph} ref {poss} synt {noml, adjl, advl} adv prep form {sim, comp} conj type {coord, sub} form {sim, comp} num form {dig, rom, let} type {card, ord} res MetainformacjaInformacja o tekstach w korpusach, nazywana także metainformacją, zawiera m.in. następujące dane: autor, tytuł, tłumacz (jeżeli jest to tekst tłumaczony), rok i miejsce wydania, gatunek, itd. Metainformacja w PolUKR może mieć następujące wartości: author – imię i nazwisko autora;title – tytuł utworu; original {1=oryginał, 0=tłumaczenie}; style – gatunek {fiction, documentary, manual, newsletter, officletter, program, publicist, news}; medium – forma źródła {book, e-book, file_dejavu, file_doc, file_pdf, www}; publisher – wydawca (nazwa wydawnictwa); place – miejsce wydania (miasto); publish_date – rok wydania; creation_date – rok powstania utworu. Jeżeli rok napisania nie jest znany dokładnie, ale wiadomo, że na pewno utwór powstał przed czy po jakiejś dacie, albo w pewnym okresie, to czas powstania jest zapisywany w następującym formacie: ,DATA, np. ",1990" – oznacza, że utwór powstał przed 1990 rokiem; DATA,, np. "1990," – oznacza, że utwór powstał po 1990 roku; DATA1,DATA2, np. "1980,1990" – oznacza, że utwór powstał w okresie między 1980 i 1990 rokiem; DATA – dokładny rok, np. 1990. first_publish_date – rok pierwszej publikacji; language – język tekstu, np.{uk, pl, en}; author_language – język ojczysty autora; quality – jakość opracowania tekstu, skala {1-10}; availability – dostępność tekstu, skala {1-10}; added – data dodania tekstu do Korpusu; modified – data ostatniej modyfikacji tekstu. Zapytania do Korpusu można ograniczyć do pewnego okresu powstania utworu albo do utworów napisanych przez pewnego/pewnych autorów za pomocą znacznika , np. "author='.*Lem'" ograniczy pytania do tekstów Stanisława Lema, a "original='1'" zwróci nam tylko fragmenty tekstów oryginalnych. Informacja o strukturze tekstuZnakowanie struktury tekstów obejmuje informacje o granicach rozdziałów <div>, ich tytuły <head>, akapitach <p> i zdaniach <s>. Wyszukiwanie w Korpusie można ograniczyć do zdania albo akapitu za pomocą polecenia "within s" albo odpowiednio "within p". |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
© tuurma 2005-2007, natko 2009-2011 |