Wyszukiwanie w Korpusie

Wyrazy, ich ciągi i lematy

Najprostszą formą wyszukiwania jest zapytanie o dokładną formę wyrazu, np. "wiosnę" albo ciąg wyrazów, np. "mieć czas". Teksty Korpusu są lematyzowane, tzn. do każdej formy wyrazu została podana jej postać słownikowa, co pozwala na wyszukiwanie wszystkich możliwych form dowolnego wyrazu, które znajdą się w Korpusie, np. "lemma='książka'".

Informacje morfoskładniowe

Obie części językowe Korpusu zawierają rozszerzoną adnotację gramatyczną w formacie MULTEXT-East (wersja 4).

Oryginalna informacja gramatyczna dla języka polskiego pochodzi z analizatora Morfeusz i tagera TaKIPI, dla języka ukraińskiego – z Ukraińskiego Słownika Gramatycznego i analizatora morfoskładniowego UGTAg. Dla potrzeb spójności formatu w PolUKR została ona w obu przypadkach znacznie zmodyfikowana i rozszerzona. Zarówno polski, jak i ukraiński zestaw znaczników gramatycznych (ang. tagset) w Korpusie liczy ponad 1200 unikalnych gramatycznych kodów, które są porównywalne pojęciowo ze względu na wspólny format.

Morfoskładniowe specyfikacje obejmują wykaz możliwych kategorii, ich atrybutów wraz z wartościami oraz możliwe w danym jezyku kombinacje wartości atrybutów dla danej kategorii. Oprócz tego opis gramatyki jest przedstawiany w indeksach morfoksładniowych, które zawierają możliwe tagi z przykładami ich użycia.

język polski

język ukraiński

N[cpg][mfn][ny][ny][sp][ngdailv][pe][ny]
V[ma][pe][icmnog][pfs][123][sp][mfn][ny][sf][ynad]
A[fp][pcs][mfn][ny][ny][sp][ngdail][sf][pe][ap][ny]
P[pdisqrxzg][ps][123][mfn][ny][ny][sp][ngdail][yna][sf][nar]
M[drl][col][mfn][ny][ny][sp][ngdail][3f]
Przysłówek (Degree, Clitic) - R[pcs][ynau], Spójnik - C
Przyimek - (Type, Formation, Case) - Sp[sc][gdail]
Partykuła - Q[ynad], Wykrzyknik - I, Abrewiatura - Y, Reszta - X

N[cp][mfnc][sp][ngdailv][ny]
V[ma][peb][imnog][pfs][123][sp][mfn]
A[fop][pcs][mfnc][sp][ngdail][sf][ny][peb][ap][ps]
P[pdisqrxzgh]s[123][mfn][ny][sp][ngdail][nar]
M[drl][co][mfn][sp][ngdail][ny]
Прислівник - R[pcs], Сполучник (Type, Formation) - C[sc][sc]
Прийменник (Type, Formation, Case) - Sp[sc][gdail]
Частка - Q, Вигук - I, Скорочення - Y, Залишок - X

Rzeczownik (aspect i negacja dotyczą tylko gerundiów)
POS	Type	Gend	Anim	Hum	Num	Case	Asp	Neg
N	c p g	m f n	n y	n y	s p	n g d a i l v	p e	n y
1	2	3	4	5	6	7	8	9

Іменник
POS	Type	Gend	Num	Case	Anim
N	c p	m f n с	s p	n g d a i l v	n y
1	2	3	4	5	6

Czasownik
POS	Type	Asp	VForm	Tense	Pers	Num	Gend	Hum	Def	Clitic
V	m a	p e	i c m n o g	p f s	1 2 3	s p	m f n	n y	s f	y n a d
1	2	3	4	5	6	7	8	9	10	11

Дієслово
POS	Type	Asp	VForm	Tense	Pers	Num	Gend
V	m a	p e b	i m n o g	p f s	1 2 3	s p	m f n
1	2	3	4	5	6	7	8

Przymiotnik
POS	Type	Degr	Gend	Anim	Hum	Num	Case	Def	Asp	Voice	Neg
A	f p	p c s	m f n	n y	n y	s p	n g d a i l	s f	p e	a p	n y
1	2	3	4	5	6	7	8	9	10	11	12

Прикметник
POS	Type	Degr	Gend	Num	Case	Def	Anim	Asp	Voice	Tense
A	f o p	p c s	m f n c	s p	n g d a i l	s f	n y	p e b	a p	p s
1	2	3	4	5	6	7	8	9	10	11

Przyimek
POS	Type	Ref	Pers	Gend	Anim	Hum	Num	Case	Clitic	Def	Synt
P	p d i s q r x z g	p s	1 2 3	m f n	n y	n y	s p	n g d a i l	y n a	s f	n a r
1	2	3	4	5	6	7	8	9	10	11	12

Прийменник
POS	Type	Ref	Pers	Gend	Anim	Num	Case	Synt
P	p d i s q r x z g h	s	1 2 3	m f n	n y	s p	n g d a i l	n a r
1	2	3	4	5	6	7	8	9

Liczebnik
POS	Form	Type	Gend	Anim	Hum	Num	Case	Class
M	d r l	c o l	m f n	n y	n y	s p	n g d a i l	3 f
1	2	3	4	5	6	7	8	9

Числівник
POS	Form	Type	Gend	Num	Case	Anim
M	d r l	c o	m f n	s p	n g d a i l	n y
1	2	3	4	5	6	7

Pliki ze specyfikacjami i indeksami dla obu języków do pobrania:

Opis znaczników polskiej części Korpusu został przedstawiony w artykule Integrating the Polish language into the MULTEXT-East family: morphosyntactic specifications, converter, lexicon and corpus., dostępny jest także konwerter z formatu KIPI na format MTE.

Oprócz tego istnieje możliwość wyszukiwania informacji morfoskładniowych w polskich tekstach według oryginalnych znaczników Korpusu IPI PAN.

Dopuszczone aliasy znaczników morfoskładniowych

Znaczniki są podane w formacie "atrybut {możliwe wartości atrybutu}".

pos (część mowy)
noun
type {com, prop}
gen {masc, fem, neut, com}
num {sg, pl}
cas {nom, gen, dat, acc, inst, loc, voc}
anim {yes, no}
verb {main, aux}
asp {perf, imperf, biasp}
form {ind, imp, inf, impers, ger}
tense {pres, past, fut}
per {pri, sec, ter}
adj {qual, rel, part}
deg {pos, comp, sup}
def {short, full}
voice {act, pas}
pron
type {pers, dem, ind, poss, int, rel, refl, neg, gen, emph}
ref {poss}
synt {noml, adjl, advl}
adv
prep
form {sim, comp}
conj
type {coord, sub}
form {sim, comp}
num
form {dig, rom, let}
type {card, ord}
res

Metainformacja

Informacja o tekstach w korpusach, nazywana także metainformacją, zawiera m.in. następujące dane: autor, tytuł, tłumacz (jeżeli jest to tekst tłumaczony), rok i miejsce wydania, gatunek, itd. Metainformacja w PolUKR może mieć następujące wartości:

author – imię i nazwisko autora;
title – tytuł utworu;
original {1=oryginał, 0=tłumaczenie};
style – gatunek {fiction, documentary, manual, newsletter, officletter, program, publicist, news};
medium – forma źródła {book, e-book, file_dejavu, file_doc, file_pdf, www};
publisher – wydawca (nazwa wydawnictwa);
place – miejsce wydania (miasto);
publish_date – rok wydania;
creation_date – rok powstania utworu.
Jeżeli rok napisania nie jest znany dokładnie, ale wiadomo, że na pewno utwór powstał przed czy po jakiejś dacie, albo w pewnym okresie, to czas powstania jest zapisywany w następującym formacie:
,DATA, np. ",1990" – oznacza, że utwór powstał przed 1990 rokiem;
DATA,, np. "1990," – oznacza, że utwór powstał po 1990 roku;
DATA1,DATA2, np. "1980,1990" – oznacza, że utwór powstał w okresie między 1980 i 1990 rokiem;
DATA – dokładny rok, np. 1990.
first_publish_date – rok pierwszej publikacji;
language – język tekstu, np.{uk, pl, en};
author_language – język ojczysty autora;
quality – jakość opracowania tekstu, skala {1-10};
availability – dostępność tekstu, skala {1-10};
added – data dodania tekstu do Korpusu;
modified – data ostatniej modyfikacji tekstu.

Zapytania do Korpusu można ograniczyć do pewnego okresu powstania utworu albo do utworów napisanych przez pewnego/pewnych autorów za pomocą znacznika , np. "author='.*Lem'" ograniczy pytania do tekstów Stanisława Lema, a "original='1'" zwróci nam tylko fragmenty tekstów oryginalnych.

Informacja o strukturze tekstu

Znakowanie struktury tekstów obejmuje informacje o granicach rozdziałów <div>, ich tytuły <head>, akapitach <p> i zdaniach <s>. Wyszukiwanie w Korpusie można ograniczyć do zdania albo akapitu za pomocą polecenia "within s" albo odpowiednio "within p".