Pogostnostni slovar esperanta

ZES je za potrebe jezikoslovnega študija kupila pogostnostni slovar esperanta "Frequency dictionary Esperanto = Oftecvortaro de Esperanto, ki so ga uredili Uwe Quasthoff, Sabine Fiedler in Erla Hallsteinsdóttir. Ta slovar z letnico izida 2014 je šesti v seriji pogostnostnih slovarjen, ki jih izdaja založba leipziške univerze Leipziger Universitätsverlag. Pred tem so v tej založbi izšli že pogostnostni slovarji za nemščino, angleščino, islandščino, francoščino in madžarščino, v pripravi pa so še za nizozemščino, ukrajinščino, indonezijščino, danščino, češčino in irščino.

Pogostnostni slovar je rezultat računalniške, statistične in jezikoslovne obdelave 2,5 milijona stavkov esperantskih besedil, dosegljivih na spletu in drugih digitalnih medijih. Metodologija obdelave je podobna kot pri ostalih jezikih v seriji, tako da so možne smiselne primerjave med jeziki. Slovar sestavljata knjiga in zgoščenka. V knjigi so predstavljene metodologija obdelave množice besedil (korpusa), jezikoslovne posebnosti esperanta in zanimive ugotovitve obdelave in analize. Sledi tabela 1.000 najpogostejših besed (oblik) v esperantu, razvrščenih po pogostnosti; pri vsaki besedi je navedena še relativna pogostnost v promilih in razred pogostosti. Druga tiskana tabela je po abecedi urejen seznam 10.000 najpogostejših besed v esperantu; vsaki besedi je dodan razred pogostosti. Na priloženi zgoščenki so tri tabele v formatu beležnice, ki vsebujejo milijon esperantskih besed (oblik), opremljenih z relativno pogostostjo in urejenih po abecedi, pogostosti in v obratnem ortografsko-abecednem redu, ter abecedni seznam v formatu pdf, ki vsebuje 250 tisoč besed (oblik), opremljenih z razredom pogostosti.

Ogromno število besed (oblik), ki nastopajo v slovarju, je posledica opredelitve besede kot oblike, ki se pojavlja v korpusu ter načina strojne obdelave besedil in statistične metodologije. Isto esperantsko besedo, kot jo običajno razumemo kot geslo v slovarju, predstavlja lahko več deset oblik, na primer beseda dimanĉo nastopa lahko še kot dimancho, dimancxo glede na način pisave, kot Dimanĉo na začetku stavka ali v naslovu, pa še prislovno dimanĉe, v množini dimanĉoj, v tožilniku dimanĉon, kot okrajšava Dim. in tako naprej v vseh smiselnih kombinacijah. Še večja množica besed (oblik) pa je vezana na posamezni koren esperantskih besed, saj je ta jezik edinstven po besedni produktivnosti. Tako nastopa koren est- v tem slovarju v 39 oblikah, koren nov- v 20 oblikah, koren amik- v 18 oblikah in tako naprej. Razkorak med oblikami in besedami bi bilo možno zmanjšati ob manjši zanesljivosti izidov z dodatnim programom ali z ročno obdelavo, ki pa pri takih količinah podatkov ni izvedljiva. Tako združevanje oblik ni bilo opravljeno, ker bi s tem izgubili primerljivost z drugimi slovarji iz serije. V tem razkoraku med oblikami ter besedami in koreni vidim tudi glavno težavo pri uporabnosti tega pogostostnega slovarja za jezikoslovne namene. Za določene jezikoslovne namene je tudi taka opredelitev besed (oblik) primerna, zlasti pa je ugodna za kriptografijo in dešifriranje kodiranih besedil. Vsekakor je treba izide statistične obdelave in drugih analiz v Pogostostnem slovarju esperanta jemati s previdnostjo in »cum grano salis« ter upoštevati omejitve, ki izvirajo iz metodologije te raziskave.  Ostoj Kristan