Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku

Sažetak na hrvatskom: Vektorske reprezentacije riječi prikazuju riječi nisko-dimenzionalnim vektorima realnih vrijednosti u svrhu matematičkog zapisa sintaksnih te semantičkih informacija. Nenadziranim učenjem na skupu teksta hrWaC od 1.4 milijardu pojavnica izgrađujemo 4 tipa reprezentacija za rječ...

Full description

Permalink: http://skupnikatalog.nsk.hr/Record/fer.KOHA-OAI-FER:46307/Details
Glavni autor: Gašić, Goran (-)
Ostali autori: Šnajder, Jan (Thesis advisor)
Vrsta građe: Drugo
Impresum: Zagreb, G. Gašić, 2015.
Predmet:
LEADER 02735na a2200241 4500
003 HR-ZaFER
005 20160624162115.0
008 160221s2015 ci ||||| m||| 00| 0 hr d
035 |a (HR-ZaFER)ferid2391 
040 |a HR-ZaFER  |b hrv  |c HR-ZaFER  |e ppiak 
100 1 |a Gašić, Goran  |9 37285 
245 1 0 |a Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku :  |b diplomski rad /  |c Goran Gašić ; [mentor Jan Šnajder]. 
246 1 |a Deep Learning of Word Embeddings for Tagging Models for Croatian Texts  |i Naslov na engleskom:  
260 |a Zagreb,  |b G. Gašić,  |c 2015. 
300 |a 35 str. ;  |c 30 cm +  |e CD-ROM 
502 |b diplomski studij  |c Fakultet elektrotehnike i računarstva u Zagrebu  |g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2015-06-30, datum završetka: 2015-07-13 
520 3 |a Sažetak na hrvatskom: Vektorske reprezentacije riječi prikazuju riječi nisko-dimenzionalnim vektorima realnih vrijednosti u svrhu matematičkog zapisa sintaksnih te semantičkih informacija. Nenadziranim učenjem na skupu teksta hrWaC od 1.4 milijardu pojavnica izgrađujemo 4 tipa reprezentacija za rječnik od 200000 riječi. Pomoću njih dubokim učenjem izgrađujemo modele označavanja tekstova zasnovane na umjetnim neuronskim mrežama. Kombiniramo dostupne označene skupove podataka. Ostvarujemo vrhunsku ili točnost blisku vrhunskoj za označavanje vrsta riječi (96.40%), morfo-sintaksnih deskriptora (89.95%) te imenovanih entiteta (98.61%) na ispitnim skupovima. Javno objavljujemo sve skupove podataka. 
520 3 |a Sažetak na engleskom: Word embeddings represent words using low-dimensional real-valued vectors to mathematically express their syntactic and semantic information. We use unsupervised learning on the hrWaC dataset containing 1.4 billion tokens to build 4 types of word embeddings for a dictionary of 200000 words. Then we leverage deep learning to build tagging models based on artifical neural networks. We combine available labelled datasets. We achieve state-of-the-art or near state-of-the-art accuracy for part-of-speech tagging (96.40%), morphosyntactic tagging (89.95%) and named entity recognition (98.61%) on test datasets. We make all datasets publicly available. 
653 1 |a obrada prirodnog jezika  |a duboko učenje  |a vektorske reprezentacije  |a neuronske mreže  |a označavanje vrsta riječi  |a morfo-sintaksni deskriptori  |a prepoznavanje imenovanih entiteta  |a POS  |a MSD  |a NER  |a NLP 
653 1 |a natural language processing  |a deep learning  |a word embeddings  |a neural networks  |a part-of-speech tagging  |a morphosyntactic descriptors  |a named entity recognition  |a POS  |a MSD  |a NER  |a NLP 
700 1 |a Šnajder, Jan  |4 ths  |9 19016 
942 |c Y  |2 udc 
999 |c 46307  |d 46307