MARC: Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku

Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku

Sažetak na hrvatskom: Vektorske reprezentacije riječi prikazuju riječi nisko-dimenzionalnim vektorima realnih vrijednosti u svrhu matematičkog zapisa sintaksnih te semantičkih informacija. Nenadziranim učenjem na skupu teksta hrWaC od 1.4 milijardu pojavnica izgrađujemo 4 tipa reprezentacija za rječ...

Full description

Permalink:	http://skupnikatalog.nsk.hr/Record/fer.KOHA-OAI-FER:46307/Details
Glavni autor:	Gašić, Goran (-)
Ostali autori:	Šnajder, Jan (Thesis advisor)
Vrsta građe:	Drugo
Impresum:	Zagreb, G. Gašić, 2015.
Predmet:	obrada prirodnog jezika > duboko učenje > vektorske reprezentacije > neuronske mreže > označavanje vrsta riječi > morfo-sintaksni deskriptori > prepoznavanje imenovanih entiteta > POS > MSD > NER > NLP natural language processing > deep learning > word embeddings > neural networks > part-of-speech tagging > morphosyntactic descriptors > named entity recognition > POS > MSD > NER > NLP


LEADER	02735na a2200241 4500
003	HR-ZaFER
005	20160624162115.0
008	160221s2015 ci \|\|\|\|\| m\|\|\| 00\| 0 hr d
035			\|a (HR-ZaFER)ferid2391
040			\|a HR-ZaFER \|b hrv \|c HR-ZaFER \|e ppiak
100	1		\|a Gašić, Goran \|9 37285
245	1	0	\|a Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku : \|b diplomski rad / \|c Goran Gašić ; [mentor Jan Šnajder].
246	1		\|a Deep Learning of Word Embeddings for Tagging Models for Croatian Texts \|i Naslov na engleskom:
260			\|a Zagreb, \|b G. Gašić, \|c 2015.
300			\|a 35 str. ; \|c 30 cm + \|e CD-ROM
502			\|b diplomski studij \|c Fakultet elektrotehnike i računarstva u Zagrebu \|g smjer: Računarska znanost, šifra smjera: 56, datum predaje: 2015-06-30, datum završetka: 2015-07-13
520	3		\|a Sažetak na hrvatskom: Vektorske reprezentacije riječi prikazuju riječi nisko-dimenzionalnim vektorima realnih vrijednosti u svrhu matematičkog zapisa sintaksnih te semantičkih informacija. Nenadziranim učenjem na skupu teksta hrWaC od 1.4 milijardu pojavnica izgrađujemo 4 tipa reprezentacija za rječnik od 200000 riječi. Pomoću njih dubokim učenjem izgrađujemo modele označavanja tekstova zasnovane na umjetnim neuronskim mrežama. Kombiniramo dostupne označene skupove podataka. Ostvarujemo vrhunsku ili točnost blisku vrhunskoj za označavanje vrsta riječi (96.40%), morfo-sintaksnih deskriptora (89.95%) te imenovanih entiteta (98.61%) na ispitnim skupovima. Javno objavljujemo sve skupove podataka.
520	3		\|a Sažetak na engleskom: Word embeddings represent words using low-dimensional real-valued vectors to mathematically express their syntactic and semantic information. We use unsupervised learning on the hrWaC dataset containing 1.4 billion tokens to build 4 types of word embeddings for a dictionary of 200000 words. Then we leverage deep learning to build tagging models based on artifical neural networks. We combine available labelled datasets. We achieve state-of-the-art or near state-of-the-art accuracy for part-of-speech tagging (96.40%), morphosyntactic tagging (89.95%) and named entity recognition (98.61%) on test datasets. We make all datasets publicly available.
653		1	\|a obrada prirodnog jezika \|a duboko učenje \|a vektorske reprezentacije \|a neuronske mreže \|a označavanje vrsta riječi \|a morfo-sintaksni deskriptori \|a prepoznavanje imenovanih entiteta \|a POS \|a MSD \|a NER \|a NLP
653		1	\|a natural language processing \|a deep learning \|a word embeddings \|a neural networks \|a part-of-speech tagging \|a morphosyntactic descriptors \|a named entity recognition \|a POS \|a MSD \|a NER \|a NLP
700	1		\|a Šnajder, Jan \|4 ths \|9 19016
942			\|c Y \|2 udc
999			\|c 46307 \|d 46307

Duboko učenje vektorskih reprezentacija riječi za modele označavanja tekstova na hrvatskome jeziku

Slični primjerci