K voprosu ob ispol' zovanii statističeskih metodov dlja poiska kollokacij i kolligacij v drevnejših slavjanskih tekstah (na materiale glagoličeskih rukopisej korpusa "Manuskript")

Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаголических текстов исторического корпуса Манускрипт: славянское письменное наследие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля n-грамм, позволяющие извлекать сочетания, имеющие разное количе...

Full description

Permalink: http://skupnikatalog.nsk.hr/Record/nsk.NSK01001061191/Details
Matična publikacija: Slovo (Zagreb. Online)
69 (2019) ; str. 1-33
Glavni autor: Baranov, Viktor Arkad'evič (Author)
Vrsta građe: e-članak
Jezik: rus
Predmet:
Online pristup: https://doi.org/10.31745/s.69.1
Hrčak
LEADER 06953naa a22004094i 4500
001 NSK01001061191
003 HR-ZaNSK
005 20220419105442.0
006 m d
007 cr||||||||||||
008 200422s2019 ci a |o |0|| ||ruso
024 7 |2 doi  |a 10.31745/s.69.1 
035 |a (HR-ZaNSK)001061191 
040 |a HR-ZaNSK  |b hrv  |c HR-ZaNSK  |e ppiak 
041 0 |a rus  |b rus  |b hrv  |b eng 
042 |a croatica 
044 |a ci  |c hr 
080 1 |a 81  |2 2011 
080 1 |a 003  |2 2011 
100 1 |a Baranov, Viktor Arkad'evič  |4 aut 
245 1 0 |a K voprosu ob ispol' zovanii statističeskih metodov dlja poiska kollokacij i kolligacij v drevnejših slavjanskih tekstah (na materiale glagoličeskih rukopisej korpusa "Manuskript")  |h [Elektronička građa] /  |c Viktor А. Baranov. 
300 |b Ilustr. 
500 |a Bilješke uz tekst. 
504 |a Bibliografske bilješke uz tekst ; bibliografija i izvori: str. 15-19. 
504 |a Rezyume ; Sažetak ; Summary. 
505 8 |a Sadrži i: prilozi na str. 20-31. 
520 |a Работа посвящена вопросам методики поиска цельных сочетаний в коллекции глаголических текстов исторического корпуса Манускрипт: славянское письменное наследие (manuscripts.ru) и оценки их устойчивости. Демонстрируются возможности модуля n-грамм, позволяющие извлекать сочетания, имеющие разное количество компонентов, различную частотность, состоящие из текстовых форм или из лемм. Анализируются биграммы и триграммы, извлеченные с помощью статистической меры Mutual Information и встречающиеся одновременно в нескольких рукописях коллекции. Особое внимание обращается на n-граммы, имеющие высокие статистические значения меры. В соответствии с особенностями меры наибольшие значения имеют редкие в коллекции сочетания. Анализ таких биграмм на основе словоформ позволил выявить устойчивые грамматические конструкции – коллигации. Показывается, что триграммы, состоящие из текстовых форм, являются не только грамматически, но и семантически цельными – коллокациями. 
520 |a Rad je posvećen pitanjima metodologije pretraživanja i procjene stabilnosti ustaljenih kolokacija u zbirci glagoljskih tekstova povijesnog korpusa Manuskript: slavjanskoe pis’mennoe nasledie ( Rukopis: slavensko pismeno nasljeđe – manuscripts.ru). Prikazane su mogućnosti modula n-gram za ekstrakciju kolokacija – koje se sastoje od riječi i njihovih oblika ili lema – s različitim brojem komponenata i različitom učestalošću. Analiziraju se bigrami i trigrami izdvojeni pomoću statističke mjere uzajamne obavijesti (Mutual Information – MI), koji se pojavljuju istodobno u nekoliko rukopisa ove zbirke. Posebna se pozornost posvećuje n-gramima s visokom statističkom vrijednošću mjere MI. U skladu s obilježjima mjere, najveću vrijednost u zbirci imaju rijetke kombinacije. Analiza takvih rijetkih bigrama na temelju oblika riječi omogućila je identificiranje koherentnih gramatičkih konstrukcija – koligacija. Pokazano je da su trigrami koji se sastoje od tekstualnih oblika, ne samo gramatičke, već i semantičke cjeline – kolokacije. Bigrami s komponentama-lemama su raznoliki – prijedložno-padežne kolokacije s imenicama i povratno-posvojnim zamjenicama te ostale atributivne konstrukcije, glagolsko-imeničke odnosne konstrukcije itd. Pomoću analize ovih skupina pronađene su kako koligacije, tako i kolokacije. Najproduktivniji rezultat bilo je izdvajanje trigrama na temelju lema: većina prvih nekoliko desetaka kombinacija koje imaju maksimalnu vrijednost u skladu sa statističkom mjerom Mutual Information – gramatičke su i semantičke cjeline ili njihovi dijelovi. Donosi se zaključak o učinkovitosti primjene statističkih metoda za ekstrakciju kolokacija i koligacija iz korpusa srednjovjekovnih slavenskih rukopisa. 
520 |a The paper deals with the questions concerning the methodology used to search for fixed collocations in the collection of Glagolitic texts in the historical corpus Manuscript: Slavic written heritage (manuscripts.ru) and to evaluate their stability. It demonstrates the possibilities of the n-gram module to extract collocations, consisting of words and their textual forms or lemmas, with different numbers of components and different frequency of occurrence. Analyzed are digrams and trigrams extracted using the statistical measure of Mutual Information that occur simultaneously in several manuscripts from the collection. Particular attention is given to n-grams with high statistical MI values. In accordance with the specifics of the measure, the greatest values belong to the collocations that are rare in the collection. The analysis of such digrams based on the word forms has enabled an identification of coherent grammatical structures – colligations. Trigrams consisting of textual forms are shown to be not only grammatical, but also semantic units – collocations. Digrams with components-lemmas have different forms: preposition-noun collocations, preposition-possessive pronoun collocations and other attributive constructions, relative verb-noun constructions, etc. The analysis of these groups identified both colligations and collocations. Extraction of trigrams on the basis of lemmas was the most productive – the greatest part of the first few dozens of collocations with a maximum MI value are grammatical and semantic units or their parts. A conclusion is made about the efficiency of application of statistical methods for the extraction of collocations and colligations from the corpora comprising medieval Slavonic manuscripts. A complex solution of the given problem requires the use of different types of n-grams – two-components and triple-components, based on textual forms and lemmas, with free and fixed component order. 
546 |b Ćir. 
653 0 |a Glagoljski rukopisi  |a Jezična statistika  |a Kolokacije  |a Koligacije 
773 0 |t Slovo (Zagreb. Online)  |x 1849-1049  |g 69 (2019) ; str. 1-33  |w nsk.(HR-ZaNSK)000855390 
981 |b Be2019  |b B03/19 
998 |b tino2005  |b boki2204 
856 4 0 |u https://doi.org/10.31745/s.69.1 
856 4 0 |u https://hrcak.srce.hr/231473  |y Hrčak 
856 4 1 |y Digitalna.nsk.hr