Корпусна лингвистика

Корпусна лингвистика је назив за метод у лингвистичким истраживањима у коме се користе велики узорци природног говора (корпуси). Корпуси се састоје од више стотина хиљада (или неколико милиона или више) речи и њих је могуће аутоматски претраживати. Анализом корпуса доносе се поуздани закључци о фреквенцији употребе речи и израза, контексту употребе конструкција које желимо да проучимо, о различитим значењима једне речи, одликама жанрова итд[1]. Корпуси се деле на: опште корпусе, који се састоје од текстова свих жанрова, и специјализоване корпусе, који се фокусирају на узорке језика из једне епохе или одређене групе говорника (нпр. корпус језика деце).

Примена корпуса у лексикографији

уреди

Пошто дају приступ великим узорцима спонтано употребљеног језика, корпуси су данас неизбежан извор података приликом израде речника. Велики број примера употребе који су доступни у електронској форми не само да олакшава израду, допуњавање и осавремењивање речника, већ увечава тачност и прецизност информација у речнику. Општи корпуси (који садрже више десетина или стотина милиона речи) дају нам увид у употребу и учесталост коришћења речи, што је посебно важно за опис мање фреквентних речи. Уз то, многи корпуси садрже и информације попут места и времена где је текст настао, пола особе која је аутор текста, жанра коме текст припада и сличне податке који могу бити од користи лексикографима. Корпуси који се стално допуњавају (енгл. монитор цорпора) дају увид и у нове речи и изразе и тачне начине на које их говорници употребљавају[2].

Примена корпуса у синтаксичким истраживањима

уреди

У изучавању синтаксе, корпуси омогућавају да се тежиште у истраживањима стави на квантитативну уместо квалитативне анализе. Уместо субјективних процена прихватљивости или учесталости одређених синтактичких конструкција, корпуси дају емпиријски увид у најтипичније употребе и варијације до којих долази у односу на језички варијетет, жанр и сличне варијабле[2].

Историјат корпусне лингвистике

уреди

Зачеци корпусне лингвистике била су пописивања вишеструких употреба речи и израза у текстовима. У почетку су ови послови били везани за пописивање свих речи из Библије и места у тексту где су се те речи јавиле. Прве такве конкордансе Библије датирају из XIII века и на њима је по правилу радио велики број монаха који су индексе речи из Библије правили ручно. Осим Библије, на исти начин су индексирана и дела писаца попут Шекспира ради лакшег проучавање њихових опуса; пример такве конкордансе је А Цонцорданце то Схакеспеаре Ендруа Бекета из 1787. године[3].

Језуита Роберто Буса педесетих година XX века започео Индеx Тхомистицус, индекс свих дела Томе Аквинског, који је касније пренесен на бушене картице и представља први корпус који се могао компјутерски претраживати и конкордансирати[2][3].

Веома важан био је рад лексикографа, који су речнике израђивали на основу примера стварне употребе језика. Рад др Семјуела Џонсона на речнику енглеског језика из 1755. године ослањао се на огроман корпус састављен од папирних трака са примерима употребе речи забележених између 1560. и 1660. године. Оксфордов речник енглеског језика (Оxфорд Енглисх Дицтионарy) израђен је на исти начин уз помоћ више од три милиона папирних трака[3].

Ова метода коришћена је и за потребе израде граматика. Међу таквим примерима су вишетомна граматика Ота Јесперсена А Модерн Енглисх Граммар он Хисторицал Принциплес (1909–1949), као и корпус Сурвеy оф Енглисх Усаге (СЕУ) Цорпус на основу којег је израђена граматика А Цомпрехенсиве Граммар оф тхе Енглисх Лангуаге[4][5].

Још један допринос развоју претраживих збирки дали су библиотекари. Седамдесетих година XX века библиотекари су осмислили неке системе за претраживање кључних речи у контексту ради лакше израде библиотечких каталога, библиографија и сл[3].

Амерички лингвисти структуралисти заговарали су коришћење и проучавање аутентичних примера језика у спонтаној употреби[3]. Збирке узорака текста биле су неизоставне у историјској лингвистици, где није било могуће доћи до изворних говорника, рецимо средњевековног енглеског језика. Затим, фонетичари и лингвисти који проучавају усвајање језика код деце почели су да користе корпусе. У усвајању језика су током шездесетих година XX века већ коришћени транскрибовани примери употребе језика у говору деце (ЦХИЛДЕС)[3].

Корпусна лингвистика је на кратко ослабљена ширењем поставки трансформационо-генеративне граматике Ноама Чомског. Због нагласка на језичкој компетенцији (језичкој интуицији говорника), а не на перформанси (стварној употреби језика), корпусне методе су биле занемарене у проучавању језика од краја педесетих до осамдесетих година XX века. Ипак, корпусна лингвистика није нестала и шездесете и седамдесете године XX века донеле су неке прекретнице у развоју ове области.

Први електронски корпус писаног језика, тхе Броwн Цорпус, саставили су шездесетих година XX века Нелсон Френсис и Хенри Кучера. Овај корпус је прво записан на бушеним картицама, а касније је пренесен на магнетне траке[3][4]. Тхе Броwн Цорпус се састојао од око милион речи из текстова на енглеском језику са америчког говорног подручја. Материјал је прикупљен током 1961. године из петнаест различитих језичких жанрова и био је састављен специјално за потребе лингвистичке анализе. Овај корпус је поставио прве стандарде у изради општих корпуса и послужио је као модел за састављање других корпуса. По угледу на њега настао је британски пандан Ланцастер-Осло/Берген Цорпус (ЛОБ)[4].

Први корпус говорног енглеског језика израђен је на Универзитету у Единбургу је између 1963. и 1965. године. Састојао се од 166.000 речи[3]. Између 1975. и 1990. израђен је корпус говорног енглеског језика тхе Лондон-Лунд Цорпус оф Спокен Енглисх (ЛЛЦ) који је садржао пола милиона речи.

Током седамдесетих година XX века постепено се умножавао број електронских корпуса. Поред енглеског, јављају се и корпуси на другим језицима. Јављају се и другачије врсте језичких корпуса. Током осамдесетих и деведесетих година XX века корпусна лингвистика је доживела прави процват[3].Развој корпусне лингвистике у овом периоду омогућили су све већа доступност компјутера и напредак технологије у погледу капацитета и брзине прикупљања и обраде података.

Референце

уреди
  1. ^ Таyлор, C. (2008). Wхат ис цорпус лингуистицс? Wхат тхе дата саyс, ИЦАМЕ Јоурнал 32:179–200.
  2. ^ а б в МцЕнерy, Т. анд Wилсон, А. (2001).Цорпус Лингуистицс.Единбургх Университy Пресс.
  3. ^ а б в г д ђ е ж з О’Кееффе, А., & МцЦартхy, M. (едс.). (2010). Тхе Роутледге Хандбоок оф Цорпус Лингуистицс. Абингдон: Роутледге.
  4. ^ а б в Кеннедy, Г. (1998). Ан Интродуцтион то Цорпус Лингуистицс. Лондон: Адисон Wеслеy Лонгман.
  5. ^ Меyер, C. Ф. (2004). Енглисх Цорпус Лингуистицс: Ан Интродуцтион. Цамбридге: Цамбридге Университy Пресс.

Литература

уреди
  • Студиес ин Цорпус Лингуистицс анд Енглисх Цорпус Лингуистицс
  • Бибер, D., Цонрад, С., Реппен Р. Цорпус Лингуистицс, Инвестигатинг Лангуаге Струцтуре анд Усе, Цамбридге: Цамбридге УП, 1998. ISBN 0-521-49957-7
  • МцЦартхy, D., анд Сампсон Г. Цорпус Лингуистицс: Реадингс ин а Wиденинг Дисциплине, Цонтинуум, 2005. ISBN 0-8264-8803-X
  • Фаццхинетти, Р. Тхеоретицал Десцриптион анд Працтицал Апплицатионс оф Лингуистиц Цорпора. Верона: QуиЕдит, 2007 ISBN 978-88-89480-37-3
  • Фаццхинетти, Р. (ед.) Цорпус Лингуистицс 25 Yеарс он. Неw Yорк/Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
  • Фаццхинетти, Р. анд Риссанен M. (едс.) Цорпус-басед Студиес оф Диацхрониц Енглисх. Берн: Петер Ланг, 2006 ISBN 3-03910-851-4
  • Лендерс, W. Цомпутатионал леxицограпхy анд цорпус лингуистицс унтил ца. 1970/1980, ин: Гоуwс, Р. Х., Хеид, У., Сцхwеицкард, W., Wиеганд, Х. Е. (едс.) Дицтионариес - Ан Интернатионал Енцyцлопедиа оф Леxицограпхy. Супплементарy Волуме: Рецент Девелопментс wитх Фоцус он Елецтрониц анд Цомпутатионал Леxицограпхy. Берлин: Де Груyтер Моутон, 2013 ISBN 978-3-11-214665-1

Спољашње везе

уреди