Википедија:Википројекат WikiELTeC
WikiELTeC је пројекат Викимедије Србије и Друштва за језичке ресурсе и технологије ЈеРТех замишљен да се у 2022. години стари српски романи из колекције ELTeC представе Википодацима. Пројекат обухвата унос, повезивање именованих ентитета, визуелизацију и анализа унетих Википодатака.
Циљ пројекта
уредиЦиљ пројекта је да се унесу вики подаци о старим српским романима који су сканирани, ручно кориговани, опремљени метаподацима, обележени именованим ентитетима у оквиру Cost D-reading акције CA16204 (2017-2021) „Удаљено читање за европску историју књижевности“ (D-reading). Један од најважнијих циљева ове акције је припрема вишејезичног корпуса (названог European Literary Text Collection - ELTeC) који ће, када буде потпуно завршен, садржати по 100 романа први пут објављених у периоду 1840-1920 за сваки језик из акције. Тим предвођен проф. Цветаном Крстев је публиковао 100 романа у основној и 20 у проширеној подколекцији, што представља основни ресурс за wikiELTeC пројекат. Активности пројекта су усмерене на:
- Повећање броја википедијанаца
- Проширење врста активнисти википедијанаца
- Унос нових записа у Википодатке
- Унос нових записа у Викизворник
- Унапређење постојећих ресурса динамичким садржајима (семантичким и картографским)
Мотиви за израду пројекта
уредиРомани први пут публиковани у периоду 1840-1920. године су слабо познати јавности, неки од њих нису имали обновљена издања и сматрамо да је свака промоција овог ресурса и сваки различити облик публиковања важан и да доприноси видљивости српског језика и књижевности.
Треба напоменути да су романи припремљени у писму у ком су публиковани и то је углавном била ћирилица, што је додатно у сагласности са државним активностима за очување ћириличног писма.
Свест о могућностима коришћења структурираних података на вебу је мала и сматрамо да ће овај пројекат да допринесе не само изградњи викиресурса већ и унапређењу коришћења похрањених википодатака.
Реализација пројекта
уредиУнос основних вики података о овим романима је овим пројектом допуњен за све романе.
Проширење скупа података је укључило и локације где се одвија радња романа, главне ликове, а потом и повезивање у самом тексту романа са вики подацима.[1]
Викизворник је плану, где би он био допуњен романима из ELTeC колекције.
Циљна група
уредиИмајући у виду популарност Викимедијиних пројеката верујемо да би се широј популацији ова драгоцена колекција, каква до сада није постојала за српски, додатно приближити и да ће се осветлити до сада непозната дела српске књижевности први пут објављена у периоду 1840-1920.
Циљна група дакле могу бити историчари, историчари књижевности, ђаци, студенти, и сви остали који нису имали прилике да виде и прочитају ове ретке књиге, сакупљене по нашим највећим библиотекама и приватним колекцијама.
Развијени ресурси
уредиРазвијени ресурси ће омогућити разноврсна лингвистичка, филолошка и информатичка истраживања. Садржаће материјал који није обухваћен ниједним постојећим корпусом. Сви текстови корпуса ELTeC ће постати део дигиталне библиотеке Аурора коју развија Јертех и Википодаци ће бити спрегнути са приказом података о романима. Као резултат пројекта биће додате странице које ће користећи Wikidata Query Service и SPARQL упите приказивати на различите начине унете Википодатке, као на пример места на којима се дешава радња романа. [2] Вики страна са детаљним приказом упита је доступна на Wikidata:WikiProject ELTeC/Queries.
Визуелизација википодатака о старим српским романима:
слика | УРЛ | опис |
---|---|---|
Aутори - шта знамо!? | Интерактивни графикони и приказ стабла аутора и ELTeC издања. | |
Величина романа мерена бројем страница. | Интерактивни балон графикон са романима у колекцији ELTeC који имају VIAF ID, где је величина круга број страница или број речи. | |
Путујемо у место издања романа! | Meста првог издања романа SrpELTeC колекције. | |
Која места аутори помињу у романима? | Интерактивни балон графикон са местима која су аутори помињали у колекцији SrpELTeC. Величина круга сразмерна је броју помињања места у роману по ауторима. | |
Места која се највише помињу у романима? | Графички приказ броја места која се помињу у колекцији. | |
Славимо лепа времена! | Визуелизација временске линије романа, сортирана по години њиховог првог објављивања. | |
Ко је моја жена? | Интерактивни график супружника у романима. | |
Сви смо овде! | Интерактивни графикон свих ликова у романима. | |
Погледај ко је мајка, а ко је њено дете! | Интерактивни графикон свих ликова у роману који су у односу мајка-дете. | |
Погледај ко је отац, а ко је дете! | Интерактивни графикон свих ликова у роману који су у односу отац-дете. |
Веб страна на енглеском са упитима је доступна на овој адреси.
Статистика подколекције ELTeC српских романа:
графикон | упит | опис |
---|---|---|
https://w.wiki/5mQ6 | Графикон зависности броја ликова у односу на романе. | |
https://w.wiki/5mPu | Графикон броја појављивања градова у целој колекцији. | |
https://w.wiki/5mPY | Приказ места која се помињу у сваком роману. | |
https://w.wiki/5mPZ | Приказ ликова који се помињу у сваком роману. |
Систематизација свих ставки у Википодацима
Да би се лако приступило сваком роману, као и издању сваког романа (електронском, дигиталном или штампаном) систематизован је преглед свих романа на страници WikiProject_ELTeC/srpELTeC .
Очекивани утицај
Расположивост предложених ресурса ће свакако приближити читаоцима Вики ресурса овај књижевни период о ком нема много широко доступних информација, али ће кроз романе моћи и да се упозна начин живота у граду и селу у то време, обичаји, јела, … Спрезање текстуалних података са Википодацима ће допринети машинској разумљивости поменутих романа и допринети другачијем, „удаљеном“ погледу на српску књижевност у периоду 1840-1920.
Расположивост предложених ресурса ће свакако приближити читаоцима Вики ресурса овај књижевни период о ком нема много широко доступних информација, али ће кроз романе моћи и да се упозна начин живота у граду и селу у то време, обичаји, јела, … Спрезање текстуалних података са Википодацима ће допринети машинској разумљивости поменутих романа и допринети другачијем, „удаљеном“ погледу на српску књижевност у периоду 1840-1920.
Предложени тим је укључен у COST акцију CA18209 NexusLinguarum – European network for Web-centred linguistic data science која траје 2019-2023 те ће моћи да пренесу актуелне технологије и знања у вики заједницу Србије и даље, али и да користе и промовишу резултате овог пројекта у другим стручним и научним активностима.
wikiELTeC радионицa и промоцијa
уредиЛокација: Универзитет у Београду, Рударско - геолошки факултет, Ђушина 7
Датум: 17.11.2022. године у 16 часова
Сатница радионице:
16:00 – Отварање и поздравна рече, Ивана Маџаревић, Викимедија Србије
16.15 – 16.30 Проф. др Ранка Станковић: Википодаци корпуса SrpELTeC: упознавање са својствима романа
16.30 – 17:00 Милица Иконић Нешић, Биљана Рујевић: Практичан рад на уношењу података о романима.
17.00 – 17:20 Проф. др Ранка Станковић: Основе SPARQL упитног језика са примерима претраге SrpELTeC Википодатака
17.20 – 17:40 Милица Иконић Нешић: Практичан рад на модификовању постојећих и креирању нових SPARQL упита о романима
17:40 – 18.00 Пауза за кафу
Сатница промоције:
18:00 – 18:15 Проф. др Цветана Крстев: О корпусу старих српских романа SrpELTeC
18:15 – 18:30 Проф. др Ранка Станковић: Корпус SrpELTeC и Википодаци
18:30 – 18:45 Проф. др Душко Витас: Слике из приватног живота у корпусу SrpELTeC
18:45 – 19:15 Питања
19:15 -21:00 Коктел и непосредна дискусија
Полазници радионице имали су прилику да упознају SrpELTeC кроз оквир Википодатака и упитног језика SPARQL, да науче начин уношења података о роману у Википодатке, поставе упите над базом знања и генеришу занимљиве динамичке визуелизације података и романа. Други део програма био је одвојен за промоцију, приликом које су укратко били представљени главни резултати пројекта SrpELTeC из ког су проистекли мотиви и идеје за пројекат wikiELTeC, након чега је уследила демонстрација карактеристичних претрага и визуелизација.
Остале активности и радионице
уредиРанка Станковић, заменик председника Друштва за језичке ресурсе и технологије JeRTeh је одржала у недељу, 29.05.2022. радионицу под насловом "wikiELTeC - Википодаци о старим српским романима из колекције ELTeC" у оквиру догађаја Викилајв 2022, о ком више информација се може видети на
https://sr.wikipedia.org/wiki/Википедија:Викилајв_2022 .
Презентација је доступна на вики страни пројекта и на https://commons.wikimedia.org/wiki/File:Vikilajv_srpELTeC_@_Wikidata_-_Ranka_Stankovi%C4%87.pdf
Рад “Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection” са референцирањем на овај пројекат је изложен у на престижној конференцији “13th Conference on Language Resources and Evaluation (LREC 2022)” која је одржана у Марсељу 20-25 јуна 2022 у организацији European Language Resources Association (ELRA). Рад је одштампан у зборнику радова на странама 3337–3345 који је публикован и онлајн под лиценцом CC-BY-NC-4.0 доступан на адреси
http://www.lrec-conf.org/proceedings/lrec2022/pdf/2022.lrec-1.356.pdf .
Одржана је радионица на којој је договорен начин повезивања википодатака pомана и података на Oстави и унети су први записи. Резултати пројекта су том приликом представљени и др Ољи Перишић која је предавач на Универзитету у Торину на Департману за стране језике и културе. Осим активности на самој радионици, договорено да она преведе наслове романа на италијански језик.
Резултати пројекта
уредиПовезивање старих српских романа из периода од 1840-1920 године повећало је интересовање студената за заборављену књижевност, заробљену у папирним ретким верзијама. Овакав пројекат је допринео визуелизацији романа и био је инспирација инстраживачкoj групи за уношење још 600 романа у Википодатке писаних на 6 различитих језика (енглески, мађарски, словеначки, португалски, немачки. француски).
Један од најинтересантнијих сегмената пројекта био је ручни унос ликова романа и повезивање романа са местима радње. Број романа у којима се појављује нека локација: најфреквентнија Србија, потом Београд. На слици нису приказани сви градови само они који се појављују у више романа и само понеки који се појављују у само једном роману.
Унето је 120 романа основне srpELTeC и srpELTeC-ext колекције (link). Преглед свих романа и издања која се налазе у Википодацима WikiProject_ELTeC/srpELTeC . За 70 романа унето је 965 ликова, као и више од 5 основних својстава за сваки лик, при чему се тежило и допуњавању родбинских односа, љубавних односа, начина смрти, занимања, надимака, https://w.wiki/5mPZ. Такође, унето је 136 различитих места радње https://w.wiki/5nhK, рачунајући појављивање по романима укупнос 249 https://w.wiki/5mPY.
Пројекат је награђен као најуспешнији у 2022. години.
Пројекат је био мотивација за пројекат реализован у 2023. години Википедија:Википројекат WikiELTeC 2023.
Види још
уредиУредници
уредиСпољне везе
уреди- ELTeC колекција текстова
- Српски романи у оквиру ELTeC колекције
- Кориговање текста у оквиру радне акције дигитална библиотека 100 српских романа
- Обележавање текста у оквиру радне акције дигитална библиотека 100 српских романа
- Темплејт википодатака ELTeC колекције
- Примери упита над википодацима ELTeC колекције
- Визуелизација википодатака о старим српским романима
- SrpELTeC на Остави
Референце
уреди- ^ http://jerteh.rs/wp-content/uploads/2021/12/Named-Entity-Journey-from-Unitex-to-Wikidata-.pdf
- ^ IKONIĆ NEŠIĆ, Milica; STANKOVIĆ, Ranka; RUJEVIĆ, Biljana. Serbian ELTeC Sub-Collection in Wikidata. Infotheca - Journal for Digital Humanities, [S.l.], v. 21, n. 2, p. 60-87, feb. 2022. ISSN 2217-9461. https://infoteka.bg.ac.rs/ojs/index.php/Infoteka/article/view/2021.21.2.4_en