Анализа сентимента текста

Анализа сентимента текста (такође позната као истраживање мишљења или емоциона VI) је употреба обраде природног језика, анализе текста, рачунарске лингвистике и биометрије за систематско идентификовање, издвајање, квантификацију и проучавање афективних стања и субјективних информација. Анализа сентимента се широко примењује на материјале корисника као што су рецензије и одговори на анкете, онлајн и друштвени медији, и материјали здравствене заштите за апликације које се крећу од маркетинга преко корисничке службе до клиничке медицине. Са порастом заступљености дубоких језичких модела, као што је РоБЕРТа, могу се анализирати и тежи домени података, на пример, текстови вести у којима аутори обично мање експлицитно изражавају своје мишљење/осећај.[1]

Типови уреди

Основни задатак у анализи сентимента је класификовање поларитета датог текста на нивоу документа, реченице или обележја/аспеката – било да је изражено мишљење у документу, реченици или особини/аспекту позитивно, негативно или неутрално. Напредна класификација осећања „изван поларитета“ гледа, на пример, на емоционална стања као што су уживање, бес, гађење, туга, страх и изненађење.[2]

Претходници сентименталне анализе укључују Генерал Инqуирер,[3] који је дао наговештаје за квантификацију образаца у тексту и, посебно, психолошка истраживања која су испитивала психолошко стање особе на основу анализе њеног вербалног понашања.[4]

Након тога, метод описан у патенту Волканија и Фогела,[5] је посебно посматрао осећај и идентификовао појединачне речи и фразе у тексту у односу на различите емоционалне скале. Актуелни систем заснован на њиховом раду, назван ЕффецтЦхецк, представља синониме који се могу користити за повећање или смањење нивоа изазваних емоција на свакој скали.

Многи други покушаји који су уследили били су мање софистицирани, користећи пуки поларни поглед на осећања, од позитивних до негативних, као што је рад Тернија[6] и Панга[7] који су применили различите методе за откривање поларитета рецензија производа и рецензија филмова. Овај рад је на нивоу документа. Такође се може класификовати поларитет документа на вишесмерној скали, што су између осталих покушали Панг[8] и Снајдер[9] између осталих; Панг и Ли[8] су проширили основни задатак класификације филмске критике као позитивне или негативне да предвиди оцене звездица на скали од 3 или 4 звездице, док је Снајдер[9] извршио детаљну анализу рецензија ресторана, предвиђајући оцене за различите аспекте датог ресторана, као што су храна и атмосфера (на скала са пет звездица).

Први кораци ка спајању различитих приступа—учењу, лексичком, заснованом на знању, итд. — предузети су на Пролећном симпозијуму АААИ 2004. где су лингвисти, информатичари и други заинтересовани истраживачи прво ускладили интересе и предложили заједничке задатке и скупове података за референтне вредности за систематско рачунарско истраживање афекта, привлачности, субјективности и сентимента у тексту.[10]

Иако се у већини статистичких метода класификације неутрална класа занемарује под претпоставком да неутрални текстови леже близу границе бинарног класификатора, неколико истраживача сугерише да се, као и у сваком проблему поларитета, морају идентификовати три категорије. Штавише, може се доказати да специфични класификатори као што су максимална ентропија[11] и СВМ[12] могу имати користи од увођења неутралне класе и побољшати укупну тачност класификације. У принципу постоје два начина за рад са неутралном класом. Или, алгоритам наставља тако што прво идентификује неутрални језик, филтрира га и затим процењује остатак у смислу позитивних и негативних осећања, или гради тросмерну класификацију у једном кораку.[13] Овај други приступ често укључује процену дистрибуције вероватноће по свим категоријама (нпр. наивни Бајесови класификатори како их примењује НЛТК). Да ли и како користити неутралну класу зависи од природе података: ако су подаци јасно групирани у неутралан, негативан и позитиван језик, има смисла филтрирати неутрални језик и фокусирати се на поларитет између позитивних и негативних осећања. Ако су, насупрот томе, подаци углавном неутрални са малим одступањима ка позитивном и негативном утицају, ова стратегија би отежала јасну разлику између два пола.

Другачији метод за одређивање сентимента је употреба система скалирања где се речима које се обично повезују са негативним, неутралним или позитивним осећањима даје придружени број на скали од −10 до +10 (од најнегативнијих до најпозитивнијих) или једноставно од 0 до позитивне горње границе као што је +4. Ово омогућава прилагођавање осећања датог појма у односу на окружење (обично на нивоу реченице). Када се део неструктурираног текста анализира коришћењем обраде природног језика, сваком концепту у наведеном окружењу се додељује оцена на основу начина на који се речи осећаја односе на концепт и са њим повезан резултат.[14][15][16] Ово омогућава кретање ка софистициранијем разумевању осећања, јер је сада могуће прилагодити вредност сентимента концепта у односу на модификације које га могу окруживати. Речи, на пример, које интензивирају, опуштају или негирају осећање изражено концептом могу утицати на његов резултат. Алтернативно, текстовима се може дати позитивна и негативна оцена јачине сентимента ако је циљ да се одреди сентимент у тексту, а не укупни поларитет и јачина текста.[17]

Постоје разне друге врсте анализе сентимента, као што су анализа заснована на аспектима, анализа оцењивањем (позитивно, негативно, неутрално), вишејезична анализа и детекција емоција.

Референце уреди

  1. ^ Хамборг, Фелиx; Доннаy, Карстен (2021). "НеwсМТСЦ: А Датасет фор (Мулти-)Таргет-депендент Сентимент Цлассифицатион ин Политицал Неwс Артицлес". "Процеедингс оф тхе 16тх Цонференце оф тхе Еуропеан Цхаптер оф тхе Ассоциатион фор Цомпутатионал Лингуистицс: Маин Волуме"
  2. ^ Вонг Анх Хо, Дуонг Хуyнх-Цонг Нгуyен, Данх Хоанг Нгуyен, Линх Тхи-Ван Пхам, Дуц-Ву Нгуyен, Киет Ван Нгуyен, Нган Луу-Тхуy Нгуyен. "Емотион Рецогнитион фор Виетнамесе Социал Медиа Теxт". Ин Процеедингс оф тхе 2019 Интернатионал Цонференце оф тхе Пацифиц Ассоциатион фор Цомпутатионал Лингуистицс (ПАЦЛИНГ 2019), Ханои, Виетнам (2019).
  3. ^ Стоне, Пхилип Ј., Деxтер C. Дунпхy, анд Марсхалл С. Смитх. "Тхе генерал инqуирер: А цомпутер аппроацх то цонтент аналyсис." МИТ Пресс, Цамбридге, МА (1966).
  4. ^ Готтсцхалк, Лоуис Аугуст, анд Голдине C. Глесер. Тхе меасуремент оф псyцхологицал статес тхроугх тхе цонтент аналyсис оф вербал бехавиор. Университy оф Цалифорниа Пресс, 1969.
  5. ^ УСА Иссуед 7,136,877, Волцани, Yанон; & Фогел, Давид Б., "Сyстем анд метход фор детермининг анд цонтроллинг тхе импацт оф теxт", публисхед Јуне 28, 2001 
  6. ^ Турнеy, Петер (2002). „Тхумбс Уп ор Тхумбс Доwн? Семантиц Ориентатион Апплиед то Унсупервисед Цлассифицатион оф Ревиеwс”. Процеедингс оф тхе Ассоциатион фор Цомпутатионал Лингуистицс. стр. 417—424. арXив:цс.ЛГ/0212032 . 
  7. ^ Панг, Бо; Лее, Лиллиан; Ваитхyанатхан, Схивакумар (2002). „Тхумбс уп? Сентимент Цлассифицатион усинг Мацхине Леарнинг Тецхниqуес”. Процеедингс оф тхе Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг (ЕМНЛП). стр. 79—86. 
  8. ^ а б Панг, Бо; Лее, Лиллиан (2005). „Сееинг старс: Еxплоитинг цласс релатионсхипс фор сентимент цатегоризатион wитх респецт то ратинг сцалес”. Процеедингс оф тхе Ассоциатион фор Цомпутатионал Лингуистицс (АЦЛ). стр. 115—124. 
  9. ^ а б Снyдер, Бењамин; Барзилаy, Регина (2007). „Мултипле Аспецт Ранкинг усинг тхе Гоод Гриеф Алгоритхм”. Процеедингс оф тхе Јоинт Хуман Лангуаге Тецхнологy/Нортх Америцан Цхаптер оф тхе АЦЛ Цонференце (ХЛТ-НААЦЛ). стр. 300—307. Архивирано из оригинала 6. 8. 2016. г. Приступљено 16. 6. 2009. 
  10. ^ Qу, Yан, Јамес Сханахан, анд Јанyце Wиебе. "Еxплоринг аттитуде анд аффецт ин теxт: Тхеориес анд апплицатионс." Ин АААИ Спринг Сyмпосиум, Тецхницал репорт СС-04-07. АААИ Пресс, Менло Парк, ЦА. 2004.
  11. ^ Врyниотис, Василис (2013). Тхе импортанце оф Неутрал Цласс ин Сентимент Аналyсис. 
  12. ^ Коппел, Мосхе; Сцхлер, Јонатхан (2006). „Тхе Импортанце оф Неутрал Еxамплес фор Леарнинг Сентимент”. Цомпутатионал Интеллигенце 22. стр. 100—109. ЦитеСеерX 10.1.1.84.9735 . 
  13. ^ Рибеиро, Филипе Нунес; Араујо, Матхеус (2010). „А Бенцхмарк Цомпарисон оф Стате-оф-тхе-Працтице Сентимент Аналyсис Метходс”. Трансацтионс он Ембеддед Цомпутинг Сyстемс. 9 (4). 
  14. ^ Табоада, Маите; Брооке, Јулиан (2011). „Леxицон-басед метходс фор сентимент аналyсис”. Цомпутатионал Лингуистицс. 37 (2): 272—274. ЦитеСеерX 10.1.1.188.5517 . С2ЦИД 3181362. дои:10.1162/цоли_а_00049. 
  15. ^ Аугустyниак, Łукасз; Сзyмаńски, Пиотр; Кајданоwицз, Томасз; Тулигłоwицз, Włодзимиерз (2015-12-25). „Цомпрехенсиве Студy он Леxицон-басед Енсембле Цлассифицатион Сентимент Аналyсис”. Ентропy (на језику: енглески). 18 (1): 4. Бибцоде:2015Ентрп..18....4А. дои:10.3390/е18010004 . 
  16. ^ Мехмоод, Yасир; Балакрисхнан, Вимала (2020-01-01). „Ан енханцед леxицон-басед аппроацх фор сентимент аналyсис: а цасе студy он иллегал иммигратион”. Онлине Информатион Ревиеw. 44 (5): 1097—1117. ИССН 1468-4527. С2ЦИД 221766042. дои:10.1108/ОИР-10-2018-0295. 
  17. ^ Тхелwалл, Мике; Буцклеy, Кеван; Палтоглоу, Георгиос; Цаи, Ди; Каппас, Арвид (2010). „Сентимент стренгтх детецтион ин схорт информал теxт”. Јоурнал оф тхе Америцан Социетy фор Информатион Сциенце анд Тецхнологy. 61 (12): 2544—2558. ЦитеСеерX 10.1.1.278.3863 . дои:10.1002/аси.21416. Архивирано из оригинала 01. 02. 2021. г. Приступљено 22. 03. 2024.