Трансформатор (модел машинског учења)

Трансформатор је архитектура дубоког учења коју је развио Гугл и заснована на алгоритму механизма вишеструке пажње, предложеном у раду објављеном 2017. године, под насловом „Пажња је све што вам је потребно“.^[1] Он нема рекурентне јединице и стога захтева мање времена за обуку од претходних рекурентних неуронских архитектура, као што је дуготрајна краткорочна меморија (ЛСТМ),^[2] и његова каснија варијација је претежно усвојена за обуку великих језичких модела (ЛЛМ) на великим (језичким) скуповима података, као што су корпус Википедије и Комон Крол.^[3] Текст се конвертује у нумеричке репрезентације које се називају токени, а сваки токен се конвертује у вектор тражењем из табеле уграђиних речи.^[1] На сваком слоју, сваки токен се затим контекстуализује унутар оквира контекстног прозора са другим (немаскираним) токенима преко паралелног механизма пажње са више глава који омогућава да се појача сигнал за кључне токене и умањи значај мање важних токена. Публикација о трансформатору, објављена 2017. године, заснована је на софтмакс механизму пажње који су предложили Бахданау ет. ал. 2014. за машинско превођење,^[4]^[5] и брзом контролеру тежине, сличном трансформатору, предложеном 1992. године.^[6]^[7]^[8]

Ова архитектура се сада користи не само у обради природног језика и компјутерској визији,^[9] већ и у аудио^[10] и мултимодалној обради. То је такође довело до развоја унапред обучених система, као што су генеративни претходно обучени трансформатори (ГПТ)^[11] и БЕРТ^[12] (бидирекциона инкодерска репрезентација за трансформаторе).

Референце

^ ^а ^б Васwани, Асхисх; Схазеер, Ноам; Пармар, Ники; Усзкореит, Јакоб; Јонес, Ллион; Гомез, Аидан Н; Каисер, Łукасз; Полосукхин, Иллиа (2017). „Аттентион ис Алл yоу Неед” (ПДФ). Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 30.
^ Хоцхреитер, Сепп; Сцхмидхубер, Јüрген (1. 11. 1997). „Лонг Схорт-Терм Меморy”. Неурал Цомпутатион. 9 (8): 1735—1780. ИССН 0899-7667. ПМИД 9377276. С2ЦИД 1915014. дои:10.1162/нецо.1997.9.8.1735.
^ „Беттер Лангуаге Моделс анд Тхеир Имплицатионс”. ОпенАИ. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25.
^ Бахданау; Цхо, Кyунгхyун; Бенгио, Yосхуа (1. 9. 2014). „Неурал Мацхине Транслатион бy Јоинтлy Леарнинг то Алигн анд Транслате”. арXив:1409.0473  [цс.CL].
^ Луонг, Минх-Тханг; Пхам, Хиеу; Маннинг, Цхристопхер D. (17. 8. 2015). „Еффецтиве Аппроацхес то Аттентион-басед Неурал Мацхине Транслатион”. арXив:1508.04025  [цс.CL].
^ Сцхмидхубер, Јüрген (1992). „Леарнинг то цонтрол фаст-wеигхт мемориес: ан алтернативе то рецуррент нетс.”. Неурал Цомпутатион. 4 (1): 131—139. С2ЦИД 16683347. дои:10.1162/нецо.1992.4.1.131.
^ Сцхлаг, Иманол; Ирие, Казуки; Сцхмидхубер, Јüрген (2021). „Линеар Трансформерс Аре Сецретлy Фаст Wеигхт Программерс”. ИЦМЛ 2021. Спрингер. стр. 9355—9366.
^ Катхаропоулос, Ангелос; Вyас, Апоорв; Паппас, Николаос; Флеурет, Франçоис (2020). „Трансформерс аре РННс: Фаст ауторегрессиве Трансформерс wитх линеар аттентион”. ИЦМЛ 2020. ПМЛР. стр. 5156—5165.
^ Хе, Цхенг (31. 12. 2021). „Трансформер ин ЦВ”. Трансформер ин CV. Тоwардс Дата Сциенце. Архивирано из оригинала 16. 4. 2023. г. Приступљено 19. 6. 2021.
^ Радфорд, Алец; Јонг Wоок Ким; Xу, Тао; Броцкман, Грег; МцЛеавеy, Цхристине; Сутскевер, Илyа (2022). „Робуст Спеецх Рецогнитион виа Ларге-Сцале Wеак Супервисион”. арXив:2212.04356  [еесс.АС].
^ Wолф, Тхомас; Дебут, Лyсандре; Санх, Вицтор; Цхаумонд, Јулиен; Делангуе, Цлемент; Мои, Антхонy; Цистац, Пиерриц; Раулт, Тим; Лоуф, Реми; Фунтоwицз, Морган; Дависон, Јое; Схлеифер, Сам; вон Платен, Патрицк; Ма, Цлара; Јерните, Yацине; Плу, Јулиен; Xу, Цанwен; Ле Сцао, Тевен; Гуггер, Сyлваин; Драме, Мариама; Лхоест, Qуентин; Русх, Алеxандер (2020). „Трансформерс: Стате-оф-тхе-Арт Натурал Лангуаге Процессинг”. Процеедингс оф тхе 2020 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг: Сyстем Демонстратионс. стр. 38—45. С2ЦИД 208117506. дои:10.18653/в1/2020.емнлп-демос.6.
^ „Опен Соурцинг БЕРТ: Стате-оф-тхе-Арт Пре-траининг фор Натурал Лангуаге Процессинг”. Гоогле АИ Блог. 2. 11. 2018. Архивирано из оригинала 2021-01-13. г. Приступљено 2019-08-25.

Литература

Хуберт Рамсауер ет ал. (2020), "Хопфиелд Нетwоркс ис Алл Yоу Неед" Архивирано 2021-09-18 на сајту Wayback Machine, препринт субмиттед фор ИЦЛР 2021. арXив:2008.02217; сее алсо аутхорс' блог Архивирано 2021-09-18 на сајту Wayback Machine

– Дисцуссион оф тхе еффецт оф а трансформер лаyер ас еqуивалент то а Хопфиелд упдате, брингинг тхе инпут цлосер то оне оф тхе фиxед поинтс (репресентабле паттернс) оф а цонтинуоус-валуед Хопфиелд нетwорк

Алеxандер Русх, Тхе Аннотатед трансформер Архивирано 2021-09-22 на сајту Wayback Machine, Харвард НЛП гроуп, 3 Април 2018
Пхуонг, Марy; Хуттер, Марцус (2022), Формал Алгоритхмс фор Трансформерс, арXив:2207.09238

[2017_Attention_Is_All_You_Need-1] а ^б Васwани, Асхисх; Схазеер, Ноам; Пармар, Ники; Усзкореит, Јакоб; Јонес, Ллион; Гомез, Аидан Н; Каисер, Łукасз; Полосукхин, Иллиа (2017). „Аттентион ис Алл yоу Неед” (ПДФ). Адванцес ин Неурал Информатион Процессинг Сyстемс. Цурран Ассоциатес, Инц. 30.

[lstm1997-2] Хоцхреитер, Сепп; Сцхмидхубер, Јüрген (1. 11. 1997). „Лонг Схорт-Терм Меморy”. Неурал Цомпутатион. 9 (8): 1735—1780. ИССН 0899-7667. ПМИД 9377276. С2ЦИД 1915014. дои:10.1162/нецо.1997.9.8.1735.

[:7-3] „Беттер Лангуаге Моделс анд Тхеир Имплицатионс”. ОпенАИ. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25.

[inventors-4] Бахданау; Цхо, Кyунгхyун; Бенгио, Yосхуа (1. 9. 2014). „Неурал Мацхине Транслатион бy Јоинтлy Леарнинг то Алигн анд Транслате”. арXив:1409.0473  [цс.CL].

[inventconfirm-5] Луонг, Минх-Тханг; Пхам, Хиеу; Маннинг, Цхристопхер D. (17. 8. 2015). „Еффецтиве Аппроацхес то Аттентион-басед Неурал Мацхине Транслатион”. арXив:1508.04025  [цс.CL].

[transform1992-6] Сцхмидхубер, Јüрген (1992). „Леарнинг то цонтрол фаст-wеигхт мемориес: ан алтернативе то рецуррент нетс.”. Неурал Цомпутатион. 4 (1): 131—139. С2ЦИД 16683347. дои:10.1162/нецо.1992.4.1.131.

[schlag2021-7] Сцхлаг, Иманол; Ирие, Казуки; Сцхмидхубер, Јüрген (2021). „Линеар Трансформерс Аре Сецретлy Фаст Wеигхт Программерс”. ИЦМЛ 2021. Спрингер. стр. 9355—9366.

[fastlinear2020-8] Катхаропоулос, Ангелос; Вyас, Апоорв; Паппас, Николаос; Флеурет, Франçоис (2020). „Трансформерс аре РННс: Фаст ауторегрессиве Трансформерс wитх линеар аттентион”. ИЦМЛ 2020. ПМЛР. стр. 5156—5165.

[9] Хе, Цхенг (31. 12. 2021). „Трансформер ин ЦВ”. Трансформер ин CV. Тоwардс Дата Сциенце. Архивирано из оригинала 16. 4. 2023. г. Приступљено 19. 6. 2021.

[Robust_Speech_Recognition_via_Large-Scale_Weak_Supervision-10] Радфорд, Алец; Јонг Wоок Ким; Xу, Тао; Броцкман, Грег; МцЛеавеy, Цхристине; Сутскевер, Илyа (2022). „Робуст Спеецх Рецогнитион виа Ларге-Сцале Wеак Супервисион”. арXив:2212.04356  [еесс.АС].

[wolf2020-11] Wолф, Тхомас; Дебут, Лyсандре; Санх, Вицтор; Цхаумонд, Јулиен; Делангуе, Цлемент; Мои, Антхонy; Цистац, Пиерриц; Раулт, Тим; Лоуф, Реми; Фунтоwицз, Морган; Дависон, Јое; Схлеифер, Сам; вон Платен, Патрицк; Ма, Цлара; Јерните, Yацине; Плу, Јулиен; Xу, Цанwен; Ле Сцао, Тевен; Гуггер, Сyлваин; Драме, Мариама; Лхоест, Qуентин; Русх, Алеxандер (2020). „Трансформерс: Стате-оф-тхе-Арт Натурал Лангуаге Процессинг”. Процеедингс оф тхе 2020 Цонференце он Емпирицал Метходс ин Натурал Лангуаге Процессинг: Сyстем Демонстратионс. стр. 38—45. С2ЦИД 208117506. дои:10.18653/в1/2020.емнлп-демос.6.

[:6-12] „Опен Соурцинг БЕРТ: Стате-оф-тхе-Арт Пре-траининг фор Натурал Лангуаге Процессинг”. Гоогле АИ Блог. 2. 11. 2018. Архивирано из оригинала 2021-01-13. г. Приступљено 2019-08-25.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]