Велики језички модели

Велики језички модели (енгл. large language model, LLM) је језички модел познат по својој способности да постигне генерисање језика опште намене и друге задатке обраде природног језика као што је класификација. ЛЛМ стичу ове способности учећи статистичке односе из текстуалних докумената током рачунарски интензивног самонадгледаног и полу-надгледаног процеса обуке.^[1] ЛЛМ се могу користити за генерисање текста, облик генеративне VI, узимањем улазног текста и узастопним предвиђањем следећег токена или речи.^[2]

ЛЛМ су вештачке неуронске мреже. Према подацима из 2024. године, највећи и најспособнији модели, изграђени су са декодерском трансформаторском архитектуром, док су неке скорије имплементације засноване на другим архитектурама, као што су варијанте рекурентне неуронске мреже и Мамбе (модел простора стања).^[3]^[4]^[5]

Све до 2020. године, фино подешавање је било једини начин на који је модел могао да се прилагоди да би могао да изврши одређене задатке. Међутим, модели већих димензија, као што је ГПТ-3, могу се брзо конструисати да би се постигли слични резултати.^[6] Сматра се да они стичу знања о синтакси, семантици и „онтологији“ својственим корпусима људског језика, али и нетачностима и пристрасностима присутним у корпусу.^[7]

Неки значајни ЛЛМ-ови су ОпенАИ ГПТ серија модела (нпр. ГПТ-3.5 и ГПТ-4, који се користе у ЦхатГПТ-у и Мајкрософтовом Копилоту), Гуглов ПаЛМ и Гемини (од којих се последњи тренутно користи у истоименом чатботу), xАИ-ов Грок, Метина ЛЛаМА породица модела отвореног кода, Антропикови Клауд модели и Мистрал АИ модели отвореног кода.

Референце

^ „Беттер Лангуаге Моделс анд Тхеир Имплицатионс”. ОпенАИ. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25.
^ Боwман, Самуел Р. (2023). „Еигхт Тхингс то Кноw абоут Ларге Лангуаге Моделс”. арXив:2304.00612  [цс.CL].
^ Пенг, Бо; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048  [cs.CL].
^ Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25.
^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752 
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901.
^ Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905  .

Literatura

Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
Phuong, Mary; Hutter, Marcus (2022). „Formal Algorithms for Transformers”. arXiv:2207.09238  [cs.LG].
Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Rock, Daniel (2023). „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”. arXiv:2303.10130  [econ.GN].
Eldan, Ronen; Li, Yuanzhi (2023). „TinyStories: How Small Can Language Models Be and Still Speak Coherent English?”. arXiv:2305.07759  [cs.CL].
Frank, Michael C. (27. 6. 2023). „Baby steps in evaluating the capacities of large language models”. Nature Reviews Psychology (на језику: енглески). 2 (8): 451—452. ISSN 2731-0574. S2CID 259713140. doi:10.1038/s44159-023-00211-x. Приступљено 2. 7. 2023.
Zhao, Wayne Xin; et al. (2023). „А Сурвеy оф Ларге Лангуаге Моделс”. арXив:2303.18223  [цс.CL].
Каддоур, Јеан; et al. (2023). „Цхалленгес анд Апплицатионс оф Ларге Лангуаге Моделс”. арXив:2307.10169  [цс.CL].
Yин, Схуканг; Фу, Цхаоyоу; Зхао, Сируи; Ли, Ке; Сун, Xинг; Xу, Тонг; Цхен, Енхонг (2023-06-01). „А Сурвеy он Мултимодал Ларге Лангуаге Моделс”. арXив:2306.13549  [цс.CV].
Опен ЛЛМс репоситорy он ГитХуб.

[:7-1] „Беттер Лангуаге Моделс анд Тхеир Имплицатионс”. ОпенАИ. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25.

[Bowman-2] Боwман, Самуел Р. (2023). „Еигхт Тхингс то Кноw абоут Ларге Лангуаге Моделс”. арXив:2304.00612  [цс.CL].

[3] Пенг, Бо; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048  [cs.CL].

[4] Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25.

[5] Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752 

[few-shot-learners-6] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901.

[Manning-2022-7] Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905  .

[1]

[2]

[3]

[4]

[5]

[6]

[7]