Велики језички модели

Велики језички модели (енгл. large language model, LLM) је језички модел познат по својој способности да постигне генерисање језика опште намене и друге задатке обраде природног језика као што је класификација. ЛЛМ стичу ове способности учећи статистичке односе из текстуалних докумената током рачунарски интензивног самонадгледаног и полу-надгледаног процеса обуке.[1] ЛЛМ се могу користити за генерисање текста, облик генеративне VI, узимањем улазног текста и узастопним предвиђањем следећег токена или речи.[2]

ЛЛМ су вештачке неуронске мреже. Према подацима из 2024. године, највећи и најспособнији модели, изграђени су са декодерском трансформаторском архитектуром, док су неке скорије имплементације засноване на другим архитектурама, као што су варијанте рекурентне неуронске мреже и Мамбе (модел простора стања).[3][4][5]

Све до 2020. године, фино подешавање је било једини начин на који је модел могао да се прилагоди да би могао да изврши одређене задатке. Међутим, модели већих димензија, као што је ГПТ-3, могу се брзо конструисати да би се постигли слични резултати.[6] Сматра се да они стичу знања о синтакси, семантици и „онтологији“ својственим корпусима људског језика, али и нетачностима и пристрасностима присутним у корпусу.[7]

Неки значајни ЛЛМ-ови су ОпенАИ ГПТ серија модела (нпр. ГПТ-3.5 и ГПТ-4, који се користе у ЦхатГПТ-у и Мајкрософтовом Копилоту), Гуглов ПаЛМ и Гемини (од којих се последњи тренутно користи у истоименом чатботу), xАИ-ов Грок, Метина ЛЛаМА породица модела отвореног кода, Антропикови Клауд модели и Мистрал АИ модели отвореног кода.

Референце

уреди
  1. ^ „Беттер Лангуаге Моделс анд Тхеир Имплицатионс”. ОпенАИ. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25. 
  2. ^ Боwман, Самуел Р. (2023). „Еигхт Тхингс то Кноw абоут Ларге Лангуаге Моделс”. арXив:2304.00612  [цс.CL]. 
  3. ^ Пенг, Бо; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048  [cs.CL]. 
  4. ^ Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25. 
  5. ^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752  
  6. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901. 
  7. ^ Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905 . 

Literatura

уреди