Pažnja zasnovana na mašinskom učenju je mehanizam koji intuitivno oponaša kognitivnu pažnju. On izračunava „meke“ težine za svaku reč, tačnije za njeno ugrađivanje, u prozoru konteksta. Ove težine se mogu izračunati paralelno (kao što je u transformatorima) ili sekvencijalno (kao u rekurentnim neuronskim mrežama). „Meke“ težine mogu da se menjaju tokom svakog rada, za razliku od „tvrdih“ pondera, koji su (pre-)uvežbani i fino podešeni i ostaju zamrznuti nakon toga.

Pažnja je usmerena na rešavanje slabosti u korišćenju informacija iz skrivenih izlaza rekurentnih neuronskih mreža. Rekurentne neuronske mreže favorizuju novije informacije sadržane u rečima na kraju rečenice, dok se očekuje da će informacije ranije u rečenici biti oslabljene. Pažnja omogućava izračunavanje skrivene reprezentacije leksema jednakog pristupa bilo kom delu rečenice direktno, a ne samo preko prethodnog skrivenog stanja.

Ranije upotrebe povezale su ovaj mehanizam sa sistemom za prevođenje jezika serijske rekurentne neuronske mreže (ispod), ali kasnije korišćenje u Transformerima velikih jezičkih modela uklonilo je rekurentnu neuronsku mrežu i u velikoj meri se oslanjalo na bržu paralelnu šemu pažnje.

Prethodnici

уреди

Prethodnici mehanizma su korišćeni u rekurentnim neuronskim mrežama koje su, međutim, sekvencijalno izračunavale „meke“ težine i, na svakom koraku, razmatrale trenutnu reč i druge reči unutar kontekstnog prozora. Oni su bili poznati kao multiplikativni moduli, sigma pi jedinice[1] i hiper-mreže.[2] Oni su korišćeni u mrežama dugotrajne kratkoročne memorije (LSTM), multi-senzornoj obradi podataka (zvuk, slike, video i tekst) u perceptorima, brzoj memoriji kontrolora težine,[3] zadacima rasuđivanja u diferencibilnim neuronskim računarima i neuronskim Tjuringovim mašinama.[4][5][6][7][8]

Reference

уреди
  1. ^ Rumelhart, David E.; Mcclelland, James L.; Group, PDP Research (1987-07-29). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (на језику: енглески). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0. 
  2. ^ Yann Lecun (2020). Deep Learning course at NYU, Spring 2020, video lecture Week 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08. 
  3. ^ Schmidhuber, Jürgen (1992). „Learning to control fast-weight memories: an alternative to recurrent nets.”. Neural Computation. 4 (1): 131—139. S2CID 16683347. doi:10.1162/neco.1992.4.1.131. 
  4. ^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016-10-12). „Hybrid computing using a neural network with dynamic external memory”. Nature (на језику: енглески). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. ISSN 1476-4687. PMID 27732574. S2CID 205251479. doi:10.1038/nature20101. 
  5. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). „Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. 
  6. ^ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). „Stand-Alone Self-Attention in Vision Models”. arXiv:1906.05909  [cs.CV]. 
  7. ^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). „Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206  [cs.CV]. 
  8. ^ Ray, Tiernan. „Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything”. ZDNet (на језику: енглески). Приступљено 2021-08-19. 

Spoljašnje veze

уреди