Pažnja (mašinsko učenje)

(преусмерено са Attention (machine learning))

Pažnja zasnovana na mašinskom učenju je mehanizam koji intuitivno oponaša kognitivnu pažnju. On izračunava „meke“ težine za svaku reč, tačnije za njeno ugrađivanje, u prozoru konteksta. Ove težine se mogu izračunati paralelno (kao što je u transformatorima) ili sekvencijalno (kao u rekurentnim neuronskim mrežama). „Meke“ težine mogu da se menjaju tokom svakog rada, za razliku od „tvrdih“ pondera, koji su (pre-)uvežbani i fino podešeni i ostaju zamrznuti nakon toga.

Pažnja je usmerena na rešavanje slabosti u korišćenju informacija iz skrivenih izlaza rekurentnih neuronskih mreža. Rekurentne neuronske mreže favorizuju novije informacije sadržane u rečima na kraju rečenice, dok se očekuje da će informacije ranije u rečenici biti oslabljene. Pažnja omogućava izračunavanje skrivene reprezentacije leksema jednakog pristupa bilo kom delu rečenice direktno, a ne samo preko prethodnog skrivenog stanja.

Ranije upotrebe povezale su ovaj mehanizam sa sistemom za prevođenje jezika serijske rekurentne neuronske mreže (ispod), ali kasnije korišćenje u Transformerima velikih jezičkih modela uklonilo je rekurentnu neuronsku mrežu i u velikoj meri se oslanjalo na bržu paralelnu šemu pažnje.

Prethodnici уреди

Prethodnici mehanizma su korišćeni u rekurentnim neuronskim mrežama koje su, međutim, sekvencijalno izračunavale „meke“ težine i, na svakom koraku, razmatrale trenutnu reč i druge reči unutar kontekstnog prozora. Oni su bili poznati kao multiplikativni moduli, sigma pi jedinice[1] i hiper-mreže.[2] Oni su korišćeni u mrežama dugotrajne kratkoročne memorije (LSTM), multi-senzornoj obradi podataka (zvuk, slike, video i tekst) u perceptorima, brzoj memoriji kontrolora težine,[3] zadacima rasuđivanja u diferencibilnim neuronskim računarima i neuronskim Tjuringovim mašinama.[4][5][6][7][8]

Reference уреди

  1. ^ Rumelhart, David E.; Mcclelland, James L.; Group, PDP Research (1987-07-29). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (на језику: енглески). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0. 
  2. ^ Yann Lecun (2020). Deep Learning course at NYU, Spring 2020, video lecture Week 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08. 
  3. ^ Schmidhuber, Jürgen (1992). „Learning to control fast-weight memories: an alternative to recurrent nets.”. Neural Computation. 4 (1): 131—139. S2CID 16683347. doi:10.1162/neco.1992.4.1.131. 
  4. ^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016-10-12). „Hybrid computing using a neural network with dynamic external memory”. Nature (на језику: енглески). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. ISSN 1476-4687. PMID 27732574. S2CID 205251479. doi:10.1038/nature20101. 
  5. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). „Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. 
  6. ^ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). „Stand-Alone Self-Attention in Vision Models”. arXiv:1906.05909  [cs.CV]. 
  7. ^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). „Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206  [cs.CV]. 
  8. ^ Ray, Tiernan. „Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything”. ZDNet (на језику: енглески). Приступљено 2021-08-19. 

Spoljašnje veze уреди