Pažnja (mašinsko učenje)

Pažnja zasnovana na mašinskom učenju je mehanizam koji intuitivno oponaša kognitivnu pažnju. On izračunava „meke“ težine za svaku reč, tačnije za njeno ugrađivanje, u prozoru konteksta. Ove težine se mogu izračunati paralelno (kao što je u transformatorima) ili sekvencijalno (kao u rekurentnim neuronskim mrežama). „Meke“ težine mogu da se menjaju tokom svakog rada, za razliku od „tvrdih“ pondera, koji su (pre-)uvežbani i fino podešeni i ostaju zamrznuti nakon toga.

Pažnja je usmerena na rešavanje slabosti u korišćenju informacija iz skrivenih izlaza rekurentnih neuronskih mreža. Rekurentne neuronske mreže favorizuju novije informacije sadržane u rečima na kraju rečenice, dok se očekuje da će informacije ranije u rečenici biti oslabljene. Pažnja omogućava izračunavanje skrivene reprezentacije leksema jednakog pristupa bilo kom delu rečenice direktno, a ne samo preko prethodnog skrivenog stanja.

Ranije upotrebe povezale su ovaj mehanizam sa sistemom za prevođenje jezika serijske rekurentne neuronske mreže (ispod), ali kasnije korišćenje u Transformerima velikih jezičkih modela uklonilo je rekurentnu neuronsku mrežu i u velikoj meri se oslanjalo na bržu paralelnu šemu pažnje.

Prethodnici

Prethodnici mehanizma su korišćeni u rekurentnim neuronskim mrežama koje su, međutim, sekvencijalno izračunavale „meke“ težine i, na svakom koraku, razmatrale trenutnu reč i druge reči unutar kontekstnog prozora. Oni su bili poznati kao multiplikativni moduli, sigma pi jedinice^[1] i hiper-mreže.^[2] Oni su korišćeni u mrežama dugotrajne kratkoročne memorije (LSTM), multi-senzornoj obradi podataka (zvuk, slike, video i tekst) u perceptorima, brzoj memoriji kontrolora težine,^[3] zadacima rasuđivanja u diferencibilnim neuronskim računarima i neuronskim Tjuringovim mašinama.^[4]^[5]^[6]^[7]^[8]

Reference

^ Rumelhart, David E.; Mcclelland, James L.; Group, PDP Research (1987-07-29). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (на језику: енглески). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0.
^ Yann Lecun (2020). Deep Learning course at NYU, Spring 2020, video lecture Week 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08.
^ Schmidhuber, Jürgen (1992). „Learning to control fast-weight memories: an alternative to recurrent nets.”. Neural Computation. 4 (1): 131—139. S2CID 16683347. doi:10.1162/neco.1992.4.1.131.
^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016-10-12). „Hybrid computing using a neural network with dynamic external memory”. Nature (на језику: енглески). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. ISSN 1476-4687. PMID 27732574. S2CID 205251479. doi:10.1038/nature20101.
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). „Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.
^ Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). „Stand-Alone Self-Attention in Vision Models”. arXiv:1906.05909  [cs.CV].
^ Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). „Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206  [cs.CV].
^ Ray, Tiernan. „Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything”. ZDNet (на језику: енглески). Приступљено 2021-08-19.

Spoljašnje veze

Dan Jurafsky and James H. Martin (2022) Speech and Language Processing (3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers
Alex Graves (4 May 2020), Attention and Memory in Deep Learning (video lecture), DeepMind / UCL, via YouTube
Rasa Algorithm Whiteboard - Attention via YouTube

[PDP-1] Rumelhart, David E.; Mcclelland, James L.; Group, PDP Research (1987-07-29). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (на језику: енглески). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0.

[Lecun2020-2] Yann Lecun (2020). Deep Learning course at NYU, Spring 2020, video lecture Week 6. Корисна информација се налази на: 53:00. Приступљено 2022-03-08.

[transform1992-3] Schmidhuber, Jürgen (1992). „Learning to control fast-weight memories: an alternative to recurrent nets.”. Neural Computation. 4 (1): 131—139. S2CID 16683347. doi:10.1162/neco.1992.4.1.131.

[Graves2016-4] Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (2016-10-12). „Hybrid computing using a neural network with dynamic external memory”. Nature (на језику: енглески). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. ISSN 1476-4687. PMID 27732574. S2CID 205251479. doi:10.1038/nature20101.

[allyouneed-5] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). „Attention is All you Need” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30.

[Ramachandran2019-6] Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (2019-06-13). „Stand-Alone Self-Attention in Vision Models”. arXiv:1906.05909  [cs.CV].

[jaegle2021-7] Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (2021-06-22). „Perceiver: General Perception with Iterative Attention”. arXiv:2103.03206  [cs.CV].

[tiernan2021-8] Ray, Tiernan. „Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything”. ZDNet (на језику: енглески). Приступљено 2021-08-19.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]