Дубоко учење (такође познат као дубоко структурисано учење, хијерархијско учење или дубоко машинско учење)- одељак машинског учења на основу скупа алгоритама  који покушавају да обраде податке апстракције на високом нивоу коришћењем слојевитих наслага, са сложеним структурама или на други начин, састављеним од више не-линеарних преносликавања.[1][2][3][4][5][6][7][8]

Дубоко учење је део широке породице метода машинског учења заснованог на учењу према датим подацима. Запажање (нпр. слике) може бити представљено на много начина као што је вектор вредности интензитета по пикселу, или на више апстрактан начин као скуп ивица, области одређеног облика. Нека престављања су боља од других у поједностављивању задатака (нпр. препознавање лица или израза лица[9])из примера. Једно од обећања дубоког учења је замена ручних функција са ефикасним алгоритмима за учење са или без надзора и хијерархијско порекло особина[10]

Истраживања у овој области покушавају да направе боља приказивања података и да направе модел који ће обухватити сва истраживања напретком у неуронауци и она су слабо заснована на тумачењу процесних информација и комуникацијских образаца у нервном систему, као што је неуронско кодирање које покушава да одреди везу између различитих стимулуса и повезаних неуронских одговора у мозгу..[11]

Различите архитектуре дубоког учења као што су дубоке неуронске мреже,  мреже дубоког уверења и повратне неуронске мреже су примењене у областима као што су рачунарска визија, аутоматско препознавање говора, обрада природног језика, препознавање гласа и биоинформатике где су приказани производи резултата state-of-the-art на различитим задацима.

Дубоко учење је означено као крилатица или редефинисање неуронских мрежа.[12][13]

Увод уреди

Дефиниције уреди

Постоје више начина који одређују поље дубоког уччења. На пример, у 1986. години, Рина Декстер  је представила концепт првог и другог реда дубоког учења у смислу принудног задовољства.[14]  Касније, дубоко учење је било одређено као врста машинског учења алгоритама.[1]

  • Користити низ (cascade) слојевитих нелинеарних јединица за особине издвајања и променна. Сваки следећи слој користи излаз из претходног слоја као улаз. Алгоритми могу бити под надзором или без надзора и апликације садрже анализу узорка (без надзора) и класификацију (надзиране).
  • Заснивају се на (без надзора) учење више нивоа особина или представљање података. Виши нивои особина су изведени из нижих како би образовали хијерархијско представљање
  • Су део ширег поља (области) машинског учења представљања података.
  • Научити више нивое представљања који одговарају различитим нивоима апстракције; нивои образују хијерархију појмова.

Ове дефиниције имају заједничко (1) вишеслојне обрађене јединице и (2) учење особина представљене у сваком слоју-надгледане или без надзора, које са слојевима образују хијерархију са ниског до високог нивоа особина.[1] Састав слоја нелинеарних процесних јединица коришћених у алгоритму дубоког учења зависи од проблема који мора бити решен. Слојеви који су коришћени у дубоком учењу укључују скривене слојеве вештачке нервне мреже и комплета компликованих пропозицијских формула.[2] Она такође могу да садрже сакривене променљиве слојеве у дубоким генеративним моделима као што су чворови у Мрежи дубоког веровања и Дубоким Болтмазовим машинама.

Дубоки алгоритми за учење мењају њихово довођење кроз више слојева него плитки алгоритми учења. На сваком слоју, сигнал се преноси помоћу процесне (развојне) јединице, као вештачки неурон, чији параметри су „научени“ кроз обуку.[4] Ланац преноса од улаза до излаза је пут кредитног задатка (САР). САР описује потенцијално узрочно-последичне везе између улаза и излаза и могу бити различите у дужини. За напредну неуронску мрежу, дубина САР и такође дубина мреже је број скривених слојева плус један (излазни слој је такође параметаризован). За повратну нервну мрежу, у којој се сигнал може појавити кроз слој више него једном, САР је потенцијално неограничен у дужини. Не постоји универзално договорени праг дубине између подељеног плитког и дубоког учења, али већина истраживања у овој области слаже се да дубоко учење има више нелинеарних слојева (САР>2) и Шмидхубер сматра САР>10 веома дубоким учењем.[4]

Основни појмови уреди

Дубоки алгоритми за учење су засновани на равномерном представљању. Основна претпоставка иза равномерних представљања је да су посматрани подаци добијени (настали) од интеракције фактора који се налазе у слојевима.[3]

Дубоко учење користи ову идеју хијерархијског објашњења фактора где виши ниво са више апстрактних појмова учи од оних на нижем нивоу. Ове структуре су често настале са похлепном методом слој-по-слој. Дубоко учење помаже да се раздвоје ове апстракције и да се одабере које особине су корисне за учење.[3]

За надгледане задатке учења, методе дубоког учења избегавају особине инжењеринга, превођењем података у збијено средње представљање слично главним компонентама, и изводи слојевите структуре које уклањају вишак снаге у представљању.[1]

Многи алгоритми дубоког учења се примењују на учење задатка без надзора. Ово је важно јер необележени подаци су обично бројнији од обележених. Примери дубоких структура који могу бити коришћени у рад без надзора су историја нервног компресора[15] и дубоко уверење мрежа.[3][16]

Тумачења уреди

Дубоке неуронске мреже се уопштено користе у терминима: Теорема универзалне апросксимације[17][18][19][20][21] или Пробабилистички закључак.[1][2][3][4][16][22]

Тумачење теореме универзалне апроксимације уреди

Теорема универзалне апросксимације обухвата способност напредне мреже неурона са једним скривеним слојем коначне величине до приближних непрекидних функција.[17][18][19][20][21]

Први доказ објавио је 1989.год. Џорџ Кјубенко за сигмоидне функције активације[18] а 1991.год. Курт Хорник је то уопштио за напредне вишеслојне архитектуре[19]

Пробалистичко тумачење уреди

У пробалистичко тумачење[22] произилази из области машинског учења. Особине су изведене[1][2][3][4][16][22] , исто као и оптимизација концептне обуке и тестирања, повезаних респективно са подешавањима и генерализацијом. Тачније, пробабилистичко тумачење подразумева не-линеарну активност као функцију кумулативне расподеле.[22]  Види мрежу дубоког уверења.Пробабилистичко тумачење води до увођења испада као уређивача неуронске мреже.[23]

Гиоф Хинтон, Јошуа Бенгио, Јан ЛеЦун и Јурген Шмидхубер су увели и представили појам пробабилистичког тумачења.

Историја уреди

Украјински математичари Иваненко и Лап први су објавили уопштен рад учења алгоритма за надгледање напредне вишеслојне (перцептронс).[24]  Рад из 1971.год. је већ описао дубоку мрежу са 8 слојева обучених по модулу групе за обраду података алгоритама која је и даље популарна.[25] Ове идеје су извршене у систему рачунарске идентификације „Алфа“, који је показао процес учења. Други процеси дубоког учења, посебно они изграђени из вештачке неуронске мреже (ANN) потичу из "Неоконгринтон" који је увео Куникихо Фукушима 1980.године.[26] Само ANN датира још даље. Изазов је био како га припремити за мреже са више слојева. Јан ЛеЦун и други 1989. су били у могућности да примене стандардни бекпропагејшн алгоритам, који се примењивао као супротан модел аутоматске диференцијеције од 1970,[27][28][29][30] до дубоке неуронске мреже са циљем препознавања шифре писане руком на мејл. Поред успеха примене алгоритма, време припреме мреже са овим подацима било је отприлике 3 дана, чинећи га непрактичним за општу употребу.[31] Јурген Шмидхуберoва историја неуронског компресора[15] имплементирала је гомилу текућих мрежа неурона (РНН), решен задатак "Веома дубоког учења"[4]који захтева више од 1000 слојева у једном РНН.[32]  Бернард Фреј је 1995. год. показао да је могуће тренирати мрежу која садржи шест потпуно повезаних слојева и неколико стотина скривених јединица користећи алгоритам за буђење који је развио заједно са Петер Даиана и Џефри Хинтон.[33] Међутим, обука је трајала два дана.

Сеп Хохрајтер је 1991.год. анализирао проблем нестајања градијента. [34][35]

До 1991.год такве неуронске мреже су коришћене за препознавање изолованих 2-D ручно писаних бројева, препознавање 3-D предмета је рађено подударањем 2-D слика са ручно-рађеним 3-D моделом. Јујанг Венг и остали су предложили да људски мозак не користи монолитички 3-D модел и 1992. они су објавили Кресцептрон,[36][37][38] методу за извођење 3-D препознавања предмета директно из пренатрпаних сцена. Кресцептрон је каскада слојева слична Неоконгринтон. Али док Неоконгринтон захтева човека за ручно спајање особина, Кресцептрон аутоматски учи отворени број особина без надзора у сваком слоју, где је свака особина представљена од стране сазивног језгра. Кресцептрон такође дели сваки објекат из пренатрпаних сцена кроз повратне-анализе кроз мрежу.Max pooling, сада често прихваћен од дубоких неуронских мрежа (на пр. тестови слика), је први пут коришћен у Кресцептрон-у да смањи резолуцију фактором(2х2) на 1 кроз каскаде до боље генерализације. Поред ових предности, једноставнији модели који користе специфичан број ручних функција као што су Габор филтери и подржавајуће векторске машине (СВМ) били су добар избор 1990.-тих и 2000.-тих због рачунарских трошкова ANN-а у то време и велики недостатак разумевања како мозак самостално плете своје биолошке мреже.

У дугој историји препознавања гласа, и плитко и дубоко учење вештачке неуронске мреже истраживано је дуги низ година.[39][40][41] Али ове методе никада нису биле боље од non-uniform internal-handcrafting Gaussian mixture model/Hidden Markov model (ГMM-ХMM)- технологија заснована на генеративним моделима говора дискриминативно.[42] Један број кључних проблема био је методолошки анализиран, укључујући смањење нагиба[34] и слабе временске структуре корелације у предвиђеним моделима неурона.[43][44] Додатне потешкоће биле су недостатак података и слаба снага рачунара у тим раним данима. Већина истраживача који су разумели такве препреке удаљили су се од неуронских мрежа да наставе генеративно моделирање. Изузетак је био СРИ International касних 90-тих. Финансиран од стране владе САД НСА и ДАРПА, СРИ је спровео истраживање на дубоким неуронским мрежама у говору и препознавању говорника. Тим за препознавање говорника, на челу са Лари Хек-ом, постигао је први значајан успех са дубоким мрежама неурона у обради говора као што је приказано у 1998. години НИСТ (Национални институт за стандарде и технологију) а касније је објављен у часопису "Говорне комуникације".[45] Док СРИ развија успех са дубоким мрежама наурона у препознавању говорника, били су неуспешни у представљању сличног успеха у препознавању говора. Hinton и Deng су прегледали део ове новије историје о њиховој међусобној сарадњи, а онда са колегама кроз 4 групе(University of Toronto, Microsoft, Google, и IBM) изазвали ренесансу дубоке проактивне мреже неурона у препознавању говора.[46][47][48][49]

Данас, међутим, многи аспекти препознавања говора су преузети од методе дубоког учења зване Дуго краткротајно памћење (ЛСТМ), а повратне неуронске мреже објавили су Сеп Хохрајтер и Јурген Шмидхубер у 1997.години.[50]  ЛСТМ РНН избегава проблем нестајања градијента и можемо да га научимо задатке "Веома Дубоког учења"[4] , који захтевају памћење догађаја који су се догодили пре хиљада интервала, што је важно за говор. ЛСТМ је 2003.године постао конкурентан са традиционалним препознавањем гласа на одређеним задацима.[51] Касније је комбинован са СТС[52] на стеку са ЛСТМ РНН.[53] Google препознавање говора је доживеlo драматичан раст у 2015.години од 49% кроз СТС обучен ЛСТМ који је сада доступан преко Google Voice ка свим корисницима паметних телефона.[54] .

Према истраживању,[8] израз "дубинско учење"  представља заједницу машинског учења Рине Декстер из 1986. године[14] и касније oд Вештачке мреже неурона Игора Аизанберга и колега у 2000.години.[55] Google Нграм - дијаграм показује да је коришћење термина у употреби од 2000.године.[56] Публикација Жофри Хинтон и Руслан С. привукла је додатну пажњу показујући колико слојева проактивне-напредне мреже треба да буду ефективне пре обраде једног слоја, истовремено, третирајући сваки слој повремено као без надзора ограничена Boltzmann машина, а онда фино подешавање коришћењем (надгледања сузбијања ширења)[57] Шмидхубер је 1992. године већ имплементирао веома сличну идеју за ненадгледану дубоку хијерархију повратне неуронске мреже и такође експериментално показао његове предности за убрзавање учења(надгледаног).[15][58]

ООд овог оживљавања, дубоко учење је постало део многих state-of-the-art система у различитим дисциплинама, нарочито рачунарске визије и аутоматско препознавање говора (АSR). Резултати се обично користе за оцењивање скупова као што су ТИМИТ (АСР) и МНИСТ(обрађивање слика), као и широк опсег препознавања речи и говора који стално напредују са новим апликацијама дубоког учења.[46][59][60] нНедавно је показано да је архитектура дубоког учења у облику CNN[61][62] У сваком случају оне се више користе у рачунарској визији него у АСР, а модерна велика скала препознавања говора се типично односи на СТС[52] за ЛСТМ.[50][54][63][64][65]

Стварни утицај дубоког учења у индустрији почео је раних 2000тих. година када је CNN већ почела да процењује 10% до 20% свих провера написани у САД раних 2000тих. према Јан Ле Цун.[66] Препознавање говора у индустрији почело је око 2010. године. Крајем 2009. године Ли Денг је позвао Жофрија Хинтона да ради са њим и колегама у Microsoft Research и да примене дубоко учење за препознавање говора. Они су заједно организовали NIPS 2009.године радионицу дубоког учења за препознавање говора. Радионица је била мотивисана ограниченим дубоким генеративним моделима говора и могућностима да су велики рачунар као и подаци захтевали озбиљну неуронску мрежу(ДНН). Веровало се да (ДНН) користи генеративне моделе мреже дубоког веровања (DВN) и да би могли да превазођу главне потешкоће неуронске мреже са којима су се суочавали 1990тих. година.[48] У сваком случају, рано у овом истраживању у Microsoft, откривено је да без обуке унапред, али коривстивши велику количину података за обуку, а нарочито (ДНН), створен са одговарајућим великим излазним слојевима, ствара гршке знатно ниже него тада state-of-the-art ГMM-ХMM и такође од напредног генеративног заснованог модела система за препознавање гласова. Ово отркиће је било потврђено од стране неколико група за препознавање гласова.[46][67] Дакле, систем препознавања грешака створен од два типа система, био је знатно другачији,[47][68]  нудећи технички увид у то како интегрисати дубоко учење у већ постојећи ефикасан систем брзог одређивања гласа, који су развили главни играчи у индустрији препознавања гласова. Историја овог значајног развоја у дубоком учењу је описана и анализирана у неколико књига и чланака.[1][69][70]

Развој хардвера је такође био важан у оногућавању обнављања интересовања за дубоко учење. Посебно, моћне графичке процесорске јединице(CPU) су добро прилагођене за обраде бројева, матрица/вектора- математике укључених у машинско учење.[71][72] GPU су показали да треба убрзати алгоритме у смислу величине и тако скратити време за рад.(смањити од недеље до неколико дана).[73][74]

Вештачке неуронске мреже уреди

Неке од најуспешнијих метода дубоког учења укључују вештачке мреже неурона. Вештачке неуронске мреже су инспирисане биолошким моделом који су предложили Нобелови лауерати Давид Х. Хубел и Торстен Визел 1959. годне које је пронашао две врсте ћелија у основном визуелном контекту: једноставне и сложене ћелије. Многе вештачке неуронске мреже могу бити посматране као каскадни модели[36][37][38][75] врста ћелија инспирисане овим биолошким посматрањем.

Фукушимин Неоконгрингтон увео је скуп мреже неурона делимично обучених за рад без људског надзора у неуро-равни. Јан Ле Цун и други 1989. године примењују сузбијање ширења на такве архитектуре.[76] Венг и други су 1992 објавили Кресцептрон скуп* неуронске мреже[36][37][38] за 3-D предмете на сликама са пренатрпаним сценама и издвајање таквих предмета са слика.

Очигледна потреба за препознавање општих 3-D предмета је најмање померање непроменљивости и толеранције до деформације. Max-pooling је први предложио Кресцептрону[36][37]  да омогући мрежи да толерише од малих до великих деформација на хијерархијски начин, уз коришћење скупа*. Max-pooling помаже, али не гарантује померање непроменљивости на нивоу пиксела.[38]

Са појавом бекпропагејшн алгоритма заснованог на аутоматској диференцијацији,[27][29][30][77][78][79][80][81][82][83] многи истраживачи покушавали су да обуче под надзором дубоку вештачку неуронску мрежу од старта, у почетку са мало успеха. Дипломски рад Сеп Хохрајтер из 1991. године формално је пронашао разлог за овај неуспех као проблем недостатка прегиба, који утиче на многе слојевите напредне мреже и периодичне неуронске мреже. Периодичне неуронске мреже су обучене тако да се одвијају у веома дубоким напредне мрежама, где нови слој настаје за сваки временски интервал од улазне секвенце процесуиране у мрежи. Грешке настају од слоја до слоја, смањују се са бројем слојева и ометају подешавање тежине неурона која се заснива на овим грешкама.

Неколико метода је предложено како би се превазишао овај проблем. Један је Јурген Шмидхубер вишеслојна хијерархија мрежа(1992) која претходно тренира један ниво у року без надзорног учења, фино подешавање по бекпропагејшн алгоритму.[15] Овде сваки ниво учи компресовано представљање запажања које се уноси у следећи ниво.

Друга метода је мрежа дуге-кратке меморије (ЛСТМ) Хохрајтер и Шмидхубер (1997).[50] Дубоке мултидимензионалне (ЛСТМ) мреже освојиле су 2009. године три ИЦДАР такмичења која су повезана са препознавањем рукописа, без икаквог претходног знања о три језика.[84][85]

Свен Бенке се 2003.године ослањао само на знак градијента који је уочавао свој Neural Abstraction Pyramid[86] , да реши проблеме као што су реконструкције слике и локализација лица.

Друге методе такође користе без надзора пре-тренинг на структуру неуронске мреже, чинећи тако корисним детекторе функција. Онда је мрежа додатно обучена за надзор бекпропагејшн за одређивање обележених података. Хинтонов дубоки модел неуронске мреже(2006) укључује учење расподеле заступљености на високом нивоу користећи узастопне слојеве бинарних или стварних вредности латентних варијабли. Он користи ограничено Болтцманове машине[87] за модел за сваки нови слој виших функција нивоа. Сваки нови слој гарантује повећање на нижи log likelihood података, чиме се побољшава модел, ако је исправно обучен. Када су слојеви једном довољно научени, дубока архитектура може се користити као генеративни модел за репродуковање података када се пробају пробни подаци са врха активације.[88] Хинтонови модели су ефективни преко високо-димензионих, структурних података.[89]

The Google Brain тиме вођен од Ендрју Нег и Џеф Дин створили су мрежу неурона која је нучила да препознаје концепте на високом нивоу, као што су мачке само од слика преузетих са YouTube. [90][91]

Остале методе се ослањају на потпуне процесорне снаге модерних рачунара, нарочито GPU. Дан Кирешан и колеге[73] у групи Јурген Шмидхубер у Swiss AI Lab ИДИСИА, показали су да упркос горе поменутом "настаје проблем градијената", претпостављена снага GPU чини план back-propagation изводљивим за дубоку напредну неуронску мрежу са много слојева. Овај метод је надмашио све отале технике машинског учења, познати МНИСТ проблем ручног писања цифара Јан Ле Цун и колега.

Отприлике у исто време, крајем 2009, мрежа дубоког учења напредује у препознавању говора, у оквиру NIPS радионице Дубоког учења и препознавања говора. Стални заједнички рад истраживача, између Мајкрсофта и Универзитета у Торонту, показали су до средине 2010.године, у Redmond, да дубоке неуронске мреже повезане са скривеним Марковим моделом зависе од контекста државе*, које одређује неуронску мрежу излазног слоја, могу драстично да смање грешке у препознавању говора богатог речника као што је гласовна порука. Исти дубоки модел мреже неурона је био показан на сакали Switchboard, годину дана касније у Microsoft Research Asia. Чак и раније, 2007.гододине ЛСТМ[50] обучени за СТС[52] почели су да добијају одличне резултате у одређеним апликацијама.[53] Овај метод се сада широко користи, на пример у Google, на високо напредном препознавању говора за све кориснике паметних телефона.[54]

Од 2011.године у мрежи дубоког учења увијених слојева и max-pooling слојева,[92][93] прекривени су потпуно повезаним или делимично повезаним слојем праћени завршним слојем класификације. Обука се обично обављала без икаквог надзора пре-обуке. До 2011.год. GPU-основне имплементације [92] овог приступа, освојио је многа такмичења укључујући ИЈЦНН 2011, такмичење препознавања саобраћајних знакова,[94] ИСБИ 2012 Сегментирање структуре неурона,[95] такмичење Competition,[96] и друга.

Овакве методе надгледаног дубоког учења такође су биле први вештачки пример препознавања одређених задатака.[97]

Како би се превазишле препрке слабе AI представљене дубоким учењем, неопходно је зћи иза архитектуре дубоког учења, јер биолошки мозак користи и плитко и дубоко кружење и представља широки спректар непроменљивости. ANN су били у могућности да раде са малим природним предметима у великим пренатрпаним сценама само када се непроменљивост јавља иза сталности, ка свим ANN-наученим концептима, као што су положај, врста, скала, светло.[98] [99] [100][101] [102]

Архитектура дубоких неуронских мрежа уреди

Постоји велики број других облика дубоке архитектуре. Многи од њих су огранак неке архитектуре. Није увек могуће поредити их све заједно, јер нису оцењене са истим подацима. Област дубоког учења брзо расте, и нове архитектуре других облика или алгоритама појављују се сваких неколико недеља.

Кратко о мрежи дубоких неурона уреди

Мрежа дубоких неурона (ДНН) је вештачка неуронска мрежа (АНН) са више скривених слојевних јединица између улазних и излазних слојева.[2][4]  Слично са плитким (АНН), (DНН) може имати сложену не-линерану везу. (ДНН) архитектура, на пр. за откривање предмета и рашчлањивање чине композициони модел где је изражен објекат као наслагана целина ранијих слика.[103] Додатни слојеви омогућавају особине композиције од нижих слојева до виших, додајући неколико сложених јединица од сличних који су изведени у плиткој мрежи.[2]

ДНН су типично створене као феедфорвард мреже, али истраживање је веома успешно применило периодичне мреже неурона, нарочито ЛСТМ,[50][104] за апликације као што је језичко моделирање.[105][106][107][108][109] Увијене дубоке неуронске мреже (ЦНН) се користе код рачунарских визија где је њихов успех документован.[110] ЦНН је такође показао велики успех у односу на претходне моделе код аутоматског препознававања гласова (АСР). Како би поједноставили, приказ обуке ДНН је дат овде.[62] 

Метод обрнуто ширење грешке уреди

DNN може бити неограничено тренирана са стандардним алгоритмима пропагејшн. Према различитим изворима,[4][8][83][111]основа трајне пропагејшн је била изведена из контекста теорије контроле Henry J. Kelley[78] 1960.године и Arthur E. Bryson 1961.године[79][112] користећи основе динамичког програмирања. 1962, Стјуарт Дрејфус објавио је једноставно порекло засновано само на правилу ланца.[80]  Артур Е. Брајсон и Ју-чи Хо описали су то као виши степен динамичног система методе оптимизације 1969.године.[113][114]1970, Сеп Линаиман је коначно објавио општу методу за аутоматску диференцијацију (AD) посебно повезане мреже увијених диференцијабилних функција.[27] [115]Ово одговара модерној верзији пропагејшн која је стварна чак и када су мреже ретке.[4][8][28][77] Стјуарт Дрејфус 1973.год. је користио пропагејшн да прилагоди параметре управљања у одноасу на грешке градијента..[81] Пол Вербос је 1974.године споменуо могућност примене овог начела на АНН,[116] и 1982.године он је применио Линаиман AD метод на мреже неурона на начин који и данас има широку употребу 1986, Давид E. Румелхарт, Жофри E. Хинтон and Роналд J. Вилијамс су показали кроз рачунарске експеримене да овај метод може генерисати корисне интерне репрезентације улазних података у скривеним слојевима неуронске мреже.[82] Ерик А. Ван је био први[4] који је 1993. године освојио међународно признање на такмичењу препознавања у оквиру пропагејшн.[112][117]

Тежина података пропагејшн може бити урађена помоћу stochastic градијента спуштања коришћењем следеће једнакости:

 

Овде,   је степен учења,   је вредност. Избор функције цена зависи од фактора као што су врста учења(надгледано, ненадгледано, појачано...) и функције активације. На пример када се изводи надлгедано учење на проблему класификације, заједнички избори за функције активације и учења су: софтмакс функције и cross entropy функције. Функције софтмакс се одређује помоћу   , где   представља вероватноћу класе(излаз јединице  ) а   и   представљају потпуни улаз до јединица   и   истог нивоа. Крос ентропи се одређује као   , где   представља циљану вероватноћу за излазну јединицу   а   је вероватноћа излаза за   после примене функције активације.[118]

Ово се може користити за излазне објекте граничне кутије у облику маске. Они се такође користе за multi-scale регресију да повећају прецизност локализације. ДНН може да научи особине за хватање геометријских информације, поред тога што је добар класификатор. Они померају и њихове везе. Ово нам помаже да научимо широку разноликост предмета. Модел се састоји од више слојева, сваки од њих има очишћену линеарну јединицу за не линеарну трансформацију. Неки слојеви су увијени док су остали потпуно повезани. Сваки увијени слој има додатни max pooling. Мрежа је обучена да минимизира Л2 грешку за предвиђање рангирања маске преко целог тренутка садржећи bounding boxes представљање као маске. 

Проблеми са дубоким неуронским мрежама уреди

Као и са АНН многа питања се могу појавити са ДНН ако су неискусно третирани. Два заједничка питања су тренирање и рачунање времена.

ДНН су склони тренирању због додатних слојева абстракције који им дозвољавају модел који је мање завистан у одлуци. Методи регулације као што је Иваненков[25] или поремећена тежина ( регуларизација) или раштрканост( -регуларизација), могу бити додати током обуке како би помогли пре-обуци.[119]

Скорија метода регуларизације додата на ДНН је регуларизација испадања. У испадању, неки број јединица су случајно изостављене из скривених слојева током тренинг. Ово помаже да се пробије ретка зависност која се може појавити у тренингу података. Доминантни метод за тренирање ових структура је тренинг исправљања грешака током којих се јавља имплементација и намера да се приближе бољој локалној оптимизацији од других метода. Ове методе могу бити скупе, нарочито за ДНН. Има много параметара који могу бити разматрани са ДНН, као што су величина(број слојева и број јединица по слоју), стопа учења и почетна тежина. Чишћење кроз простор параметара за оптималне параметре можда неће бити могуће и односу на цену и изворе. Разни трикови као што су коришћење mini-batching(израчунавање нагиба на неколико примера тренинга и једном ређе него индивидуални примери)[120] показали су брзину у пребројавању. Велики пропусна моћ кроз GPU произвела је значајну брзину у тренингу, због израчунавања матрице и вектора који су потребни је погодна за GPU.[4] ,[121] [122] [123] [124]

Прва мрежа дубоког учења из 1965: ГМДХ уреди

Према историјским истраживањима,[4] прва функционална мрежа дубоког учења са много слојева, објављена је од Иваненка и В. Г. Лапе, 1965. године.[24][125] Алгоритам за учење звао се Групни метод чувања података или ГДМХ.[126] ГДМХ описује потпуно аутоматско структуирање и параметарску оптимизацију модела. Функције активирање мрежних чворова су Колмогоров-Габор полинома који дозвољавају допуне и множења. Иваненков рад[25] описује учење дубоке феедфорвард вишеслојне перцепције са 8 слојева, већ много дубље него многе касније мреже. Мрежа надгледаног учења расте слој по слој, где је сваки слој трениран анализом регресија. С времена на време бескорисни неурони су погођени сетом за валидацију, и смањени су кроз регуларизацију. Величина и дубина резултата мреже зависе од проблема. Варијације ове методе се и даље користе.[127]

Увијене неуронске мреже уреди

CNN је постао метода избора за процесирање визуелног и друга два димензионална податка.[31][66] СНН је састављена од једног или више увијених слојева са потпуно повезаним слојевима на врху. Нарочито max-pooling[37] се често користио у Фукушима увијеној архитектури.[26] Ова архитектура дозвољава CНН да узме предности 2Д структуре улазних података. У поређењу са осталим дубоким архитектурама, увијене неуронске мреже показале су боље резултате у препознавању слика као и у апликацији препознавања говора. СНН су лакше за обуку од осталих редовних, дубоких, напредних неуронских мрежа и имају мање параметара да процесуирају, чинећи их погодним за употребу.[128].[129] 

Историја неуронског компресора уреди

Проблем настајања градијента аутоматске диференцијације у неуронским мрежама је делимично савладан 1992.године помоћу раног генеративног модела званог Компресор историје неурона, имплементираног као ненадгледане гомиле повратне неуронске мреже (РНН). РНН на доводном нивоу учи да предвиди његову следећу апроксимацију од претходног довођења. Само непредљиве трансмисије неких РНН у хијерархији постају доводљиви до следћег нивао РНН који, према томе, ретко поново израчунава своје унутрашње стање. Сваки виши ниво РНН учи сажето представљање информација у РНН истог. То је урађено тако да секвенца довођења може бити прецизно реконструисана од секвенце представљача на највишем нивоу. Систем успешно минимизира дужину описа или негативан логаритам вероватноће података. Ако има доста учљиве предвидљивости у секвенцама долазећих података, онда највиши ниво РНН може користити надгледано учење и да лако подели чак и дубоке секвенце за веома кратко време између важних догађаја. Овакав систем је 1993.год. већ решио задатак "Веома дубоког учењаЋ који је захтевао више од 1000 следећих слојева у једном РНН, раширен у времену. [32]

Такође је могуће прочитати целу РНН хијерархију у само два РНН, звану "conscious" чункер (виши ниво) и "subconscious" аутоматизер(нижи ниво). Једном је чункер научио да предвиди и да компресује довођење које је и даље непредвидљиво помоћу аутоматизера; аутоматизер је принуђен у фази следећег учења да предвиди или имитира кроз посебне додатке једининице скривене јединице спорије променљивог чункер-а. Ово олакшава аутоматизеру да учи правилно, метко мења меморију за дуже временске интервале. Ово олакшава аутоматизеру да учини једном непредвидљиву трансмисију предвидљивом као што чункер може да се фокусира на подсећање и даље напредвидљивих догађаја, да компресује податке још више.[15]

Повратне неуронске мреже уреди

Повратне неуронске мреже[130] су створене додавањем истог сета тежина рекурзивно , преко различитих graph-like стукрура, помоћу попречне стуктуре, у тополошком реду.  Овакве мреже су такође типично обучене помоћу супротног модела аутоматске диференцијације.[27][77] Сам РНН је посебан случај рекурзивне неуронске мреже чија стуктура одговара линеарном ланцу. Рекурзивне неуронске мреже се користе за обраду природних језика.[131] РРекурзивне неуронске тенсор мреже користе тенсор заснован на функцији композиције за све чворове у стаблу.[132]

Дуготрајно памћење уреди

Бројна истраживања сада користе друге облике дубоког учења РНН званог Дуготрајно памћење (ЛСТМ), мрежу објављену од Хохрајтер и Шмидхубер,1997.године. То је систем који не воли традиционални РНН и нема проблема настајања градијента. ЛСТМ је нормално повећан повратним улазима званим "заборављени улази". ЛСТМ РНН спречава ширење бацкпропагатион грешке од нестајања или експлодирања. Уместо тога гршке могу да теку супротно кроз неограничен број виртуалних слојева у ЛСТМ РНН не задржавши се у простору. Тако да, ЛСТМ може да научи задатке "Веома дубоког учења" који захтевају памћење догађаја који су се догодили хиљадама или чак милионима година пре. ЛСТМ ради чак и када има дугих задржавања и може да задржи сигнал који има поменуте ниске и високе компоненте учестаности.[133] 

Данас, многе апликације користе гомилу ЛСТМ РНН[53]и тренирају их помоћу CТC[52]  да пронађу РНН тежину матрице која повећава вероватноћу одређених последица у обучавању, дајући одговарајуће последице довођења. CТC постиже и сврставање и препознавање. 2009.године CТC је обучавао ЛСТМ и био је први РНН који је освојио такмичење у препознавању обрасца, када је освојио неколико такмичења у повезаном препознавању рукописа.[4][84] Већ 2003. године ЛСТМ је почео да постаје кункурентан са традиционалним препознавањем говора на одређеним задацима. Комбинација са СТС је 2007.године постигла прве добре резултате на повратиним подацима..[53] Од тада, овај приступ је преокренуо револуцију препознавања говора. Кинески истраживачки гигант Бајдај користио је 2014.године CТC-тренирани РНН да надмаши Switchboard 5'00 препознавање говора без коришћења ни једне традиционалне методе.[134] ЛСТМ је такође побољшавао препознавање говора,[63][64] претварање текста у говор синтеза,[135] такође Google Android,[8][65] и photo-real talking heads.[136] Google's speech је 2015.године доживео скок од 49% кроз CТC тренирани РНН, које је сад могуће кроз Google Voice ка милионима корисника паметних телефона..[54]

ЛСТМ је такође постао веома популаран у области обраде природних језика. За разлику од претходних модела, ЛСТМ може да научи да препознаје контекстуални језик.[105] ЛСТМ је побољшао машинско преођење,[106] Језик за моделирање[107] и језик обраду.[108] ЛСТМ комбинован са увијеним неуронским мрежама ЦНН такође је унапредио аутоматкси наслов слике[137] и многе друге апликације.

Мреже дубоких уверења уреди

 
Ограничене Болтзманове машине (РБМ) са потпуно повезаним видљивим и невидљивим јединица. Имајте на уму, да нема скривених-скривених или видљивих видљивих веза.

Мрежа дубоких уверења (ДБН) је пробабилистички, генераторни модел направљен од вишеструких скривених јединица. Може се сматрати да је то композиција модула једноставног учења које прави сваки слој.[16]

ДБН се може користити генеративно пре тренинга (ДНН) коришћењем ДБН тежина као почетних ДНН тежина. Back-propagation или други дискриминативни алгоритами онда се могу додати фином подешавању ових тежина. Ово је нарочито важно када су ограничени тренирани подаци могући, јер ослабљена почетна тежина може значајно да омете преформансе научених модела. Ове пре-тренинг тежине су у области простора тећине који је ближи оптималној тежини него случајном одабиру почетне тежине. Ово дозвољава унапређењеном моделингу као и бржој конвергенцији фазе финог подешавања.[138]

ДБН може бити ефикасно трениран и у ненадгледаном тренирању, слој по слој начину, где су слојеви типично направљени од ограничених Болцманових машина (РБМ). РБМ је генеративни модел заснован на енергији са "видљивим" долазним слојем и скривеним слојем и везама између слојева, али не без слојева. Овај метод за РБМ предложио је Џорџ Хитон за коришћење тренинга "Product of Expert", а модели се називају CD.[139] CD омогућава апроксимацију максимума сличних метода које би биле додате за учење тежина РБМ-а.[120][140]У обуци једног РБМ, подаци тећине су изведени са напредовањем градијента у следећој једнакости:  . Овде,   је вероватноћа видљивог вектора, који је дат помоћу  .   је подељена функција коришћена за нормализацију и    је функција енергије намењена стању мреже. Показатељи ниже енергије мреже су у "пожељној" конфигурацији. Градијен   има једноставну форму   , где   представља просек у односу на дистрибуцију  . Исход расте у узорцима   јер ово захтева наизменично протицање Gibbs узорка дуже време. СD замењује овај корак помоћу Gibbs узорка протицања за   корака (вредности   били су емпиријски приказани). После   корака, подацу су испробани, а тај узорак је коришћен на месту  .Процедура СD ради каи што следи:[120]

  1. Иницијализовати видљиве јединице у вектор за обуку
  2. Ажурирати скривене јединице паралелно са видљивим јединицама  .   је сигмоида и   тежи ка  .
  3. Ажурирати видљиве јединице паралелно са скривеним јединицама:  .   тежи ка  . То се зове "реконструкцијски" корак.
  4. Поново Ажурирати скривене јединице паралелно са обновљеним видљивим јединицама коришћењем исте једнакости као у кораку 2.
  5. Извести ажуриране тежине: .

Када је један РБМ трениран, други РБМ је на врху стека, узимајући свој довод из коначног већ тренираног поља. Нови видљиви слој је упућен на тренирани вектор, а вредности јединице у већ тренираним слојевима су одерђени коришћењем тока тежина и градијента(дијагонала). Нови РБМ је онда трениран са процедуром изнад. Овај цео процес је поновљен док се неки жељени критеријум заустављања не испуни.[2]

Иако је апроксимација СD до максимума вероватноће веома сирова(СD је показао да не праки градијент било које функције), емпиријски је доказано да је ефикасан у обуци дубоке архитектуре.[120]

Увијене мреже дубоког уверења уреди

Недавно достигнуће у дубокој мрежи учења је коришћење увијених мрежа дубоког учења (ЦДБН). (ЦДБН) има структуру веома сличну увијеним неуронским мрежама и оне су трениране слично са мрежама дубоког веровања. Оне користе 2Д структуре слика, као ЦНН, и користе пре тренинг као мреже дубоких неурона. Оне обезбеђују генеричку структуру која може бити искоришћена код многис слика и појединих задатака. Скорија, многи benchmark резултати код стандардних слика као ЦИФАР[141] су добијени уз коришћењем ЦДБН.[142]

Чување велике меморије и успостављање неурноске мреже уреди

Чување велике меморије и успостављање неурноске мреже ЛАМСТАР[143][144] су брзе неуронске мреже од много слојева, који могу да користе многе филтере истовремено. Ови филтери могу да буду нелинеарни, стохастички, логички, непомични или чак неаналитички. Они су биолошки мотивисано и континуирано учење.

Неурноска мрежа (ЛАМСТАР) може послужити као динамична неуронска мрежа у простору или времену или обоје. Његова брзина је обезбеђена помоћу Хебиан link-weights (Chapter 9, 2013[145]), који служи да интегрише различите и обично другачије филтере у много слојева и да подигну важност различитих слојева и функција датих задатака за дубоко учење. Ово грубо имитира биолошко учење које интегрира учинак различитих ЦПУ(cochlea, retina, etc.) и кора (auditory, visual, etc.) и њихове различите области. Његова способност дубоког учења је да не повећава коришћење индукције, корелације и помоћу своје способности да изађе на крај са некомпетентним подацима или "изгубљеним" неуронима или слојевима на средини задатка. Потпуно је транспарентно у односу на link weights. link weights такође дозвољавају динамичку одређеност иновација и сувишности и олакшавају рангирање слојева, филтера или индивидуалних неурона који се односе на задатак.

ЛАМСТАР је додаван многим медицинским[146][147][148] и финансијским предвиђачима,[149] прилагодљивом филтрирању бучног говора у непознатој буци,[150] препознавању слика и видеа,[151] [152][153] безбедности софтвера,[154] пролагодљивој контроли не линеарног система[155] и други.  ЛАМСТАР има много већу рачунајућу брзину и понекад мање грешака од увијених неуронских мрежа заснованим на РеЛУ функцији и max pooling, у студији препознавања карактера.[156]

Ове аппликације показују продор у аспекте података који су скривени од плитких мрежа или чак од људских осећаја(око, ухо и др.) као и у случајевима предвиђања сна, електрорадиограма фетуса док се снима помоћу електрода постављених на мајчином абдомену рано у трудноћи,[148] финасијских предвиђања[143] или у слепом пречишћавању бучног говора.[150]

ЛАМСТАР је био предложен 1996.године и даље је развијан од Д Груапе и Х Кордилевког 1997-2002.[157][158][159] Модерна верзија позната као ЛАМСТАР 2 развијена је од Н Ц Шнајдера и Д. Груапе, 2008.године.[160][161]

Дубоке Болцманове машине уреди

Дубока Болцманова машина ДБМ је врх бинарних парова Марковог слуцајног поља (неодређеног пробабилитичког графичког модела) са вишеструким слојевима скривених случајних променљивих. То је мрежа симетрично упарених стохастичких бинарних јединица. Она садржи сет видљивих јединица  , и серију слојева скривених јединица . Нема везе између јединица истог слоја(као РБМ). За ДБМ вероватноћа одеређена вектором ν је

 

где   су група скривених јединица, а су модели параметара који представљају видљиво-сривене и скривено-скривене интеракције. Ако.    и    мрежа је добро ограничена Болцмановом машином[162] Интеракције су симетричне јер су линкови неодређени. У супротном, у мрежи дубоког веровања ДБН само два главна слоја образују ограничену Болцманову машину (која је неодређени графички модел),али нижи слојеви образују директни генеративни модел.

Као ДБН, ДБМ може нучити сложено и апстрактно унутрашње представљање у задатку као што су објекти или препознавање гласа, коришћењем ограничених обележених података од fine-tune представљања направљених коришћењем великих залиха необележених сензора улазних података. За разлику од ДБН и дубоких увијених неуронских мрежа, они прихватају закључак и тренинг у оба правца, од дна до врха и од врха до дна, што омогућава ДБМ да боље представљање двосмислене и комплексне структуре довођења.[163][164]

У сваком случају брзина ДБМ ограничава њихову функционалност и извођење. Тачна максимална вероватноћа улаза је неукротива за ДБМ, ми можемо извести максималну вероватноћу удела отприлике. Друга могућност је користити предње поље закључка за истраживање очекивања корисника заснованих на подацима, приближно очекивани статистички модел коришћењем Markov chain Monte Carlo (MCMC).[162] Овај приближни закључак, који мора да буде уређен за сваки тест довођења је око 25 до 50 пута спорији од једног дно-врх пролаза у ДБМ. Ово чини везу оптимизације неостварљивом за велике податке и озбиљно ограничава коришћење ДБМ за задатке као што су представљање особина.[165]

Наслагани ауто-енкодери уреди

Идеја ауто енкодера је мотивисана концептом доброг представљања. На пример, за класификатое, добро представљање може бити дефинисано као оно које ће произвести бољи класификатор.

Енкодер је утврђена криптографија   која преноси улазни вектор x у скривено представљање y, где  ,   је матрица тежине, а b је offset вектор(дијагонала). Мапе декодера враћају скривено представљање y на реконструисано довожење z преко  . Цео процес ауто енкодинга је да пореди ово обновљено довођење са оргиналним и да покуша да смањи ову грешку као и да учини ово обнављање вредним што је више могуће ближим оригиналу.

У гомили напакованих ауто енкодера, делимично растојање учинка је очишћено. Ову идеју је представвио Vincent, 2010.год.[166] са посебним приступом добром представљању. Добро представљање је оно које се може постићи снажно из распаднутог довођења и које ће бити корисно за опоравак одговарајућег чистог довода. Подразумевају се следеће идеје:

  • Виши нивои представљања су релативно стабили и чврсти према распадању довођења;
  • Неопходно је припремити особине које су корисне за представљање расподеле довођења.

Алгоритам садржи више корака; почињу од стохистичког мапирања   до   кроз  ,  ово је корак распадања. Онда распаднути довод   пролази кроз основни процес ауто енкодера и мапира је у скривено представљање  .Из овог скривеног престављања, ми можемо реконструисати  . У последњој фази минимизирани алгоритам протиче у циљу да добије z што је могуће ближе до непрекидности довода  . Грешка реконструкције    може бити и губитак cross-entropy са афиним-сигмоидним декодером, или губитак squared гршке афиним декодером.[166]

У циљу да направе дубоку архитектуру, ауто енкодери се слажу један на другог.[167] Када се једном научи функција енкодирања   првог напакованог ауто енкодера и коришчењем за нарастање ми можемо тренирати други ниво.[166]

Када је једном трениран наслагани ауто енкодер, његов учинак може се користити као довод до надгледаних алгоритама учења као што је класификатор подршке векторска машина или више класна логистичка регресија. [166]

Дубоко сложене мреже уреди

Једна дубока архитектура заснована на хијерархији блокова поједностављених модела неуронске мреже је дубоко конвексна мрежа представљена 2011.год.[168] Овде, проблем учења тежине је формулисан као конвексна оптимизација проблема затвореним обликом решења. Ова архитектура се такође зове дубока сложена мрежа ДСН,[169] која наглашава механизам сличности од сложене генерализације.[170] Сваки ДСН блок је једноставан модул којег је лако тренирати у надгледаном облику без back-propagation за цене блокова.[171]

Како су дизајнирали Deng и Dong,[168] сваки блок се садржи од поједнсотављених вишеслојних перцепција (МПЛ) са једним скривеним слојем. Скривени слој h има логистичке сигмоидне јединице, и слој учинка има линеарне јединице. Везе између ових слојева су представљене помоћу матрица тежине U; везе довода до скривеног слоја имају матрицу тежине W. Циљани вектор t из колоне матрице T, и податак довода вектора x формира колоне матрице X. Матрица скривених јединица је  . Модули су тренирани по реду, па је тежина нижег нивао W позната на сваком степену. Функција изводи елементе- мудере логистичке сигмоидне операције. Сваки блок процењује исти финални label врсте y и његова процена је повезана са оргиналним доводом X да образује развијени довод за следећи блок. Довод првог блока садржи само оргиналне податке док силазни довод блокова такоже имају учинак претходних блокова. Онда матрица тежине горњег слоја U датих других тежина у режи може бити формулисан као конвексни проблем оптимизације:

 

који има решење затвореног облика.

Док код других дубоких архитектура, као што је ДБН, циљ није да се открије представљање трансформисаних особина. састав хирерахије ове врсте архитектуре прави отворене пралалеле као што је batch-mode проблем оптимизације. У јасним различитим задацима ДСН се изводи боље од опште познатог ДБН.[169]

Тензор дубоке сложене мреже уреди

Ова архитектура је растезање дубоких сложених мрежа (ДСН). Она побољшава ДСН на два важна начина: користи информације вишег реда од коваријанте статистике, и претвара не-конвексни проблем ниског слоја у конвексни под-проблем вишег слоја.[172] ТДСН користи коваријанте статистике података коришћењем билинарне картографије из сваког од две јасне групе скривених јединица у истом слоју до предвиђања, до трећег реда тензора.

Док се паралелизују и скалабилизују не сматрају се озбиљним у опште познатој ДНН,[173][174][175] сва учења за ДСН и ТДСН се раде у групном моделу да би дозволили паралелизацију на групу CPU или GPU чворова.[168][169] Паралелизација дозвољава скалирање до дубљих арихтектура и група података.

Основна арихтектура је подесна за разне задате као што су класификација и регресија.

Spike-and-slab РБМ уреди

Потреба за дубоким учењем са реаланим бројевима, као што је Gaussian ограничио Болумановим машинама, мотивисао је Spike – and- slab РБМ чији модели садрже вредне доводе са строго бинарним скривеним варијабилима.[176] Слично основним РБМ и његовим варијацијама, Spike – and- slab РБМ је бипартитивни граф, док као ГРБМ, видљиве једнице(довод) су стварио(приближио) оцењење. Разлика је у скривеном слоју, где свака скривена једница има бинарну spice варијаблу и стварно( приближно) оцењење slab варијабле. Spike је одвојена вероватноћа масе на нули, док је слаб густина преко трајног домена;[177][177] њихова мешавина формира "прирор". Назив долази из статичке литературе.[178]

Растојање ссРБМ звано µ-ссРБМ обезбеђује додатно моделирње способности коришћењем додатних термина у функцији енергије. Један од свих термина омогућава моделу да образује условну расподелу спике варијабла помоћу маргинализованог одлива слаб варијабла датих у посматрању.

Сложени модели дубоке хијерархије уреди

Сложени хијерархијски дубоки модели садрже дубоке мреже са без параметрим Bayesian моделима. Особине могу бити научене коришћењем дубоких архитектура као што су ДБН,[88] ДБМ,[163] дубоки ауто енкодери,[179] савитљиве варијанте,[180][181] ссРБМ,[177] дубоке кодиране мреже,[182] ДБН са оскудним особинама,[183] рекурзивне неурокосне мреже,[184] услови ДБН,[185] de-noising ауто енкодери.[186] Они обезбеђују доме и представхеаце, омогућавају брже учење и тачнију поделу са високо-димензионираним подацијма. Ове архитектуре су сиромашне код учења нових разреда(класа) са неколико примера, јер су све једнице мреже укључене у предосављаје довода ( подљења представљаја) и морају бити заједно регулисаним ( високи степен слобода). Ограничење степена слободе смањује број параметра за учење, олакшавајући учење нових разреда из нових примера. Hierarchical Bayesian модели довољавају учење нових разреда из нових примера, на пример[187][188][189][190][191] за компјутерску визију, статистику и конгнитивне науке.

Циљ сложених ХД архитектура је да развије карактеристике и ХБ и дубоких мрежа. Сложена ХДП-ДБМ архитектура, хијерархисјски ХДП као хијерархијски модел, генерализовани(одређени) од апстрактивних( кратких) појмова који протичу кроз слојеве модела, који може да синтетише( synthesize) нове примере у новим разредима да изгледају разумно природни. Сви нивои се уче заједено помоћу масималног вода- вероватноће резултата. [192]

У ДБМ са три скривена слојева, вероватноћа видљивог довода ν је:

 

где   збир(set) скривених једница и   су модели параметра, представљају видљиво-скривене и скривено симетричне интеракција термине.

После наученог ДБМ модела, имамо један недиректан модел који дефинише заједницу подељености  . Један начин да се изрази шта се научилоје условни модел   и претходни назив  .

Овде   представља условни ДБМ модел који може бити посматран као двослојни ДБМ али са дијагоналом датој помоћу става  :

 

Мреже дубоког кодирања уреди

Постаје предности модела који аутомотски могу да ажурирају из објашњења у податдку. Мрежа дубоког кодирања (ДПЦН) је шема предвиђеног кодирања где је горе-доле информација коришћена емпирично за регулисање претходних потреба са дна- до врха извођења процедуре са смислом дубоке локалне повећаности генеративном моделу. Ови редови помоћу одломка(дела) скудних особина из ранијих посматрања користе линеарни динамични модел. Онда, удружења стратегија је коришћена да се научи инваријантно представоходе особинама. Ове јединице желе да обрађују дубоку архитектуту и тренианр су помоћу похлепних слојева ненадгледаног учења. Слојеви стварају врсту ланца Маркова исто као што стање на сваком слоју, само зависи од преходног и долазног слоја.

Дубоко превиђена кодирања мреже (ДПЦН)[193] Предвиђена представљање слоја, коришћењем приступа горе-доле и информације у горњем слоју и сталне зависности из претходних стања.

ДПЦН може бити промирена да ибразује савитљиву мрежу. [193]

Дубоке q-мреже уреди

Ово је врста (класа) дубоких модела учења коришћењем Q- учења, врста (облик) појачаног учења, из Google Deep Mind. Трелиминарни резултати су били приказани 2014. Год, са радом објављеним у Фебруару 2015 In Nature.[194] Апликација о којој се разговарало у овом раду је ограничена на АФАРИ 2600 gaming, импликације(подразумевање) за друге апликације су дубоке.

Мреже са одвојеним структурама меморије уреди

Интегрисати спољашњу меморију са вештачким неуронанм мрежама потиче из раних истраживања у расподели представљања[195] Теико Хоренове само-ограничавање мапе. Нпр. , у оскудно подењеној меморији или хијерархијски привременој меморији, узрок шифрован помоћу неуронских мрежа су коришћењени као адресе за садржај-адресиране меморије, са неуронима послужене као адресе шифроване у дешифроване. Рани контролори оваквих меморија нису били другачији.

ЛСТМ-повезане разнолике структуре меморије уреди

Осим облика термина дуге-кратке меморије (ЛСТМ), други приступи од 1990 и 2000-тих год су такође додани различитој меморији до повратних функција . На пример:

  • Различите push(гурам) и pop акције за мреже алтернативне меморије зване неуронске stack(сложене) машине
    [196][197]
  • Мреже меморије где се спољна контрола мреже различита складишњи је у брзој тежини друге мреже[198]
  • ЛСТМ "заборављене кутије"[199]
  • Само-референте повратне неуронске мреже(РНН) са посебним јединицама учинка за адресирање и брзо манипулисање сваке од РНН своје тежине је различитог облика (унутрашње складиштење)
    [200][201]
  • Научити да редукује са неограниченом меморијом[202]

Семантичко претресање уреди

Приступи који директно приказују предходна искуства и користе стручна искуства да обрађују локални модел се често зову најближи комисија или к најближих суседа.[203] Скорије, дубоко учење је показало да може да буде корисино у семантичком претресању[204] где дубоки графички модели вектори бројача речи[205] добијају из великог броја докумената. Документи слични са документима за жалбу, могу се тада пронаћи помоћу јединственог приступа ка свим адресама које се разликују само по неколико бита са адресама докумената за жалбе (распитивање). За разлику од раштракане (ретке) расподеле меморије која ради са 1000 – bit адреса, семантичко претресање – сецкање ради са 32 или 64 – bit адреса пронађених у уобичајеној ком. архитектури.

Неуронске Turing машине уреди

Неуронске Turing машине,[206] раразвијене су од Google Deep , пар ЛСТМ мрежа до спољнох извора меморије који могу да утичу помоћу посебних процеса. Комбиновани систем је аналогни до Turing машине, али је различит крај–до-краја; дозвољавајући да буде ефикасно прецизан помоћу силазног нагиба. Прелиминарни резултати показују да Неуронске Turing машине могу довести до закључка да једноставни аналогни као исто су копирање, сортирање и асоцијално повлачење ( опозив) из примера улаза и учинка.

Мреже памћења уреди

Мреже памћења[207][208] су други продужетак мреже неурона инкорпорације меморије long–term, која је била развијена помоћу истраживачког тима Фејсбука. Меморија long–term може бити читање и писање са циљем коришћења за предвиђање. Ови модели су додати у упитнички систем где меморија long–term ефективно утиче као (динамичка) база а учинак је текстуални одговор.[209]

Индикатор(показивач) мержа уреди

Мреже дубоких неурона могу бити побољшане ( унапређење ) ако добију дугме и имају неколико параметара, док одржавају ( чувају ) способност претраживача. Док је дрепчиг нарочито дубок(1 мил.–слој–дубина) неуронске мреже можда неће бити изводљиве, СРU-као архитектури као што су уиндукатори мрежа[210] и неуронски ретки приступ машинама[211] развијен од истраживача. Гугл Мозак да надмаше ово ограничене коришћењем сполљашњег RAM-а(меморија) исти као додавање других компоненти који типично припадају компјуутерској архитектури као што су регистри ,АЛУ и показивачи. Такви системи раде на вероватноћи расподеле вектора сачуваних у меморијским ћелијама и регистраторима. МОдел је потпуно различит и третира крај – до – краја. Главна карактеристика овог модела је та да њихова дубина, великичина њихове каткотрајне меморије и број парламетара могу бити променљиве независно – успротно од модела као што је ЛСМ, чији број парламенара расте четвороструко са великим чином меморије.

Шифровање-дешифровање мрежа уреди

Оквир шифровања-дешифровања је оквир заснован на неуронским мрежама који жели да означи високо структуирани улаз до високо структуираног излаза. То је скоро предложено у објашњењу машинског превођења[212][213][214] где су улаз и излаз написане реченице на два природна језика. У том раду, ЛСТМ повратне неуронске мреже (РНН) или савитљива неуронска мрежа (CNN) су биле коришћене као шифра за сумирање извора реченице, а сумирање је било дешифровано коришћењем условног повратног модела неуронске мреже језика да произведу (омогуће) превођење.[215] Сви ови системи имају исте изграђене блокове: капије (вратнице, улазно коло) РНН и CNN и тренирање механичке пажње.

Остале архитектуре уреди

Вишеслојна језгрена машина уреди

Вишеслојне језгрене машине [216] су начин за учење високо нелинеарних функција помоћу поновљене апликације слабих нелинеарних језгра. Они користе основне компоненте анализе језгра (КРСА)[217] као методу за не надгледан похлепни слој, пре тренинга корака архитектуре дубоког учења.

Слој  -ви учи представљање претходног слоја   извлачењем   основне компоненте (РС) пројекционог слоја   излаза у подручју подстакнутом од језгра. За циљ (корист) димензионирања смањена ажурирања представљања у сваком слоју, надгледана стратегија је предложена да би се изабрале најбоље особине међу особинама извиченим од КРСА. Процес је:

  • Сврстати   особине према њиховим узајамним(међусобним) информацијама са означеном групом (класом);
  • За различите вредности K и  , израчунати степен грешке класификације К-најближи сусед(К-НН) класификатор коришћењем само m_l особине најинформативније у валидној (потврђеној) групи.
  • вреднопст   са којом је класификатор достигао најнижи степен грешке, одређујем број особина које ћемо задржати.

Било је неких незгода у коришћењу КРСА метода као ћелије изградње МКМ.

Најисправнији рачун за коришћење језгрених машина за дубоко учење развио је Мајкрософт истраживачки тим за разумевање говорног језика.[218] Главна идеја је користити језгрене машине отприлике у плиткој неуронској мрежи са бескрајним бројем скривених јединица, онда користити наслагу (гомилу) спајање излаза језгрене машине и улаз у праћењу следећег, вишег нивоа језгрених машина. Број нивоа у дубокој испупченој мрежи је хипер-параметар свеобухватног система, биће одређен укрштеним потврђивањем.

Апликације уреди

Аутоматско препознавање говора уреди

Препознавање говора доживело је преокрет помоћу дубоког учења, нарочито помоћу кратке-дуге меморије (ЛСТМ), повратне неуронске мреже објављене од Сеп Хохрајтер / J. Ш. 1997. године ЛСТМ РНН, око проблема нестанка нагиба ми можемо научити задатке ,,Веома дубоког учења" које укључује говорне догађаје одвојене помоћу хиљаду година где један временски корак одговара 10мс. 2003. год. ЛСТМ са заборављеним капијама постаје такмичарска са традиционалним препознавачима говора на одређеним задацима. 2007. год. ЛСТМ преписана помоћу (СТС) постигла је одличне резултате у одређеним апликацијама, иако су ком. били много спорији него данас. Google је 2015 изненада скоро дуплирао велику скалу препознавања говора, кроз СТС- тренир. ЛСТМ, сада доступним свим корисницима паметних телефона. [54]

Резултати показани у табели испод су за аутоматске преп. гласа на популарним ТИМИТ подацима. Ово је заједнички податак коришћен за почетно оцењивање архитектура дубоког учења. Цео set садржи 630 говорника из 8 главних дијалекатa Америчког Енглеског, где сваки говорник чита 10 реченица.[219] Његова мала величина дозвољава многим конфигурацијама да буду успешно трениране. Много важније је да ТИМИТ подразумева доследно телефонско препознавање, које у односу на препознавање речи, дозвољава веома слабе „језичке моделе“ у слабост у аспектима акустичног моделирања препознавања говора који могу бити лакше анализирани. Такве анализе ТИМИТ – ја од Ли Денга и колега око 2009. до 2010. Године, разликују ГММ (и остале генеративне моделе говора) у односу на ДНН моделе, подстичући рана индустријска улагања у дубоко учење за препознавање говора од малих до великих скала,[47][68]  водећи до прожету и доминантну употребу у тој индустрији. Те анализе су биле урађене са поређењем (мање од 1,5% степена грешке) између различитих ДНН и генеративних модела. Листа грешака испод, укључује ове ране резултате и мерења као проценат степена тел. грешке (PER), сумирана су у протеклих 20 год.

Метод PER (%)
Насумично иницијализован РНН 26.1
Бајесова Трипхоне ГММ-ХММ 25.6
Модел скривене путање 24.8
Monophone насумично иницијализован ДНН 23.4
Монопхоне ДБН-ДНН 22.4
Трипхоне ГММ-HMM са БММИ обуком 21.7
Монопхоне ДБН-ДНН на фбанк 20.7
Увијени ДНН[220] 20.0
Увијени ДНН са хетерогеним удруживањем 18.7
Енсембле ДНН/СНН/РНН[221] 18.2
Двосмерни ЛСТМ 17.9

Индустријска истраживања проширила су дубоко учење из ТИМИТ до великих речника препознавања говора помоћу прихватања великих излазних слојева ДНН заснованим на допуни – зависног HMM стања конструисаног помоћу дрва одлуке. Исцрпни прегледи овог развоја су од Октобра 2014. доступни у скорој "СПРИНГЕР" књизи из Мајкрософта.[222][223] [224] 

Један основни принцип дубоког учења је обавити га изван одлука ручних – занатских особина инжењеринга и користити друге особине. Овај принцип је први пут успешно истражен у архитектури дубоког аутодешифрована „row“ тектограму линеарних особина,[225] показујући супериорност у односу на Mel – Cepstral особине које садрже неколико степена фиксиране трансформације из спектограма. Истините „row“ особине (изгледи) говора, таласа, су скорије показане да произведу одличне резултате у већој скали препознавања говора. :[226]

Напредак (и даља упутства) могу бити сумирани у 8 правних области:[1][49][69]

  • scaling up/out – скала горе/изван и брзина тренирања ДНН и дешифровања;
  • Доследност (логичност) дискриминативног тренирања ДНН;
  • Особине (одлуке) изведене помоћу дубоких модела са солидним разумевањем неподвучених механизма;
  • Прихватање ДНН и повезаних дубоких модела;
  • Вишеструки задатак и пренос учења помоћу ДНН, повезаних дубоких модела;
  • Увијене неуронске мреже и како их направити (дизајнирати) да најбоље искористе подручје знања говора;
  • Повратне неуронске мреже и њихове богате ЛСТМ варијације;
  • Остале врсте дубоких модела укључујући tensor – based моделе и интегрисани дубоки генеративни модели.

Велика скала препознавања говора је први и најпогоднији начин дубоког учења у скоријој историји, која обухвата и индустрију и науку. Између 2010. и 2014. одржане су две велике конференције ИЕЕ – ИЦАССП и Инетрспич, где је виђено велико повећање у броју прихваћених радова на тему дубоког учења и препознавања говора.[1][227][228] .[229]

Препознавање слика уреди

Заједничко оценивање за класификациу слика је МИНСТ база податка. МИНСТ је састављен од ручно писаних цифара и садржи 60.000 преписаних/ обучених примера и 10.000 текапуалних примера. Као и код ТИМИТ, његова мала величина дозвољава тестирање вишеструких конфигурација. Исујрпла листа резултата ове групе (set) може бити пронађена.[230] Тренутни најбољи резултат МИНСТ је стопа преписке од 0,23 % постигнута од Киресана 2012. године.[231]

Према Ле Цуну, рабе 2000-те год, у инд.апликацији CNN, већ је обрађивао процену свих од 10% до 20%, чекова написаних у US раних год (2000). Значајни додарни удар дубоком урезу у препознавању слика или предмета догодио се 2011-2012 год. Иако је СНН обухвата помоћу бекпропагејшн већ деценијама, ГПУС, на начин Дан Киресан i Колега, било је потребно направити улегнуће удубљење у коми и утерској визији. Овај прилапут је 2011. год потписао први пут људску изведбу у визуелном облику препознавања, Такође је 2011 освојио ИЦДАР. Кинеско такмичење у рукопису; а у Мају 2012, освојио је ИСБИ- такмичење. До 2011 год. CNN није имао главну улогу у конференцији компјутерске визије, али у Јуну 2012. Рад Дена Цирецана и осталих на водећој конференцији ЦВПР показали су како max-pooling ЦННС на GPU може драмастично да побољшају многе облике benchmark снимања. Октобра 2012.год слични систем од Алекса Крижевски у стилу Ж.Х. освојио је такмичење помоћу значајне маргине преко плитког метода машинског учења..[232] 

Како се амбиција креће од аутоматетог прет.говора према аутоматском преводу и разумевању, подела (класификација) слика је скоро била промирена на изазовнији задатак-аутоматског наслова слике, у коме је дубоко учење често као комбинација ЦНН и ЛСТМ) битна је основна технологија[233][234][235][236]

Један пример апликације је компијутер у аутомобилу који је обучен са дубоким урезом, који може да онемогући аутомобиле да тумаче 360 степени изгледа.[237] Други пример је технологија позната као Facial Ana (ФДНА) коришћење да анализира случајеве људске нака зноапи повезане до великих база гентеског синдрома.

Процес природног језика уреди

Неуронске мреже су коришћене за импрементацију језичких модела од раних 2000-тих год.[105][238] Повратне неуронске мреже, нарочито ЛСТМ су више својствени за досредне податке као што је језик. ЛСТМ је помогао у побољшању машинског превода и језичког моделинта. ЛСТМ комбинован са ЦННС такође је побољшао (унапредио) аутоматски наслов слике и много друге апликације..[4]

Остале кључне технике у овом пољу су негативни узорци[239] и уметање (урезање) речи. Уметање речи, може бити посматрано као репрезентативни слој у архитектури дубоког учења који претвара једну атомску реч у позиционо представљање речи, релативне у односу на остале речи, положај је представљен као тачка у простору вектора. Коришћењем уметања речи као улазни слој ка ресурсивној неуронској мрежи, дозвољавају тренинг мреже ка деловима реченицама у фразама које користе, ефекат композиционе векторске граматичке; она може бити сматрана као пробабилистичка допуна слободној граматици (ПЦФГ) имплементираној помоћу рекурзивне неуронске мреже.[240] Дубоке неуронске архитектуре су постигле state-of-the-art- резултате у многим задацима природног језика као што су уређење делова реченица,.[240][241] анализе мишљења,[242] попрвљање информација,[243][244] разумевање говорног језика,[245] машинско превођење,[106][246] означавање битног,[247] и других.[248]

Откривање дроге и токсикологија уреди

Фармацеутска индустрија суочава се са проблемом да велики проценат кандидата користи дрогу како би стигли до тржишта. Овај недостатак хемијских средстава је изазван недовољним деловањем на биомолекуларном задатку(ефекат on target); неодређене и нежељене везе са осталим биомолекулима (off-target утицај) или непредвидљив токсични утицај.[249][250] Тим који је водио Џорџ Дал је 2012. год. освојио "Марек Молекурал, челенџ" коришћењем више задатака дубоке неуронске мреже да предвиди биомолекуларну мету од сложених.[251][252]  Група С.Х. је 2014. год. користила Дубоко учење да открије off-target у токсичан утицај хемикалија на околину у хранљивим, домаћим производима и лековима, освојио је Data Challenge NIH, FDA и ЦНАСТ.[253][254]Овај импресивни успех показао је да дубоко ичење може бити супериорно у односу на остале виртуелне screening методе.[255][256]  Истраживања Гугла у Станфорду појачали су 48 дубоко учење за откривање дроге помоћу комбинације података из различитих извора.[257] Aтомвајс је представио АтомНет 2015. год. Прву неуронскуи мрежу дубоког уреза, за структуре које се односе на дрогу.[258] АтомНет је могао да предвиди кандидате за Нобелову награду у области биомолекула за неколико болести, највише су истицали лечење вируса еболе[259] и мултиле скрерозу.[260][261]

Однос са купцима уреди

Скорији успех је био приказан са апликацијом дубоког појачаног учења у оквиру директног маркетинга, представљајући одговарајућуметоду за ЦРМ. Неуронска мрежа је била коришћена да приближи вредност могућих акција директног маркетинга преко купца, одређеног у називу РФМ варијабила. Процењена вредност дункције била је приказана, видели смо да има природно објашњене као и на вредност дужине живота купца.[262]

Системи препоруке уреди

Системи препоруке користили су дубоко учење да извуку значење дубоких особина за скривене факторе препоруке задовољног купца за музику.[263] Скорије, уопштено први пут за учење предности за више подручја коришћењем мултивју – дубоко учење је било представљено.[264] Овај модел користи хибридне collaborative и пристају засновани на садржини и појачану препоруку у сложеним задацима.

Биоинформатика уреди

Скоро је приступ дубоког учења на аутo енкодерима вештачке неуронске мреже, био је коришћен у биоинформатици, да предвиди онтологију гена и односе генетских функција [265]

Теорије о људском мозгу уреди

Дубоко учење је тесно повезано са вратом теорија о развоју мозга(нарочито nocortical развој) предложен од признатих стручњака 90-тих год.[266] Elman je приступачан режим овог рада, објављен у књизи "Rethinang Innateness"[267] (види још: Shrager and Johnson;[268] Quartz and Sejnowski[269]).Како су ове развојне теорије биле такође тренутно у пребојаваним моделима, оне су технички претходник потпуно мотивисаним моделима дубоког учења. Ови развијени модели деле занимљиву особину(својину) коју различито предложена динамика учења у мозгу конапиративно подржава само организацију или само врату међусобно повезаних неуронских мрежа искоришћених у каснијим моделима дубоког учења; такве пребројане неуронске мреже изгледају анологне на изглед nocortex мозга као хијерархија филтера у којој сваки слој осваја (хвата) неке од информација у оперативној околини, и онда пролази подсетник, исто као и модигикован сигнал, до осталих слојева – даље до хијерархије. Овај процес производи само организацију гомилу трансдуктора, добро подешених са њиховом околином. Као што је уписано у The New York Times, 1995; "...мозак детета изгледа да организује себе под утицајем таласа, званих trophic- фактора, различите области мозга постасју повезане у низу, са једним слојем ткива зрелим пре другог и тако даље све док цео мозак не буде зрео"[270]

Важност дубоког учења са уважавањем на оцењивање и развој људске спознаје, није измакло пажњи ових истраживача. Један од аспекта људског развоја који нас разликује од најближих комшија можда су промене у времену развоја.[271] Између осталог, људски мозак остаје релативно пластичан, све до касног post-katalog периода док мозак наших најближих рођака је комплетинији од рођења. Поред тога, људи имају бољи приступ и сложеним седативима приуштеним боравком у свету током периода развојамозга. Ово ће нас ометати до "tune in" до брзе промене особина околина од других животиња. Ове промене се огледају у једноставним временским променама у таласима хипнозе корктикалног развоја, оне такође могу да воде до промена у извлачењу информација из подстицајне околине током ране самоорганизације мозга. Наравно, током ове флексибилности долази један дугачак (продужени) период незрелости, током којег зависимо од наших старатеља и друштва и за подршку као и за обуку. Теорија дубоког учења, поред осталог, види коеволуцију културе и сазнања као основно (фундаментално) стање људског развоја (еволуције)..[272]

Комерцијалне активности уреди

Дубоко учење је често представљено као корак према схватаљу јаких AL[273] и многе организације су биле заинтересоване у његову употребу за наролчите апликације. У децембру '13 Фејсбук је унајмио Јан Ле Цун да води њихову лабораторију вештачке интелигенције (Al) која је деловала у Калифорнији, Лондону и Њу Јорку. Al лабораторија ће развити технике дубоког учења како би помогла фејсбуку да обави задатке као што су аутоматско таговање разних слика са именима људи на њима.[274] ејсбук је 2014.год. такође упослио Владимира Вапика, правног градитеља (основала) Вапник-Червоненк рада статистичког учења и једног од оснивача метода подршке машина вектора.[275]

У марту 2013. Године, Google је упослио Ж.Хинтона, и два његова дипломца Алекс K. and Ајла С. Њихов посао је био да се усредсреде на производе напредног машинског учења на Google и да помогну рад са растућом количином података коју Google има. Google је такође купио Хинтонову компанију. – ДНН истраживања.

Google је такође купио Deep Mind Технологије, Британску компанију која развија систем способан да научи како да игра Atari видео игре коришћењем само raw пикселе као улазне податке. Представили су, 2015 године Алпха Go систем који је развио један од дуготрајних ,, великих изазова“ од Al учењем игре Go тако добро да победи продесионалног Go играча.[276][277][278]

Такође је 2014. године Мајкрсофт развио центар The Deep Learning Technology у његову МСР дивизију, невероватни стручњаци дубоког учења за активности фокусираних апликација.

Бајди је упослио Ендрју Нег. Да води њихов нови Silicon Valley – истраживања која се односе на лабораторијско фокусирање дубоког учења.

Блипар је 2015, преставио нови мобилни са повећаним стварним апликацијама које у право време (реално) препознају објекте дубоког учења..[279]

Критике и коментари уреди

Дато далеко-доступно учећше вештачке интелигенције повезује се са схватањем да је дубоко учење показало као једно од његових најмоћнијих техника, предмет је разумљиво привлачан и критици и коментарима и у неким случајевима изван ком. науке.

Главна критика дубоког учења подразумева недостатак теорије окружења многих модела. Већина учења у дубокој арх. је само неки облик спуштања нагиба. Док је спуштање нагиба схваћено скоро, теорија окружења осталих алгоритама, као што је супротно неслагање је мање јасно. Методе стр. 52 дубоког учења су често гледање као црна кутија, са многим потврдама урађеним емпиражно него теоретски.

На дубоко учење би требало да се гледа као на корак ка схватању јаког Al , а не као на наметнуто решење. Поред снаге метода дубоког учења, и даље недостаје функционална потреба за реализацију овог циља у потпуности. Психолог Џени Маркес је забележио да:

"Реалистично, дубоко учење је само део већег изазова грађења паметних машина. Таквим техникама недостају начини престављања узрочних односа, немају јасне начине приказивања логичних закључака, и оне су још увек удаљене од интегрисања апстрактног знања, као што су информације о томе какви су то предмети, чему служе и како се користе. Најмоћнији Al системи, као Watson (...) користе технике као дубоко учење као само један елемент у веома комликованом анцамблу техника, од статистичке Бејсонове технике закључака ( извођења) до одбијања расуђивања."[280]

До степена где се таква гледишта преплићу, не намеравајући, дубоко учење ће коначно образовати ништа више него до примитивне дискриминаторске нивое свестраног схватања будуће машине, скорашње удруживање размишљања у погледу уметности и вештачке интелигенције[281] понудили су алтернативни(измењен) и опширан изглед. Прво такво размишљање је то да би можда било могуће обучити гомилу машинске проницљивости да изведе вешт задатак дискриминације измеђју ,,old master“ и аматера, а други је да таква осећајност може у ствари да преставља основу не-незначајне машине емпатије. Предложено је да ће таква могућност бити у линији: са антропологијом која означава учешће са истанганости као кључног елемента савременог начина рада.(e.g., in [282]).

У даљој препоруци идеје да ће значајан степен уметничке осећајности можда бити присутан без повезаних (релативних) нижих нивоа, где ће биоилошке или дигиталне сродне хијерархије објавити серију серију графичког представљања унутрашњег стања дубоких (20-30 слојева) неуронских мрежа покушавајући да се разликују без битних случајних података слика на којима су били обучени[283] чини се да приказују упадљиву визуелну привлачност у свему изванредног нивоа јавне пажње коју је овај рад заробио : оригинално истраживање је примило више од 1.000 коментара, а чланак у Гардсуану[284] је дуже време био најчешће посећиван на том web-сајту.

Неке данашње популарне и успешне архитектуре дубоког учења објављују одређена проблематична понашања,[285] као што је самопоуздано разврставање случајних података које припадају породичној категорији не случајних слика [286] и не одређивања минускула нарушавањем рада тачно класификованих слика.[287] Стварању „Open hog“ , Бен Гоертуен ,[285]претпостављања да су ова понашања изазвала ограничењима у унутрашњем представљању научена помоћу ових архитектура, и да би та ограничења могла да зауставе развој ових архитектура у хетерогене са више компоненти АГИ архитектура. Предложено је да ови закључци могу бити одређени помоћу развијених архитектура дубоког учења које образује стање homologous/хомологно – према разлагању слике – граматике[288] посматране битности и догађаја.[285] Учење граматике (визуелно или лингвистичко) од обучених података биће еквивалентно ( једнако) ограничењима система до схватања здравог разума које ради на ставовима и правилима граматичке и то је основни циљ како људске језичке тековине тако и AL.[289]

Види још уреди

Извори уреди

  1. ^ а б в г д ђ е ж з Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7: 3—4. doi:10.1561/2000000039. 
  2. ^ а б в г д ђ е Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. 
  3. ^ а б в г д ђ Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538 . doi:10.1109/tpami.2013.50. 
  4. ^ а б в г д ђ е ж з и ј к л љ м Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003. 
  5. ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. doi:10.1038/nature14539. 
  6. ^ Deep Machine Learning – A New Frontier in Artificial Intelligence Research – a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski.
  7. ^ Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016).
  8. ^ а б в г д Schmidhuber, Jürgen (2015). „Deep Learning”. Scholarpedia. 10 (11): 32832. doi:10.4249/scholarpedia.32832. 
  9. ^ Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535 . 
  10. ^ Song, H.A.; Lee, S. Y. (2013). „Hierarchical Representation Using NMF”. Neural Information Processing. Lectures Notes in Computer Sciences. 8226. Springer Berlin Heidelberg. стр. 466—473. ISBN 978-3-642-42053-5. doi:10.1007/978-3-642-42054-2_58. 
  11. ^ Olshausen, B. A. (1996). „Emergence of simple-cell receptive field properties by learning a sparse code for natural images”. Nature. 381 (6583): 607—609. doi:10.1038/381607a0. 
  12. ^ Collobert, R. (април 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Корисна информација се налази на: 7min 45s. 
  13. ^ Gomes, L. (20. 10. 2014). „Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts”. IEEE Spectrum. 
  14. ^ а б Rina Dechter (1986).
  15. ^ а б в г д J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.
  16. ^ а б в г Hinton, G.E. „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947. 
  17. ^ а б Balázs Csanád Csáji.
  18. ^ а б в Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274. 
  19. ^ а б в Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t. 
  20. ^ а б Haykin, Simon (1998).
  21. ^ а б Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  22. ^ а б в г Murphy, K.P. (2012) Machine learning: a probabilistic perspective MIT Press
  23. ^ Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). „Improving neural networks by preventing co-adaptation of feature detectors”. arXiv:1207.0580  [math.LG]. 
  24. ^ а б Ivakhnenko, Alexey (1965). Cybernetic Predicting Devices. Kiev: Naukova Dumka. 
  25. ^ а б в Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4): 364—378. 
  26. ^ а б Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. doi:10.1007/bf00344251. 
  27. ^ а б в г Seppo Linnainmaa (1970).
  28. ^ а б Griewank, Andreas (2012).
  29. ^ а б P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974.
  30. ^ а б Paul Werbos (1982).
  31. ^ а б LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989.
  32. ^ а б Jürgen Schmidhuber (1993).
  33. ^ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (1995-05-26). „The wake-sleep algorithm for unsupervised neural networks”. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831. 
  34. ^ а б S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis.
  35. ^ S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks.
  36. ^ а б в г J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc.
  37. ^ а б в г д J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf.
  38. ^ а б в г J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.
  39. ^ Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition.
  40. ^ T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP.
  41. ^ Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks.
  42. ^ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). „Research Developments and Directions in Speech Recognition and Understanding, Part 1”. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166. 
  43. ^ Y. Bengio (1991).
  44. ^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). „Analysis of correlation structure for a neural predictive model with applications to speech recognition”. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2. 
  45. ^ Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). „Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design”. Speech Communication. 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1. 
  46. ^ а б в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). „Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups”. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597. 
  47. ^ а б в Deng, L.; Hinton, G.; Kingsbury, B. (2013). „New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)”. 
  48. ^ а б Keynote talk: Recent Developments in Deep Neural Networks.
  49. ^ а б Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014.
  50. ^ а б в г д Hochreiter, Sepp; and Schmidhuber, Jürgen; Long Short-Term Memory, Neural Computation, 9(8):1735–1780, 1997
  51. ^ Alex Graves, Douglas Eck, Nicole Beringer, and Jürgen Schmidhuber (2003).
  52. ^ а б в г Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006).
  53. ^ а б в г Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007).
  54. ^ а б в г д Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): Google voice search: faster and more accurate.
  55. ^ Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000).
  56. ^ Google Ngram chart of the usage of the expression "deep learning" posted by Jürgen Schmidhuber (2015) Online
  57. ^ G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
  58. ^ J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013."
  59. ^ New types of deep neural network learning for speech recognition and related applications: An overview - Microsoft Research
  60. ^ L. Deng et al.
  61. ^ L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013.
  62. ^ а б T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013.
  63. ^ а б Hasim Sak and Andrew Senior and Francoise Beaufays (2014).
  64. ^ а б Xiangang Li, Xihong Wu (2015).
  65. ^ а б Heiga Zen and Hasim Sak (2015).
  66. ^ а б Yann LeCun (2016).
  67. ^ D. Yu, L. Deng, G. Li, and F. Seide (2011).
  68. ^ а б NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
  69. ^ а б Yu, D.; Deng, L. (2014). „Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)”. 
  70. ^ IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx
  71. ^ Oh, K.-S.; Jung, K. (2004). „GPU implementation of neural networks”. Pattern Recognition. 37 (6): 1311—1314. doi:10.1016/j.patcog.2004.01.013. 
  72. ^ Chellapilla, K., Puri, S., and Simard, P. (2006).
  73. ^ а б D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010.
  74. ^ R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int.
  75. ^ Riesenhuber, M; Poggio, T (1999). „Hierarchical models of object recognition in cortex”. Nature Neuroscience. 2 (11): 1019—1025. doi:10.1038/14819. 
  76. ^ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 Backpropagation Applied to Handwritten Zip Code Recognition.
  77. ^ а б в Griewank, Andreas and Walther, A..
  78. ^ а б Henry J. Kelley (1960).
  79. ^ а б Arthur E. Bryson (1961, April).
  80. ^ а б Stuart Dreyfus (1962).
  81. ^ а б Stuart Dreyfus (1973).
  82. ^ а б Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , "Learning representations by back-propagating errors" nature, 1974.
  83. ^ а б Stuart Dreyfus (1990).
  84. ^ а б Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.
  85. ^ Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). „A Novel Connectionist System for Improved Unconstrained Handwriting Recognition”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. doi:10.1109/tpami.2008.137. 
  86. ^ Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation. (PDF). Lecture Notes in Computer Science. 2766. Springer. 
  87. ^ Smolensky, P. (1986). „Information processing in dynamical systems: Foundations of harmony theory.”. Ур.: D. E. Rumelhart, J. L. McClelland, & the PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 1. стр. 194—281. 
  88. ^ а б Hinton, G. E.; Osindero, S.; Teh, Y. (2006). „A fast learning algorithm for deep belief nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. 
  89. ^ Hinton, G. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947. 
  90. ^ John Markoff (25. 6. 2012). „How Many Computers to Identify a Cat? 16,000.”. New York Times. 
  91. ^ Ng, Andrew; Dean, Jeff (2012). „Building High-level Features Using Large Scale Unsupervised Learning”. arXiv:1112.6209 . 
  92. ^ а б D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber.
  93. ^ Martines, H.; Bengio, Y.; Yannakakis, G. N. (2013). „Learning Deep Physiological Models of Affect”. IEEE Computational Intelligence. 8 (2): 20—33. doi:10.1109/mci.2013.2247823. 
  94. ^ D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber.
  95. ^ D. Ciresan, A. Giusti, L. Gambardella, J. Schmidhuber.
  96. ^ Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012).
  97. ^ D. C. Ciresan, U. Meier, J. Schmidhuber.
  98. ^ D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1-47, 1991.
  99. ^ J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind," BMI Press, ISBN 978-0-9858757-2-5, 2012.
  100. ^ J. Weng, "Why Have We Passed `Neural Networks Do not Abstract Well'?," Natural Intelligence: the INNS Magazine, vol. 1, no.1, pp. 13-22, 2011.
  101. ^ Z. Ji, J. Weng, and D. Prokhorov, "Where-What Network 1: Where and What Assist Each Other Through Top-down Connections," Proc. 7th International Conference on Development and Learning (ICDL'08), Monterey, CA, Aug. 9-12, pp. 1-6, 2008.
  102. ^ X. Wu, G. Guo, and J. Weng, "Skull-closed Autonomous Development: WWN-7 Dealing with Scales," Proc.
  103. ^ Szegedy, Christian, Alexander Toshev, and Dumitru Erhan.
  104. ^ Felix Gers, Nicholas Schraudolph, and Jürgen Schmidhuber (2002).
  105. ^ а б в Felix A. Gers and Jürgen Schmidhuber.
  106. ^ а б в I. Sutskever, O. Vinyals, Q. Le (2014) "Sequence to Sequence Learning with Neural Networks," Proc.
  107. ^ а б Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu (2016).
  108. ^ а б Dan Gillick, Cliff Brunk, Oriol Vinyals, Amarnag Subramanya (2015).
  109. ^ T. Mikolov et al., "Recurrent neural network based language model," Interspeech, 2010.
  110. ^ LeCun, Y.; et al. „Gradient-based learning applied to document recognition”. Proceedings of the IEEE. 86 (11): 2278—2324. doi:10.1109/5.726791. 
  111. ^ Eiji Mizutani, Stuart Dreyfus, Kenichi Nishio (2000).
  112. ^ а б Bryson, A.E.; W.F. Denham; S.E. Dreyfus.
  113. ^ Stuart Russell; Peter Norvig. Artificial Intelligence A Modern Approach. стр. 578. „The most popular method for learning in multilayer networks is called Back-propagation. 
  114. ^ Arthur Earl Bryson, Yu-Chi Ho (1969). Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company or Xerox College Publishing. стр. 481. 
  115. ^ Seppo Linnainmaa (1976).
  116. ^ Paul Werbos (1974).
  117. ^ Eric A. Wan (1993).
  118. ^ G. E. Hinton et al.
  119. ^ Y. Bengio et al.
  120. ^ а б в г G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines," Tech.
  121. ^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). „Extreme learning machine: theory and applications”. Neurocomputing. 70 (1): 489—501. doi:10.1016/j.neucom.2005.12.126. 
  122. ^ Widrow, Bernard; et al. (2013). „The no-prop algorithm: A new learning algorithm for multilayer neural networks”. Neural Networks. 37: 182—188. doi:10.1016/j.neunet.2012.09.020. 
  123. ^ Ollivier, Yann; Charpiat, Guillaume (2015). „Training recurrent networks without backtracking”. arXiv:1507.07680 . 
  124. ^ Aleksander, Igor, et al.
  125. ^ Alexey Grigorevich Ivakhnenko and V. G. Lapa and R. N. McDonough (1967).
  126. ^ Alexey Grigorevich Ivakhnenko (1968).
  127. ^ T. Kondo and J. Ueno (2008).
  128. ^ Unsupervised Feature Learning and Deep Learning Tutorial
  129. ^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). „Going Deeper with Convolutions”. Computing Research Repository. arXiv:1409.4842 . 
  130. ^ Goller, C.; Küchler, A. „Learning task-dependent distributed representations by backpropagation through structure”. Neural Networks, 1996., IEEE. doi:10.1109/ICNN.1996.548916. 
  131. ^ Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. „Parsing Natural Scenes and Natural Language with Recursive Neural Networks”. The 28th International Conference on Machine Learning (ICML 2011). 
  132. ^ Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). EMNLP 2013. 
  133. ^ Justin Bayer, Daan Wierstra, Julian Togelius, and Jürgen Schmidhuber (2009).
  134. ^ Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Ng (2014).
  135. ^ Fan, Y., Qian, Y., Xie, F., and Soong, F. K. (2014).
  136. ^ Bo Fan, Lijuan Wang, Frank K. Soong, and Lei Xie (2015).
  137. ^ Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan (2015).
  138. ^ Larochelle, H.; et al. „An empirical evaluation of deep architectures on problems with many factors of variation”. Proc. 24th Int. Conf. Machine Learning. 2007: 473—480. 
  139. ^ G. E. Hinton., "Training Product of Experts by Minimizing Contrastive Divergence," Neural Computation, 14, pp. 1771–1800, 2002.
  140. ^ Fischer, A.; Igel, C. (2014). „Training Restricted Boltzmann Machines: An Introduction” (PDF). Pattern Recognition. 47: 25—39. doi:10.1016/j.patcog.2013.05.025. 
  141. ^ Convolutional Deep Belief Networks on CIFAR-10
  142. ^ Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations
  143. ^ а б D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013.
  144. ^ D. Graupe," Large memory storage and retrieval (LAMSTAR) network, US Patent 5920852 A", April 1996.
  145. ^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.203-274.
  146. ^ V. P. Nigam, D. Graupe, (2004),"A neural-network-based detection of epilepsy", Neurological Research, 26(1): 55-60.
  147. ^ Waxman, J.; Graupe, D.; Carley, C W. (2010). „Automated prediction of apnea and hypopnea, using a LAMSTAR artificial neural network”. American Journal of Respiratory and Critical Care Medicine. 171 (7): 727—733. 
  148. ^ а б Graupe, D.; Graupe, M. H.; Zhong, Y.; Jackson, R. K. (2008). „Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities”. Proc. Inst. Mech Eng., UK, Part H: Journal of Engineering in Medicine. 222 (8): 1221—1234. doi:10.1243/09544119jeim417. 
  149. ^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.240-253.
  150. ^ а б Graupe, D.; Abon, J. (2002). „A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech”. Intelligent Engineering Systems Through Artificial Neural Networks. 12: 683—688. 
  151. ^ Homayon, S. (2015). „Iris Recognition for Personal Identification Using LAMSTAR Neural Network”. International Journal of Computer Science and Information Technology. 7 (1). 
  152. ^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers", 2013, pp.253-274.
  153. ^ Girado, J. I.; Sandin, D. J.; DeFanti, T. A. (2003). „Real-time camera-based face detection using amodified LAMSTAR neural network system”. Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII. doi:10.1117/12.477405. 
  154. ^ Venkatachalam, V; Selvan, S. (2007). „Intrusion Detection using an Improved Competitive Learning Lamstar Network”. International Journal of Computer Science and Network Security. 7 (2): 255—263. 
  155. ^ D. Graupe, M. Smollack, (2007), "Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks", Proceedings of 10th IASTED on Intelligent Control, Sect.592, 141-144.
  156. ^ D. Graupe, C. Contaldi, A. Sattiraju, (2015) "Comparison of Lamstar NN & Convolutional NN – Character Recognition".
  157. ^ Graupe, H. Kordylewski (1996). „Network based on SOM (self-organizing-map) modules combined with statistical decision tools”. Proc. IEEE 39th Midwest Conf. on Circuits and Systems. 1: 471—475. 
  158. ^ D, Graupe, H. Kordylewski, (1998), "A large memory storage and retrieval neural network for adaptive retrieval and diagnosis", International Journal of Software Engineering and Knowledge Engineering, 1998.
  159. ^ Kordylewski, H.; Graupe, D; Liu, K. „A novel large-memory neural network as an aid in medical diagnosis applications”. IEEE Transactions on Information Technology in Biomedicine. 5 (3): 202—209. doi:10.1109/4233.945291. 
  160. ^ Schneider, N.C.; Graupe (2008). „A modified LAMSTAR neural network and its applications”. International journal of neural systems. 18 (4): 331—337. doi:10.1142/s0129065708001634. 
  161. ^ D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, p.217.
  162. ^ а б Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). „A better way to pretrain deep Boltzmann machines” (PDF). Advances in Neural. 3: 1—9. 
  163. ^ а б Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). „Efficient Learning of Deep Boltzmann Machines” (PDF). 3: 448—455. 
  164. ^ Bengio, Yoshua; LeCun, Yann (2007). „Scaling Learning Algorithms towards AI” (PDF). 1: 1—41. 
  165. ^ Larochelle, Hugo; Salakhutdinov, Ruslan (2010). „Efficient Learning of Deep Boltzmann Machines” (PDF): 693—700. 
  166. ^ а б в г Vincent, Pascal; Larochelle, Hugo; Lajoie, Isabelle; Bengio, Yoshua; Manzagol, Pierre-Antoine (2010). „Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion”. The Journal of Machine Learning Research. 11: 3371—3408. 
  167. ^ Dana H. Ballard (1987).
  168. ^ а б в Deng, Li; Yu, Dong (2011). „Deep Convex Net: A Scalable Architecture for Speech Pattern Classification” (PDF). Proceedings of the Interspeech: 2285—2288. 
  169. ^ а б в Deng, Li; Yu, Dong; Platt, John (2012). „Scalable stacking and learning for building deep architectures” (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133—2136. 
  170. ^ David, Wolpert (1992). „Stacked generalization”. Neural Networks. 5 (2): 241—259. doi:10.1016/S0893-6080(05)80023-1. 
  171. ^ Bengio, Yoshua (2009). „Learning deep architectures for AI”. Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. 
  172. ^ Hutchinson, Brian; Deng, Li; Yu, Dong (2012). „Tensor deep stacking networks”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1—15: 1944—1957. doi:10.1109/tpami.2012.268. 
  173. ^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). „Reducing the Dimensionality of Data with Neural Networks”. Science. 313: 504—507. PMID 16873662. doi:10.1126/science.1127647. 
  174. ^ Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). „Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition”. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30—42. doi:10.1109/tasl.2011.2134090. 
  175. ^ Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). „Acoustic Modeling Using Deep Belief Networks”. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14—22. doi:10.1109/tasl.2011.2109382. 
  176. ^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). „A Spike and Slab Restricted Boltzmann Machine” (PDF). JMLR: Workshop and Conference Proceeding. 15: 233—241. 
  177. ^ а б в Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). „Unsupervised Models of Images by Spike-and-Slab RBMs”. Proceedings of the 28th International Conference on Machine Learning (PDF). 10. стр. 1—8. 
  178. ^ Mitchell, T; Beauchamp, J (1988). „Bayesian Variable Selection in Linear Regression”. Journal of the American Statistical Association. 83 (404): 1023—1032. doi:10.1080/01621459.1988.10478694. 
  179. ^ Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). „Exploring Strategies for Training Deep Neural Networks”. The Journal of Machine Learning Research. 10: 1—40. 
  180. ^ Coates, Adam; Carpenter, Blake (2011). „Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning”: 440—445. 
  181. ^ Lee, Honglak; Grosse, Roger (2009). „Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations”. Proceedings of the 26th Annual International Conference on Machine Learning: 1—8. 
  182. ^ Lin, Yuanqing; Zhang, Tong (2010). „Deep Coding Network” (PDF). Advances in Neural . . .: 1—9. 
  183. ^ Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). „Sparse Feature Learning for Deep Belief Networks” (PDF). Advances in Neural Information Processing Systems. 23: 1—8. 
  184. ^ Socher, Richard; Lin, Clif (2011). „Parsing Natural Scenes and Natural Language with Recursive Neural Networks” (PDF). Proceedings of the 26th International Conference on Machine Learning. 
  185. ^ Taylor, Graham; Hinton, Geoffrey (2006). „Modeling Human Motion Using Binary Latent Variables” (PDF). Advances in Neural Information Processing Systems. 
  186. ^ Vincent, Pascal; Larochelle, Hugo (2008). „Extracting and composing robust features with denoising autoencoders”. Proceedings of the 25th international conference on Machine learning - ICML '08: 1096—1103. 
  187. ^ Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). „Learning overhypotheses with hierarchical Bayesian models”. Developmental Science. 10 (3): 307—21. PMID 17444972. doi:10.1111/j.1467-7687.2007.00585.x. 
  188. ^ Xu, Fei; Tenenbaum, Joshua (2007). „Word learning as Bayesian inference”. Psychol. Rev. 114 (2): 245—72. PMID 17500627. doi:10.1037/0033-295X.114.2.245. 
  189. ^ Chen, Bo; Polatkan, Gungor (2011). „The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning” (PDF). Machine Learning . . . 
  190. ^ Fei-Fei, Li; Fergus, Rob (2006). „One-shot learning of object categories”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594—611. PMID 16566508. doi:10.1109/TPAMI.2006.79. 
  191. ^ Rodriguez, Abel; Dunson, David (2008). „The Nested Dirichlet Process”. Journal of the American Statistical Association. 103 (483): 1131—1154. doi:10.1198/016214508000000553. 
  192. ^ Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). „Learning with Hierarchical-Deep Models”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35: 1958—71. doi:10.1109/TPAMI.2012.269. 
  193. ^ а б Chalasani, Rakesh; Principe, Jose (2013). „Deep Predictive Coding Networks”: 1—13. arXiv:1301.3541 . 
  194. ^ Mnih, Volodymyr; et al. (2015). „Human-level control through deep reinforcement learning”. Nature. 518: 529—533. PMID 25719670. doi:10.1038/nature14236. 
  195. ^ Hinton, Geoffrey E. "Distributed representations." (1984)
  196. ^ S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog.
  197. ^ Mozer, M. C., & Das, S. (1993).
  198. ^ Schmidhuber, J. (1992). „Learning to control fast-weight memories: An alternative to recurrent nets”. Neural Computation. 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. 
  199. ^ Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). „Learning precise timing with LSTM recurrent networks”. JMLR. 3: 115—143. 
  200. ^ Jürgen Schmidhuber (1993). „An introspective network that can learn to run its own weight change algorithm”. In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton. IEE. стр. 191—195. 
  201. ^ Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). „Learning to Learn Using Gradient Descent”. ICANN. 2130: 87—94. 
  202. ^ Grefenstette, Edward, et al.
  203. ^ Atkeson, Christopher G., and Stefan Schaal.
  204. ^ Salakhutdinov, Ruslan, and Geoffrey Hinton.
  205. ^ Le, Quoc V.; Mikolov, Tomas (2014). „Distributed representations of sentences and documents”. arXiv:1405.4053 . 
  206. ^ Graves, Alex, Greg Wayne, and Ivo Danihelka.
  207. ^ Weston, Jason, Sumit Chopra, and Antoine Bordes.
  208. ^ Sukhbaatar, Sainbayar, et al.
  209. ^ Bordes, Antoine, et al.
  210. ^ Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly.
  211. ^ Kurach,Karol, Andrychowicz, Marcin and Sutskever,Ilya.
  212. ^ N. Kalchbrenner and P. Blunsom, "Recurrent continuous translation models," in EMNLP’2013, 2013.
  213. ^ I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," in NIPS’2014, 2014.
  214. ^ K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, "Learning phrase representations using RNN encoder-decoder for statistical machine translation," in Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), Oct. 2014
  215. ^ Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio.
  216. ^ Cho, Youngmin (2012). „Kernel Methods for Deep Learning” (PDF): 1—9. 
  217. ^ Scholkopf, B; Smola, Alexander (1998). „Nonlinear component analysis as a kernel eigenvalue problem”. Neural computation. (44): 1299—1319. doi:10.1162/089976698300017467. 
  218. ^ L. Deng, G. Tur, X. He, and D. Hakkani-Tur.
  219. ^ TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.
  220. ^ Abdel-Hamid, O.; et al. (2014). „Convolutional Neural Networks for Speech Recognition”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533—1545. doi:10.1109/taslp.2014.2339736. 
  221. ^ Deng, L.; Platt, J. (2014). „Ensemble Deep Learning for Speech Recognition”. Proc. Interspeech. 
  222. ^ Yu, D.; Deng, L. (2010). „Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition”. NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 
  223. ^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al.
  224. ^ Deng, L.; Li, Xiao (2013). „Machine Learning Paradigms for Speech Recognition: An Overview”. IEEE Transactions on Audio, Speech, and Language Processing. 21: 1060—1089. doi:10.1109/tasl.2013.2244083. 
  225. ^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder.
  226. ^ Z. Tuske, P. Golik, R. Schlüter and H. Ney (2014).
  227. ^ McMillan, R. "How Skype Used AI to Build Its Amazing New Language Translator", Wire, Dec. 2014.
  228. ^ Hannun et al. (2014) "Deep Speech: Scaling up end-to-end speech recognition", arXiv:1412.5567.
  229. ^ Ron Schneiderman (2015) "Accuracy, Apps Advance Speech Recognition --- Interviews with Vlad Sejnoha and Li Deng", IEEE Signal Processing Magazine, Jan, 2015.
  230. ^ MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
  231. ^ D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification," Technical Report No. IDSIA-04-12, 2012.
  232. ^ D. Ciresan, A. Giusti, L.M. Gambardella, J. Schmidhuber (2013).
  233. ^ Vinyals et al. (2014)."
  234. ^ Fang et al. (2014)."
  235. ^ Kiros et al. (2014).
  236. ^ Zhong, S.; Liu, Y.; Liu, Y. „Bilinear Deep Learning for Image Classification”. Proceedings of the 19th ACM International Conference on Multimedia. 11: 343—352. 
  237. ^ Nvidia Demos a Car Computer Trained with "Deep Learning" (2015-01-06), David Talbot, MIT Technology Review
  238. ^ Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin., "A Neural Probabilistic Language Model," Journal of Machine Learning Research 3 (2003) 1137–1155, 2003.
  239. ^ Goldberg, Yoav; Levy, Omar. „word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method” (PDF). Arxiv. Приступљено 26. 10. 2014. 
  240. ^ а б Socher, Richard; Manning, Christopher. „Deep Learning for NLP” (PDF). Приступљено 26. 10. 2014. 
  241. ^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). „Parsing With Compositional Vector Grammars” (PDF). Proceedings of the ACL 2013 conference. 
  242. ^ Socher, Richard (2013). „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). EMNLP 2013. 
  243. ^ Y. Shen, X. He, J. Gao, L. Deng, and G. Mesnil (2014) " A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval," Proc.
  244. ^ P. Huang, X. He, J. Gao, L. Deng, A. Acero, and L. Heck (2013) "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data," Proc.
  245. ^ Mesnil, G., Dauphin, Y., Yao, K., Bengio, Y., Deng, L., Hakkani-Tur, D., He, X., Heck, L., Tur, G., Yu, D. and Zweig, G., 2015.
  246. ^ J. Gao, X. He, W. Yih, and L. Deng(2014) "Learning Continuous Phrase Representations for Translation Modeling," Proc.
  247. ^ J. Gao, P. Pantel, M. Gamon, X. He, L. Deng (2014) "Modeling Interestingness with Deep Neural Networks," Proc.
  248. ^ J. Gao, X. He, L. Deng (2014) "Deep Learning for Natural Language Processing: Theory and Practice (Tutorial)," CIKM.
  249. ^ Arrowsmith, J; Miller, P (2013). „Trial watch: Phase II and phase III attrition rates 2011-2012”. Nature Reviews Drug Discovery. 12 (8): 569. PMID 23903212. doi:10.1038/nrd4090. 
  250. ^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). „Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project”. Drug Discovery Today. 20: 505—513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014. 
  251. ^ "Announcement of the winners of the Merck Molecular Activity Challenge" https://www.kaggle.com/c/MerckActivity/details/winners.
  252. ^ Dahl, G. E.; Jaitly, N.; & Salakhutdinov, R. (2014) "Multi-task Neural Networks for QSAR Predictions," ArXiv, 2014.
  253. ^ "Toxicology in the 21st century Data Challenge" https://tripod.nih.gov/tox21/challenge/leaderboard.jsp
  254. ^ "NCATS Announces Tox21 Data Challenge Winners" http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html
  255. ^ Unterthiner, T.; Mayr, A.; Klambauer, G.; Steijaert, M.; Ceulemans, H.; Wegner, J. K.; & Hochreiter, S. (2014) "Deep Learning as an Opportunity in Virtual Screening".
  256. ^ Unterthiner, T.; Mayr, A.; Klambauer, G.; & Hochreiter, S. (2015) „"Toxicity Prediction using Deep Learning"”. arXiv:pdf/1503.01445v1  Проверите вредност параметра |arxiv= (помоћ). .
  257. ^ Ramsundar, B.; Kearnes, S.; Riley, P.; Webster, D.; Konerding, D.;& Pande, V. (2015) "Massively Multitask Networks for Drug Discovery".
  258. ^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (2015-10-09). „AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery”. arXiv:1510.02855 . 
  259. ^ „Toronto startup has a faster way to discover effective medicines”. The Globe and Mail. Приступљено 2015-11-09. 
  260. ^ „Startup Harnesses Supercomputers to Seek Cures”. KQED Future of You (на језику: енглески). Приступљено 2015-11-09. 
  261. ^ Toronto startup has a faster way to discover effective medicines - The Globe and Mail
  262. ^ Tkachenko, Yegor.
  263. ^ Van den Oord, Aaron, Sander Dieleman, and Benjamin Schrauwen.
  264. ^ Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. "A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems."
  265. ^ Davide Chicco, Peter Sadowski, and Pierre Baldi, "Deep autoencoder neural networks for gene ontology annotation predictions".
  266. ^ Utgoff, P. E.; Stracuzzi, D. J. (2002). „Many-layered learning”. Neural Computation. 14: 2497—2529. doi:10.1162/08997660260293319. 
  267. ^ J. Elman et al., "Rethinking Innateness," 1996.
  268. ^ Shrager, J.; Johnson, MH (1996). „Dynamic plasticity influences the emergence of function in a simple cortical array”. Neural Networks. 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0. 
  269. ^ Quartz, SR; Sejnowski, TJ (1997). „The neural basis of cognitive development: A constructivist manifesto”. Behavioral and Brain Sciences. 20 (4): 537—556. doi:10.1017/s0140525x97001581. 
  270. ^ S. Blakeslee., "In brain's early growth, timetable may be critical," The New York Times, Science Section, pp.
  271. ^ {BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity," American Journal of Human Biology, 23 (6), pp. 729–739, 2011.
  272. ^ J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach," In B. Julesz and I. Kovacs (Eds.
  273. ^ D. Hernandez., "The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI," http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all/.
  274. ^ C. Metz., "Facebook's 'Deep Learning' Guru Reveals the Future of AI," http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/.
  275. ^ V. Vapnik., "research.facebook.com" .
  276. ^ „Google AI algorithm masters ancient game of Go”. Nature News & Comment. Приступљено 2016-01-30. 
  277. ^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; van den Driessche, George; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (2016-01-28). „Mastering the game of Go with deep neural networks and tree search”. Nature (на језику: енглески). 529 (7587): 484—489. ISSN 0028-0836. doi:10.1038/nature16961. 
  278. ^ „A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review”. MIT Technology Review. Приступљено 2016-01-30. 
  279. ^ „Blippar Demonstrates New Real-Time Augmented Reality App”. TechCrunch. 
  280. ^ G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?"
  281. ^ Smith, G. W. (27. 3. 2015). „Art and Artificial Intelligence”. ArtEnt. Приступљено 27. 3. 2015. 
  282. ^ Knight, Will (7. 11. 2001). „Tools point to African origin for human behaviour”. New Scientist. Приступљено 7. 10. 2015. 
  283. ^ Alexander Mordvintsev, Christopher Olah, and Mike Tyka (17. 6. 2015). „Inceptionism: Going Deeper into Neural Networks”. Google Research Blog. Приступљено 20. 6. 2015. 
  284. ^ Alex Hern (18. 6. 2015). „Yes, androids do dream of electric sheep”. The Guardian. Приступљено 20. 6. 2015. 
  285. ^ а б в Ben Goertzel.
  286. ^ Nguyen, Anh, Jason Yosinski, and Jeff Clune.
  287. ^ Szegedy, Christian, et al.
  288. ^ Zhu, S.C.; Mumford, D. „A stochastic grammar of images”. Found. Trends Comput. Graph. Vis. 2 (4): 259—362. doi:10.1561/0600000018. 
  289. ^ Jason Eisner, Deep Learning of Recursive Structure: Grammar Induction, http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/

Спољашње везе уреди