Menyra se si njerzit shohin sa eshte komplekse aq eshte edhe mahnitese. Gjithcka filloi milarda vjet me pare, kur disa organizma mikroskopik filluan te zhvillojne disa mutacione qe i ben te ndjeshme ndaj drites. Ne ditet e sotme ekzistojne me qindra mijera organizma qe kane sistem te ngjashem te te parit. Ata kane sy per te kapur driten, pranues (akceptore) ne tru per ta qasur ate drite dhe korteksin vizuel per te procesuar ate. Kjo na mundeson ne te bejme edhe gjerat me te thjeshta sic mund te jete shikimi i perendimit te diellit.
Ne tri dekadat e fundit, shkenctaret filluan nje studim per te zgjeruar kete aftesi tonen, por jo tek vete njeriu por edhe ne kompjutere (makina) poashtu. Kamera e pare u shpik ne vitin 1816, ku nje kuti e vogel mban nje cope leter e ngjyer ne klorid te argjende klorid (silver chloride). Kur shkrepesi (shutter) ishte i hapur, letra do te eeresohej aty ku ishte e ekzposuar drita. Tani 200 vjet me vone, me nje teknologji shume me te avancuar mund te kapim keto fotografi ne forme digjital ne po te njejten kohe te shprepjes. Kjo do te thote se keto aparate jane te gatshme te imitojne se si njerzit kapim driten the ngjyren. Por, sic duket kjo ishte pjesa me e lehte. Sfida e radhes eshte per keto makina te kuptojne se cfare ka ne keto fotografi.
CNN
Nje tip specifik i Neural Networks (NN, shqip: rrjeti nervor) qe mund te arrije saktesi mjaft te mire eshte Convolutional Neural Networks (CNN). CNN fillimisht e copton kete fotografi ne grupe me te vogla te pikseleve qe quhen filter. Cdo filter eshte nje matrice e pikselave, dhe rrjeti (network) ben nje seri kalkulimesh ne keto piksele duke i krahasuar ato kundrejt nje patterni (shqip: model) specifik qe rrjeti po kerkon.
Kur CNN fillon punen, te gjitha vlerat e filterave jane te caktuar ne menyre te rastesishme. Si rezultat, parashikimet iniciale nuk kane shume kuptim. Sa here qe CNN ben nje parashikim kundrejt te dhenave te etiketuara (labeled data), e shfrytezon nje funksion te gabimit (error function) per te krahasuar sa afer ishte parashikimi me etiketen e vertete te te dhenave.
RNN
Ky tip i modeleve quhet Recurrent Neural Network (RNN, shqip: rrjet nervor i perseritur). Perderisa CNN i trajton grupet e pikseleve pavaresisht nga grupet tjera, RNN mund ta mbaje informacionin mbi ate se cka eshte procesuar tashme dhe e perdor ate informacion ne marrjen e vendimeve.
Ne rastin tone, kemi nje video te paketimit te nje kutie, RNN merr nje sekuence te fotografive te etiketuar si me poshte, kuti e zbrazur, kuti e hapur dhe ne fund kuti e mbyllur, bazuar ne te tri keto etiketa mund t’a etiketoj kete video si “duke paketuar nje kuti”.