Rozhodol som sa, že sa na problematiku pozriem bližšie a napíšem o nej krátky „dvojdielny“ seriál. Prečítajte si prvú časť, kde vám priblížim, v čom spočíva podobnosť medzi ľudskými a strojovými očami:
Nedávno som mal možnosť stretnúť sa s Jánom Žiškom, zakladateľom a generálnym riaditeľom spoločnosti Photoneo. Jeho 3D kamera pomáha strojom dokonalejšie vidieť a je jedinečná na celom svete. Viac, ako riaditeľom, je však Ján obrovským fanúšikom pokrokových technológií, robotiky a science fiction, rovnako, ako ja. Jeho práca ma preto veľmi zaujala. Ako oftalmológa najmä to, ako veľmi sú robotické oči podobné tým našim, ľudským.
3D technológia pre nás nie je novinka
Ján mi počas nášho rozhovoru povedal zaujímavú vec. Ako odborníka a nadšenca pre technológie ho veľmi fascinoval príchod 3D filmov do kín, no prekvapilo ho, že jeho priatelia z toho nijako zvlášť nadšení neboli. Vtedy mu došlo, že pre človeka 3D videnie vlastne nie je nič nové. V kine máte okuliare, v ktorých sa premietajú dva rôzne obrazy z dvoch kamier. Do každého oka putuje iný vnem. Rovnako pracuje ľudský zrak.
Ako funguje trojrozmerné videnie?
Ľudský 3D zrak pracuje na princípe takzvanej triangulácie, teda spájania rozdielnych obrazov z oboch očí dohromady v jednom bode. To nám tiež umožňuje rozlišovať vzdialenosti. Čím sú objekty bližšie, tým presnejší je náš odhad. Dá sa to vysvetliť na jednoduchom príklade. Predstavte si, že sa pozeráte na vec, stojacu 2 metre pred vami. Napríklad na skriňu. Z každého vášho oka vychádzajú dve pomyselné priamky, teda dva rôzne obrazy, pretínajúce sa v bode, v ktorom stojí pozorovaný objekt. Vytvárajú tak trojuholník. Keďže skriňa stojí 2 metre od vás, je aj bod, kde sa obrazy stretávajú a vytvárajú finálny 3D vnem, vzdialený dva metre. To nie je príliš veľa na to, aby mozog vedel viac-menej presne určiť, ako ďaleko sa objekt nachádza.
Inak je to vtedy, keď sa pozeráte na objekt, stojaci od vás napríklad 100 metrov. Tu už mozog začína mať problém. Predstavte si, že idete po rovnej ulici a na jej konci parkuje auto. Vedľa neho stojí človek. Vtedy je už trojuholník tak dlhý, že nemáte šancu odhadnúť či sa o kúsok bližšie k vám nachádza vozidlo alebo osoba. Z vášho pohľadu sú vedľa seba.
Tento spôsob fungovania nášho zraku má korene v evolúcii. Napríklad už jaskynní ľudia viac potrebovali odhadovať blízku vzdialenosť, napríklad pri love koristi či reakciách na bezprostredné nebezpečenstvo.
Triangulácia v praxi
Princíp triangulácie si viete overiť jednoduchým pokusom. Vystrite pred seba jeden prst a striedavo zatvárajte a otvárajte pravé a ľavé oko. Tým, že každé z nich vníma iný obraz, zdá sa vám, že je prst vždy na inom mieste. V malej vzdialenosti prstu od očí budete vidieť pomerne výrazný posun. Čím ďalej ale ruku posúvate, tým viac sa trojuholník predlžuje a prst sa zdanlivo pohybuje menej.
Čo majú spoločné kamera a naše oči?
Spomínal som, že ľudské a robotické videnie funguje veľmi podobne. Tak, ako my máme mozog a oči, ktoré sú navzájom prepojené, má stroj projektor a kameru. Celkový princíp zachytávania obrazu či spôsob, ako sa tento vnem spracúva v našom mozgu, má tri základné fázy.
-
Snímanie
Zrenica, cez ktorú do oka vstupujú svetelné lúče, sa dá v kamere prirovnať k clone. Ako sietnica, ktorá toto svetlo zachytáva, mení ho na konkrétne nervové impulzy v mozgu a vytvára konkrétny obraz, zasa kamere slúži čip. Zloženie našich očí a kamery je teda skutočne veľmi podobné.
-
Spracovanie
Naše oči sú vlastne počítadlo. Po zachytení svetla na sietnici vzniká obraz a oči zrátavajú počet fotónov v jednotlivých čapíkoch a tyčinkách. Bledšie objekty obsahujú menej fotónov, tmavšie viac. Tak vnímame jednotlivé farby. Rovnako vzniká aj farebná fotografia. V každom pixeli je zapísaná hodnota, reprezentujúca počet fotónov a vytvárajúca konkrétny odtieň.
-
Interpretácia
Táto fáza je populárnym námetom mnohých sci-fi príbehov a taktiež najproblematickejšia časť strojového videnia. Pri priemyselnom strojovom videní, samozrejme, nezachádzame až tak hlboko do úvah o vedomí umelej inteligencie či, ako to nazval spisovateľ Isaac Asimov, o „duchu v stroji“. Pravdou ale je, že spôsob, akým vnímame realitu my a akým ju vnímajú stroje, nie je až tak rozdielny. U ľudí, rovnako, ako v prípade robotického videnia, sa podnet dostáva z oka či kamery neurónmi do mozgu a vytvára informáciu. Naša myseľ sa však líši najmä v schopnosti rozpoznať, na čo sa pozeráme. Nie je to pre nás nijaký problém. Už trojročné dieťa rozumie, že pred sebou vidí svoju matku.
Strojom slúžia na spracovanie informácií takzvané neurónové siete, umelo vytvorené stavebné prvky v procesoroch na báze kremíka, napodobňujúce náš mozog. Stále sú však omnoho primitívnejšie. Mozog na vnímanie reality využíva od 50 do 500 miliárd neurónových prepojení. Procesory v robotoch tak 5 až 6 miliárd. To sa dá prirovnať k mozgu akváriovej rybičky. Stroje teda vidia, no nechápu. V tomto smere sú zatiaľ slepé. Dokážu rozpoznať objekty, no na rozdiel od nás nerozumejú kontextu.
Science fiction nemusí byť tak ďaleko
Roboty teraz možno netušia, čo sa okolo nich deje, no raz s najväčšou pravdepodobnosťou budú. V roku 2008 dokázal osobný počítač spracovať približne 10 miliárd inštrukcií za sekundu. Futurológovia ale odhadujú, že do roku 2040 by strojové mozgy mohli byť schopné spracovať 100 biliónov inštrukcií za sekundu. To je už porovnateľné s mozgom človeka.
3D technológia pomáha robotom chápať svet
Stroje sa dokážu učiť. Túto schopnosť odborníci nazývajú strojové učenie, anglicky machine learning. Inteligentný robot sa zdokonaľuje skúsenosťou tak, ako my. Ak mu napríklad raz „poviete“, že sa pozerá na most, nabudúce ho už bude vedieť rozpoznať automaticky, bez toho, aby niekto túto informáciu znova programoval. Strojové učenie je užitočné najmä pri rozpoznávaní tvárí či predmetov na obrázku, no úzko súvisí aj s technológiou Jána Žišku. 3D kamera spoločnosti Photoneo je jedinečná tým, že rieši veľký problém v oblasti výrobných strojov. Ak je totiž robot s 2D kamerou raz naprogramovaný na preloženie jedného objektu, napríklad flašky, nedokáže sám od seba preniesť popolník. Preprogramovanie by trvalo aj niekoľko mesiacov. Vďaka 3D kamere Photonea sa však stroj dokáže „naučiť“ rozpoznávať rôzne tvary omnoho efektívnejšie.
Prečo 3D technológia pomáha robotom lepšie rozumieť tomu, čo „vidia“? Z toho istého dôvodu, prečo aj nám – u oboch zlepšuje tretiu fázu videnia, teda interpretáciu. Ak sa napríklad pozeráte na 2D pôdorys bytu, máte približnú predstavu o jeho tvare či o počte miestností. No pokiaľ by ste videli 3D vizualizáciu a mohli by ste sa po byte prejsť, napríklad vo virtuálnej realite, odrazu by ste mali o priestore omnoho presnejšie informácie. Dokážete vnímať dispozíciu bytu či veľkosť miestností. Presne to isté platí aj u 2D a 3D strojového videnia. Ak by ste v tej istej miestnosti odfotili najprv dvojcentimetrovú a potom klasickú stoličku a obrázky ukázali stroju s 2D videním, nedokáže poriadne vyhodnotiť dispozície priestoru a nerozpozná rozdiel. 3D videnie robotovi ponúkne viac informácií. Stroj takto vie prísť na to, že je dispozične niečo inak.