OrdinadorsTecnologia de la informació

Visió per ordinador modern. Tasques i tecnologia de visió per ordinador. Programació de Visió per Computador en Python

Com ensenyar a un ordinador per entendre el que es representa a la imatge o imatges? Això sembla simple, però per a un ordinador això és només una matriu constituïda per zeros i uns dels que voleu extreure informació important.

Quina és la visió per ordinador? És la capacitat de "veure" l'equip

Visió - és una important font d'informació per a la persona que el fa servir, s'obté, d'acord amb diverses estimacions, del 70 al 90% de tota la informació. I, per descomptat, si volem crear un cotxe elegant, hem d'aplicar les mateixes habilitats i equip.

El problema de la visió per ordinador es pot afirmar amb tota claredat. Què és "veure"? S'entén que on hi ha només mirar. Va arribar a la conclusió que les diferències de visió per ordinador i la visió humana. Visió per a nosaltres - és una font de coneixement sobre el món, així com una font d'informació mètrica - és a dir, la capacitat d'entendre les distàncies i mides.

imatge del nucli semàntic

Pel que fa a la imatge, podem descriure-per una sèrie d'atributs, per així dir-ho, per extreure informació semàntica.

Per exemple, mirant a aquesta imatge, podem dir que està a l'aire lliure. Quin és el trànsit de la ciutat. Que hi ha cotxes. podem suposar que aquest és el sud-est asiàtic de la configuració de l'edifici i jeroglífics. El retrat de Mao Zedong a entendre que es tracta de Pequín, i si algú va veure vídeo en directe o ell mateix havia estat allà, diria que es tracta de la famosa plaça de Tiananmen.

El que podem dir més sobre la imatge, veient-? Podem identificar objectes en la imatge, per dir, que hi ha gent aquí més a prop - tanca. Aquí para-sols, cartells d'aquest edifici. Aquests són exemples de classes d'objectes és molt important, que es dediquen a la recerca de moment.

Encara podem aprendre algunes de les característiques o atributs dels objectes. Per exemple, aquí podem determinar que això no és un retrat d'un xinès comú, és a dir, Mao Zedong.

Segons el vehicle es pot determinar que es tracta d'un objecte en moviment, i és difícil, que no es deforma durant el moviment. Quant als indicadors es pot dir que els objectes, sinó que també s'estan movent, però no són difícils, constantment deformats. I en l'escena no és el vent, el que pot determinar-se mitjançant el desenvolupament de banderes, i fins i tot pot determinar la direcció del vent, per exemple, que bufa d'esquerra a dreta.

Les distàncies i longituds en la visió per ordinador

Molt important és la informació sobre la ciència mètrica de visió per ordinador. Es tracta de tot tipus de distàncies. Per exemple, per al Rover és particularment important perquè els equips són de la Terra al voltant de 20 minuts i responen tant. En conseqüència, l'enllaç d'anada i tornada - 40 minuts. I si fem un pla per les ordres de moviment de la Terra, cal tenir això en compte.

Integrat amb èxit la tecnologia de visió per ordinador en els videojocs. Segons el vídeo, es pot construir models tridimensionals d'objectes, persones, i fotos en l'usuari pot restaurar els models tridimensionals de ciutats. I després caminar sobre elles.

visió per ordinador - una gamma bastant àmplia. Està estretament entrellaçada amb diverses altres ciències. Part de la visió per ordinador Captura l'àrea de processament d'imatges i visió per ordinador assigna a vegades, històricament.

Anàlisi, reconeixement de patrons - el camí a la creació d'una intel·ligència superior

Examinem aquests conceptes per separat.

Processament d'Imatges - aquesta és una àrea d'algoritmes, en què l'entrada i sortida - imatge, i tenim que faci alguna cosa.

anàlisi d'imatge - és l'àrea de visió per ordinador, que se centra en el treball amb la imatge de dues dimensions i treure conclusions d'això.

Reconeixement de Patrons - una disciplina matemàtica abstracta que reconeix les dades en forma de vectors. És a dir, a l'entrada - vector i tenim alguna cosa a veure amb això. Quan el vector és, no estem tan important saber.

visió per ordinador - que originalment era restaurar l'estructura de les imatges bidimensionals. Avui dia aquesta zona s'ha tornat més àmplia i pot ser interpretat com una acceptació de tots els objectes físics que, sobre la base de la imatge. És a dir, és la tasca de la intel·ligència artificial.

En paral·lel amb la visió artificial en un camp completament diferent, a la geodèsia, la fotogrametria ha evolucionat - una mesura de la distància entre els objectes en imatges bidimensionals.

Els robots poden "veure"

I, finalment, - es tracta de la visió artificial. Sota la visió artificial significa una visió dels robots. Aquesta és la decisió d'alguns problemes de producció. Podem dir que la visió artificial - és una gran ciència. Combina algunes d'una altra ciència. I quan la visió per ordinador rep qualsevol aplicació particular, es converteix en una visió de la màquina.

regió de visió per ordinador té una massa d'aplicacions pràctiques. S'associa amb l'automatització de la producció. A les empreses ser més eficients per a substituir el treball manual per la màquina. La màquina no es cansa, no dormir, no tenia horari de treball irregular, que està disposada a treballar els 365 dies de l'any. Així, mitjançant el treball de la màquina, podem aconseguir un resultat garantit en un moment determinat, i és molt interessant. Totes les tasques tenen un ús clar per als sistemes de visió per ordinador. I no hi ha res millor que veure els resultats immediatament a sobre només en l'etapa de càlcul.

Al llindar del món de la intel·ligència artificial

A més de la zona - que és difícil! Una part important del cervell responsable de la visió, i es creu que si ensenya al seu equip a "veure", és a dir, la visió completa ús de l'ordinador, que és un dels objectius de la intel·ligència artificial completa. Si podem resoldre el problema en el pla humà, molt probablement, al mateix temps, anem a resoldre el problema de la grip aviària. Això és molt bo! O no molt bo, si ens fixem, "Terminator 2".

Per què és la visió - és difícil? A causa de que la imatge del mateix objecte pot variar molt depenent de factors externs. Depenent de l'objecte de punts d'observació semblen diferents.

Per exemple, una i la mateixa figura, des d'angles diferents. I el que és més interessant en la figura pot ser un ull, dos ulls i mig. I depenent del context (si aquesta imatge d'home amb una camisa amb els ulls pintats), l'ull pot ser més de dos.

L'equip encara no entén, però "veu"

Un altre factor que fa que sigui difícil - és la il·luminació. La mateixa escena amb diferent il·luminació tindrà un aspecte diferent. mida de l'objecte pot variar. A més, els objectes de qualsevol classe. Com es pot dir d'un home que la seva altura de 2 metres? Res. creixement humà i pot ser 2,3 m, i 80 cm. Igual que amb altres tipus d'objectes, però, són objectes de la mateixa classe.

objectes vius Particularment se sotmeten a una varietat de ceps. Cabell, els atletes, els animals. A veure fotos dels cavalls corrent, determinar el que està succeint amb la seva cabellera i la cua és simplement impossible. A la superposició d'objectes en una imatge? Si vostè empeny una imatge d'ordinador, fins i tot la màquina més potent trobar dificultats per donar la decisió correcta.

Vista següent - és una disfressa. Alguns objectes, animals fent-se passar pel medi ambient, i bastant habilitat. I els mateixos punts i pintar. No obstant això, els veiem, encara que no sempre de lluny.

Un altre problema - el moviment. Els objectes en moviment inimaginable pateixen deformació.

Molts dels objectes són molt variables. Aquí, per exemple, en les dues fotos de sota els objectes de la "cadira".

I en aquesta es pot asseure. Però per ensenyar a una màquina, de manera que les diferents coses de la forma, el color, el material, tot és un objecte "cadira" - és molt difícil. Aquest és el desafiament. Per integrar mètodes de visió per ordinador - és ensenyar a una màquina de comprendre, analitzar, especular.

La integració de la visió artificial en diverses plataformes

La massa de la visió per ordinador va començar a penetrar més en 2001, quan es va crear el primer detector de cares. Ho vam fer dos autors: Viola, Jones. Va ser el primer algoritme prou ràpid i fiable, el que demostra el poder dels mètodes d'aprenentatge automàtic.

Ara la visió per ordinador té suficients noves aplicacions pràctiques - el reconeixement del rostre humà.

No obstant això, per reconèixer l'home com en les pel·lícules - en angles aleatoris, diferents condicions d'il·luminació - és impossible. No obstant això, per resoldre el problema, o un que és diferent amb diferents persones d'il·luminació o en un posat diferent, similar al de la fotografia en el passaport, és possible amb un alt grau de confiança.

una foto de passaport requisits en gran part a causa de la característica dels algoritmes de reconeixement facial.

Per exemple, si vostè té un passaport biomètric, en alguns aeroports moderns, es pot utilitzar el sistema de control de passaports automàtic.

problema no resolt de la visió per ordinador - la capacitat de reconèixer qualsevol text

Potser algú utilitza el sistema OCR. Un d'ells - un lector de luxe, és molt popular en el sistema de RuNet. Hi ha moltes formes en què omplir les dades, estan perfectament escanejats, la informació és reconegut pel sistema molt bé. Però amb qualsevol text a la imatge, la situació és molt pitjor. Aquest problema segueix sense resoldre.

Els jocs que impliquen la visió per ordinador, la captura de moviment

gran àrea separada - és la creació de models tridimensionals i de captura de moviment (que s'implementa amb força èxit en els jocs d'ordinador). El primer programa, que utilitza la visió per ordinador - un sistema d'interacció amb l'ordinador mitjançant gestos. Quan es va crear va ser un munt de coses obertes.

L'algoritme està dissenyat simplement, sinó per configurar que es va trigar a crear un generador d'imatges sintètiques de la gent per aconseguir un milió d'imatges. Superordinador amb ells per triar els paràmetres de l'algorisme, per la qual ara funciona bé.

Això és un milió d'imatges i temps de la setmana superordinador comptable possible crear un algoritme que consumeix el 12% de la capacitat d'un processador i permet a una persona per percebre la posició en temps real. Aquest sistema Kinect de Microsoft (2010).

Cerca d'imatges de contingut us permet pujar fotos per al sistema, i els resultats de la mateixa donarà totes les imatges amb el mateix contingut i fet des del mateix angle.

Exemples de visió per ordinador: tridimensionals i mapes bidimensionals ara s'estan fent amb ell. Els mapes de navegació per a automòbils s'actualitzen periòdicament d'acord amb el DVR.

Hi ha una base de dades amb milers de fotos amb etiquetes geogràfiques. En descarregar la imatge a la base de dades, es pot determinar on es va fer, i fins i tot amb una mica de perspectiva. Per descomptat, sempre que el lloc és prou populars que alhora els turistes i va formular una sèrie de fotos de la zona han estat allà.

els robots són a tot arreu

Robòtica en el moment present, a tot arreu, sense que de cap manera. Ara bé, hi ha vehicles que tenen càmeres especials que reconeixen els vianants i senyals de trànsit per a transmetre ordres al conductor (això d'una manera un programa d'ordinador per veure, ajuda al conductor). I hi ha un vehicles robòtics completament automatitzats, però no pot basar-se únicament en el sistema de càmeres de vídeo sense l'ús d'una gran quantitat d'informació addicional.

Cambra moderna - es tracta d'una càmera fosca analògica

Anem a parlar de la imatge digital. Les càmeres digitals modernes estan disposats en el principi de la cambra fosca. Només que en comptes de l'orifici a través del qual la llum entra en el feix i projecta sobre la paret posterior de la càmera del circuit de tema, tenim un sistema òptic especial diu la lent. El seu objecte és recollir un gran feix de llum i convertir-la de manera que tots els raigs passen a través d'un punt virtual amb la finalitat d'obtenir la projecció i formar una imatge en una pel·lícula o matriu.

Les càmeres digitals modernes (matriu) es compon d'elements individuals - píxels. Cada píxel pot mesurar l'energia de la llum que incideix sobre el total de píxels, i emetre un nombre de sortida. Per tant, en una càmera digital, s'obté en lloc dels mesuraments de llum configurar la brillantor de la imatge, atrapats en un sol píxel - l'equip de camp de visió. Per tant, quan la imatge que veiem no està fluint línies i contorns clars, i una reixeta de quadrats de colors en diferents colors - píxels.

A sota es pot veure la primera imatge digital al món.

Però en aquesta imatge no ho és? Color. Què és el color?

percepció psicològica del color

Color - això és el que veiem. El color de la una i la mateixa cosa per als éssers humans i gats seran diferents. Ja que (els éssers humans) i el sistema òptic d'animals - la visió és diferent. Per tant, el color - és la qualitat de la nostra visió psicològica que es produeix quan l'observació d'objectes i la llum. I no una propietat física de l'objecte i la llum. Color - és el resultat de la interacció dels components de la llum, i l'escena del nostre sistema visual.

Programació de Visió per Computador en Python usant biblioteques

Si vostè ha decidit a participar seriosament en l'estudi de la visió per ordinador, s'han de preparar immediatament per una sèrie de dificultats, aquesta ciència no és el més fàcil i amaga una sèrie de trampes. No obstant això, "Programació de Visió per Computador de la Python" de l'autoria de Jan Erik Solema - un llibre que descriu tot el llenguatge més simple. Aquí es familiaritzarà amb els mètodes de reconeixement de diversos objectes en 3D, aprendre a treballar en la imatge estèreo, la realitat virtual i moltes altres aplicacions de visió per ordinador amb. Al llibre hi ha prou exemples en Python. No obstant això, les explicacions es presenten, per així dir-ho, generalitzat, per tal de no sobrecarregar massa la investigació i les dades durs. El treball adequat per als estudiants, aficionats i entusiastes. Descarregar aquest llibre i altres sobre la visió per ordinador (format pdf) pot estar a la xarxa.

De moment, hi ha biblioteca de codi obert d'algoritmes de visió artificial i processament d'imatges i algoritmes numèrics OpenCV. Es porta a terme en la majoria dels llenguatges de programació moderns, és de codi obert. Si parlem de la visió per ordinador, utilitza Python com a llenguatge de programació, sinó que també compta amb el suport de la biblioteca, a més, està en constant evolució i té una gran comunitat.

L'empresa "Microsoft" ofereix els seus serveis Api-poder entrenar la xarxa neuronal per treballar amb imatges de persones. També hi ha l'oportunitat d'aplicar la visió per ordinador, Python utilitza com a llenguatge de programació.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ca.delachieve.com. Theme powered by WordPress.