Nézés és látás… … két fogalom, amelynek a jelentésével mindenki tisztában van, bár a hétköznapokban (nem is véletlenül) főként az utóbbit használjuk. A nézés a képalkotást, a látás a kép feldolgozását, a látvány értelmezését jelenti.
1. ábra: Biztonsági karaktersor (05338)
Az emberi elme a képfeldolgozásban kiválóan teljesít. A szemfenéken megjelenő síkkép az agy látókérgében komplex térbeli képként jelenik meg. A sztereóhatás a két szem által készített kismértékben eltérő képnek köszönhető. Ez mégis nagy teljesítmény, hiszen láthatnánk kancsalul eltorzult képet is. Az agy azonban képes értelmezni a látottakat, sőt többre is képes. Aki a térlátást megtanulta, akkor is érzékeli a mélységet, ha egyik szemére megvakul. A szemünk romlását is csak nagyon előrehaladott állapotban vesszük észre, mert az agy kompenzál, a rosszul látott képet javítja, vagy kiegészíti. Ezért vagyunk képesek takarásban levő objektumokat akár az árnyékukról felismerni.
Az elmondottak ellenére az átlagember úgy gondolja, hogy az emberi látás tökéletlen, a gépi látás sokkal jobb. Ezt valószínűleg a fantasztikus filmek számlájára kell írnunk, hiszen ott a robotok a falon is átlátnak.
A valóság annyiban támasztja alá a filmbeli világot, hogy gépekkel a nem látható frekvencia tartományban is megvalósítható felvételek készítése. Ma már a képek felbontásával sincs probléma. A képfeldolgozás azonban meglepően nehezen gépesíthető. A gépnek nincsenek intuíciói, csak pixeleket (képpontokat) lát. Nincs tehát értelme oly módon feltenni a kérdést, hogy mi látható a képen. A géptől azt kell megkérdezni, hogy van-e a képen egy megadott mintázatra hasonlító alakzat. Ezt megfelelő szűrést követően már képes megválaszolni a gép is.
Amiben a gép a jobb
Még mielőtt szándékunk ellenére bebizonyítanánk, hogy nincs értelme a számítógépekre bízni a képfeldolgozást, nézzük miben jobbak a gépek. Az emberi látás legnagyobb hibája, a szubjektivitás. Erre rögtön fény derül, ha például a rendőrség keres szemtanúkat. Nem csak az emlékezőtehetsége különböző az embereknek, az előéletük, tapasztalataik, pillanatnyi lelki állapotuk függvényében valóban másként látják az eseményeket. Nagy mennyiségű felvétel monoton munkát jelentő kiértékelését tehát jobb, ha nem bízzuk emberekre.
Nem meglepő, hogy a számítógépes képfeldolgozást is a hadiiparnak köszönhetjük. A légi fotók idővel olyan számban készültek, hogy azok kézi feldolgozása és elemzése igen nagy létszámú munkaerőt igényelt és rendkívül időigényesnek bizonyult. Mindazonáltal a munkaidő előrehaladásával az emberek szeme elfáradt és egyre többet hibáztak. Felismerték, hogy a képeken bizonyos alakzatok előfordulásának észlelését alkalmas matematikai algoritmusok segítségével nagy biztonsággal meg lehet találni. Eleinte a képeken csak úgynevezett elő-feldolgozást végeztek, a személyzetnek csak a gép által megjelölteket kellett átnézniük. A katonai felhasználástól kicsit lemaradva (főleg az anyagi korlátoknak köszönhetően) az orvostechnikai alkalmazások kerültek előtérbe. Itt a katonai alkalmazásoktól eltérően nem fényképeken keresték az ismert alakzatokat, hanem alapvetően a röntgen képek elemzése során kerestek elváltozásokat, elmosódásokat.
Mindkét alkalmazási terület természetesen számos akadályba és korlátba ütközött. Az első és legnagyobb kihívást a tökéletes kép készítése jelentette, és jelenti ma is. Ugyanis, ha a kép életlen, vagy nem megfelelő felbontású, esetleg nem elegendő a színmélysége, akkor az egyébként jól működő képfeldolgozó algoritmusok is zátonyra futnak. Ezért a képfeldolgozásnak egy külön ága kezdett foglalkoznia a képjavításokkal, képmanipulációkkal.
Amiben még az ember a jobb
Az egyik legegyszerűbbnek tűnő és széleskörűen elterjedt képfeldolgozási eljárás a karakterfelismerés. Erre igazán azt mondjuk, hogy tökéletesen megoldható feladat. A gép úgy olvas, mint az ember, sőt még jobban és főleg gyorsabban. Vajon igaz ez? A válasz erre is az, hogy nem. Gondoljunk csak arra, hogy egyes weblapokon a nevünkben számítógépes robotok automatikus bejelentkezését úgy akadályozzák meg, hogy egy képernyőre generált jelszót kell begépelnünk. A jelszó eltorzított karakterekből áll, amely felismerését a kacifántos háttér is megnehezíti. Vajon mi el tudjuk olvasni az 1. ábrán látható karakterláncot?
Ugye igen! Bizony ez, ami egy embernek nem okoz gondot, a legtöbb képfeldolgozót megakasztja.
A karakterfelismerést használják a gyorshajtók beazonosítására is. Itt a rendszer automatikusan felismeri a rendszámot, és ez alapján küldik ki a bírságot (sajnos azt is automatikusan). Elvileg könnyű dolga van a gépnek. Fehér háttér előtt, kontrasztos (fekete), szabványos alakú és méretű karaktereket kell felismerni. Bizony ez a rendszer sem tévedhetetlen, ezt személyes tapasztalatból is mondhatom, mivel a családunk is kapott olyan büntetési felszólítást, amit azért küldtek ki, mert a rendszámban egy 0-át a gép 9-esnek nézett. Szerencsére a hatóság zokszó nélkül elismerte a tévedést.
Alkalmazási példák
A számítógépes képfeldolgozás a mezőgazdasági termelésben is sok dologra alkalmazható. Azt azonban el kell fogadni, hogy általános érvényű képfeldolgozási eljárások és módszerek nem léteznek. Ezért, ha egy feladatot képfeldolgozással akarunk megoldani, akkor először is tisztáznunk kell az aktuális helyzetben elérhető műszaki és matematikai eszköztárat. Azaz ismernünk kell a lehetőségeket és a korlátokat. Néhány példát elemezve vizsgáljuk tehát meg a mesterséges látás lehetőségeit.
Alak felismerés
Az alakra hasonló, de egyértelműen különböző tulajdonságokkal rendelkező növényi magok, gyümölcsök, zöldségfélék kézi szétválogatása nagy gyakorlati szakértelmet és igen fáradtságos munkát követel meg. Ilyen esetekben jöhet jól egy fáradhatatlan robot, aki folyamatosan tud dolgozni, még akkor is, ha kicsit lassabb az embernél. Hiszen az emberi munka csak ideig-óráig tartható magas szinten, utána vagy cserélni kell a munkást vagy pihenni kell küldeni. Ugyebár ez a robotoknál másként van.
1. kép: Néhány kivi fajta hosszmetszete
A kivi gyümölcs osztályozása során annak geometriai paramétereit kell megvizsgálni, és ezek alapján áttenni a megfelelő gyűjtőszalagra. Ha konkrét gyümölcsöt nézünk, két egymásra merőleges síkban vizsgálhatjuk az alaki jellemzőket. Ezek alapján nevezhetjük a gyümölcsöt rövid, közepes, és magas (1. kép), vagy éppen kerek, elliptikus, és lapított osztályba tartozónak (2. kép).
2. kép Néhány kivi fajta keresztmetszete
Ez a besorolás határozza meg, hogy később milyen felhasználási sors vár a gyümölcsre (pl. konzerv sűrítmény, vagy piaci áru lesz belőle). Az alak felismeréshez persze előbb meg kell találni a képen az objektumot. Ehhez a határoló vonalak megtalálásán keresztül vezet az út. A kontúrokat az egymás melletti képpontok intenzitásának különbségét figyelve keressük meg. Szerencsés esetben a kontúrok ott találhatók, ahol hirtelen ugrást találunk a fényességértékek között. Érdekes módon ebben az esetben az a helyes képfeldolgozási eljárás, ha az emberi látás szempontjából elrontjuk a képet. Először szürkeárnyalatúvá tesszük a felvételt, majd a kontrasztot növelve a háttér, a zavaró jelek, és képhibák eltűnnek. Ezután a kerület mentén összefüggővé tehető az él és kitölthető az objektum, pl. feketével (3. kép).
3. kép: Kontúrkeresés képfeldolgozással
Az átalakított képen már könnyű méreteket felvenni, kerületet, felületet, térfogatot számolni. Mégpedig sokkal pontosabban, mint a szokásos planimetrálási, köbözési eljárásokkal lehetséges. Ha a vizsgált gyümölcs átmérőinek jellemzői (arányai) egy előre definiált tartományba esnek (zöld terület a 2. ábrán), akkor mehet piaci dobozolásra, különben ivólé lesz belőle.
2. ábra: A gyümölcsválogatás kiértékelése előre definiált alakjellemzők alapján
Szín felismerés
A mezőgazdasági termények vizsgálatának területén a képfeldolgozási eljárások másik nagy csoportját alkotják azok, melyek egy adott szín vagy színárnyalat alapján kísérelik meg feladataikat ellátni. Ilyenek tipikusan a gyümölcsszedő robotok. Alapesetben itt is a színskálához nyúlnak először, de a szürkeárnyalatos kép gyakran valójában egy-egy színcsatorna adatai tartalmazza, esetleg áttéréssel egy másik színrendszerbe (pl. RGB, illetve HSV). Ideális esetben, homogén háttérrel elég jó találati aránnyal lehet számolni (4. kép).
4. kép: Találati pontosság tiszta (mesterséges) háttér esetén
Ha azonban valós körülmények között próbálkozunk már nem lesz ennyire tiszta a kép (5. kép).
5. kép A természetes háttér zavaró hatása
Közelebbről megvizsgálva egy esetet, jól látható, hogy a gondot a terepi viszonyok jelentik a képfeldolgozó rendszer számára. A barackot kitakaró levelek hatása csak részben küszöbölhető ki, a takarásban lévő gyümölcsök, pedig gyakran nem különíthetők el (6. kép).
6. kép: Takart objektumok beazonosítása
A fenti hatások eredménye, hogy a betakarító robotok találati pontossága jó, ha meghaladja a 80 %-ot. Természetesen a robotot az adott növénysorra újból és újból ki lehet küldeni nap mint nap, és ezzel jelentősen javítható az egyszeri betakarítás találati pontossága. A nagyobb megbízhatóság és találati pontosság érdekében számos eljárással kísérleteznek. Van, hogy az útban lévő leveleket egyszerűen ventilátorokkal próbálják félrefújni a kamera elől, de olyan megoldással is kísérleteznek, ahol több kamerás rendszert háromdimenziós képalkotási technikával ötvöznek, vagy különleges megvilágító lámpákat alkalmaznak. Fontos tudni, hogy a betakarító robotok már nem csak kutatási fázisban lévő eszközök, hanem megvásárolható termékként is megjelentek a piacon. Erre jó példa az SW6010-es spanyol szamócaszedő (7. kép).
7. kép: Szamócaszedő robot (SW6010)
Hiperspektrális távérzékelés
A képfeldolgozás mezőgazdasági alkalmazásának egy speciális esete a légi-felvételek elemzésének témaköre. Azért különleges a dolog, mert ebben az esetben kimondottan nagy távolságról készült képekről van szó. Az amúgy sem könnyen elkészíthető ideális képeket a magasból, egy mozgó járműről, vastag, gyakran szennyezett légrétegen keresztül kell összehozni. Ebben az esetben a mesterséges árnyékolás és megvilágítás technikája szóba sem jöhet, hiszen igen furcsa lenne egy repülő, ami egy nagy leplet húz magával árnyékoló gyanánt. Szóval ilyenkor a szokásosnál is több dolog befolyásolja a jó kép elkészítését. Tegyük fel, hogy az ideális időjárás, napszak és technika is adott a képkészítéshez. Ha tehát elkészültek a képek, bizony nem ülhetünk nyugodtan a fotelba a számítógép mellé, hiszen a zavaró hatások kompenzálásához közvetlen, a terepen történt referenciamérések is szükségeltetnek. Ha azzal is megvagyunk, akkor jöhet a szokásos munka, a képfeldolgozás.
Felmerülhet a kérdés van-e egyáltalán létjogosultsága egy ilyen bonyolult és drága technika alkalmazásának. Erre válaszul álljon itt egy példa. A cél: feltérképezni a parlagfűvel fertőzött területeket, annak érdekében, hogy a szükséges intézkedéseket foganatosítani lehessen. Igen ám, de több 100, sőt több1000 hektárnyi területet kellene átvizsgálni. Nos, most jött el a légi-fotózás és képfeldolgozás ideje, hiszen a repülőről készített képek 100 m-es sávban, 80-100 km/órás tempóval készülnek. Ez ugye beláthatóan gyorsabb, mint a gyalogszerrel történő felvételezés. Van repülőnk, uccu neki, csináljunk képeket. De milyet? A fényképeken a zöld parlagfű hogyan fog elkülönülni az ugyancsak zöld környezetétől? Erre való az úgynevezett hiperspektrális kamera (3. ábra), amely a fény látható tartományán túl (látható kb. 350 nm-től 780 nm-ig) egészen a 2.500 nanométeres tartományig képes felvételeket készíteni.
3. ábra: A hiperspektrális távérzékelés folyamata
Ebből az eszközből persze alig van néhány Európában, de egy éppen a VM Mezőgazdasági Gépesítési Intézet birtokában van és ezzel ők képesek a parlagfüvet is megtalálni a magasból (8. kép).
8. kép: A parlagfűvel szennyezett területek kijelölése légi-felvételen (piros)
Ha tehát feltesszük a kérdést, hogy a mezőgazdasági alkalmazások esetében van-e létjogosultsága a képfeldolgozásnak, akkor a válasz határozott igen! Természetesen itt is, mint minden más technika alkalmazása esetében, először meg kell vizsgálni, hogy az adott feladat végrehajtására milyen módon és mértékben alkalmazható a mesterséges látás eszköztára. Hiszen ne feledjük általánosan érvényes képfeldolgozási eljárások nincsenek!
A cikk összeállítását a TÁMOP-4.2.1.B-11/2/KMR-2011-0003 kutatási projekt támogatta.
Dr. Bense László, Lágymányosi Attila
SzIE Gépészmérnöki Kar, Mezőgazdasági és Élelmiszeripari Gépek Tanszék, Gödöllő