mdh.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
The Genetic Algorithm Census Transform
Mälardalens högskola, Akademin för innovation, design och teknik, Inbyggda system.
Mälardalens högskola, Akademin för innovation, design och teknik, Inbyggda system.ORCID-id: 0000-0002-3425-3837
Mälardalens högskola, Akademin för innovation, design och teknik, Inbyggda system.ORCID-id: 0000-0001-7934-6917
Mälardalens högskola, Akademin för innovation, design och teknik, Inbyggda system.ORCID-id: 0000-0002-5832-5452
(Engelska)Manuskript (preprint) (Övrigt vetenskapligt)
Nationell ämneskategori
Inbäddad systemteknik
Identifikatorer
URN: urn:nbn:se:mdh:diva-46244OAI: oai:DiVA.org:mdh-46244DiVA, id: diva2:1375326
Tillgänglig från: 2019-12-04 Skapad: 2019-12-04 Senast uppdaterad: 2019-12-04Bibliografiskt granskad
Ingår i avhandling
1. Embedded high-resolution stereo-vision of high frame-rate and low latency through FPGA-acceleration
Öppna denna publikation i ny flik eller fönster >>Embedded high-resolution stereo-vision of high frame-rate and low latency through FPGA-acceleration
2020 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Autonomous agents rely on information from the surrounding environment to act upon. In the array of sensors available, the image sensor is perhaps the most versatile, allowing for detection of colour, size, shape, and depth. For the latter, in a dynamic environment, assuming no a priori knowledge, stereo vision is a commonly adopted technique. How to interpret images, and extract relevant information, is referred to as computer vision. Computer vision, and specifically stereo-vision algorithms, are complex and computationally expensive, already considering a single stereo pair, with results that are, in terms of accuracy, qualitatively difficult to compare. Adding to the challenge is a continuous stream of images, of a high frame rate, and the race of ever increasing image resolutions. In the context of autonomous agents, considerations regarding real-time requirements, embedded/resource limited processing platforms, power consumption, and physical size, further add up to an unarguably challenging problem.

This thesis aims to achieve embedded high-resolution stereo-vision of high frame-rate and low latency, by approaching the problem from two different angles, hardware and algorithmic development, in a symbiotic relationship. The first contributions of the thesis are the GIMME and GIMME2 embedded vision platforms, which offer hardware accelerated processing through FGPAs, specifically targeting stereo vision, contrary to available COTS systems at the time. The second contribution, toward stereo vision algorithms, is twofold. Firstly, the problem of scalability and the associated disparity range is addressed by proposing a segment-based stereo algorithm. In segment space, matching is independent of image scale, and similarly, disparity range is measured in terms of segments, indicating relatively few hypotheses to cover the entire range of the scene. Secondly, more in line with the conventional stereo correspondence for FPGAs, the Census Transform (CT) has been identified as a recurring cost metric. This thesis proposes an optimisation of the CT through a Genetic Algorithm (GA) - the Genetic Algorithm Census Transform (GACT). The GACT shows promising results for benchmark datasets, compared to established CT methods, while being resource efficient.

Abstract [sv]

Autonoma agenter är beroende av information från den omgivande miljön för att agera. I en mängd av tillgängliga sensorer är troligtvis bildsensorn den mest mångsidiga, då den möjliggör särskillnad av färg, storlek, form och djup. För det sistnämnda är, i en dynamisk miljö utan krav på förkunskaper, stereovision en vanligt tillämpad teknik. Tolkning av bildinnehåll och extrahering av relevant information går under benämningen datorseende. Datorseende, och specifikt stereoalgoritmer, är redan för ett enskilt bildpar komplexa och beräkningsmässigt kostsamma, och ger resultat som, i termer av noggrannhet, är kvalitativt svåra att jämföra. Problematiken utökas vidare av kontinuerlig ström av bilder, med allt högre bildfrekvens och upplösning. För autonoma agenter krävs dessutom överväganden vad gäller realtidskrav, inbyggda system/resursbegränsade beräkningsplattformar, strömförbrukning och fysisk storlek, vilket summerar till ett otvetydigt utmanande problem.

Den här avhandlingen syftar till att åstadkomma högupplöst stereovision med hög uppdateringsfrekvens och låg latens på inbyggda system. Genom att närma sig problemet från två olika vinklar, hårdvaru- och algoritmmässigt, kan ett symbiotiskt förhållande däremellan säkerställas.Avhandlingens första bidrag är GIMME och GIMME2 inbyggda visionsplattformar, som erbjuder FPGA-baserad hårdvaruaccelerering, med särskilt fokus på stereoseende, i kontrast till för tidpunkten kommersiellt tillgängliga system.Det andra bidraget, härrörande stereoalgoritmer, är tudelat.Först hanteras skalbarhetproblemet, sammankopplat med disparitetsomfånget, genom att föreslå en segmentbaserad stereoalgoritm.I segmentrymden är matchningen oberoende av bildupplösningen, samt att disparitetsomfånget definieras i termer av segment, vilket antyder att relativt få hypoteser behövs för att omfatta hela scenen.I det andra bidraget på algoritmnivå, mer i linje med konventionella stereoalgoritmer för FPGAer, har Censustransformen (CT) identifierats som ett återkommande kostnadsmått för likhet. Här föreslås en optimering av CT genom att tillämpa genetisk algoritm (GA) - Genetisk Algoritm Census Transform (GACT). GACT visar lovande resultat för referensdataset jämfört med etablerade CT-metoder, men är samtidigt resurseffektiv.

Ort, förlag, år, upplaga, sidor
Västerås: Mälardalen University, 2020
Serie
Mälardalen University Press Dissertations, ISSN 1651-4238 ; 304
Nyckelord
Computer vision, stereo vision, FPGA, embedded systems
Nationell ämneskategori
Datorseende och robotik (autonoma system)
Forskningsämne
datavetenskap
Identifikatorer
urn:nbn:se:mdh:diva-46240 (URN)978-91-7485-453-4 (ISBN)
Disputation
2020-01-28, Kappa, Mälardalens högskola, Västerås, 09:15 (Engelska)
Opponent
Handledare
Tillgänglig från: 2019-12-04 Skapad: 2019-12-04 Senast uppdaterad: 2020-01-10Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Personposter BETA

Ahlberg, CarlLeon, MiguelEkstrand, FredrikEkström, Mikael

Sök vidare i DiVA

Av författaren/redaktören
Ahlberg, CarlLeon, MiguelEkstrand, FredrikEkström, Mikael
Av organisationen
Inbyggda system
Inbäddad systemteknik

Sök vidare utanför DiVA

GoogleGoogle Scholar

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 8 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf