Fremskritt innen datasyn driver transportautonomi

Syn er en kraftig menneskelig sanseinngang. Det muliggjør komplekse oppgaver og prosesser vi tar for gitt. Med en økning i AoT™ (Autonomy of Things) i ulike applikasjoner som spenner fra transport og landbruk til robotikk og medisin, blir rollen til kameraer, databehandling og maskinlæring i å gi menneskelignende syn og kognisjon blitt betydelig. Datasyn som en akademisk disiplin tok fart på 1960-tallet, først og fremst ved universiteter engasjert i det nye feltet kunstig intelligens (AI) og maskinlæring. Den utviklet seg dramatisk i løpet av de neste fire tiårene da det ble gjort betydelige fremskritt innen halvleder- og datateknologi. Nylige fremskritt innen dyp læring og kunstig intelligens har ytterligere akselerert bruken av datasyn for å gi sanntid, lav latenstid persepsjon og erkjennelse av miljøet, noe som muliggjør autonomi, sikkerhet og effektivitet i ulike applikasjoner. Transport er et område som har hatt betydelige fordeler.

LiDAR (Light Detection and Ranging) er en aktiv optisk bildebehandlingsmetode som bruker lasere til å bestemme 3D-miljøet rundt et objekt. Det er en av teknologiene som datasynsløsninger (som utelukkende er avhengig av omgivelseslys og ikke bruker lasere for 3D-oppfatning) prøver å forstyrre. Det vanlige temaet er at menneskelige sjåfører ikke trenger LiDAR for dybdeoppfatning, så heller ikke maskiner. Gjeldende kommersielle L3 autonome kjøreegenskaper (fullstendig autonomi i spesifikke geografier og værforhold, med sjåføren klar til å ta kontroll i løpet av sekunder) produkter i dag bruk LiDAR. Rent visjonsbaserte teknikker har fortsatt ikke vært i stand til å tilby denne muligheten kommersielt.

ANNONSE

TeslaTSLA
er en dominerende talsmann for å bruke passiv kamerabasert datasyn for å gi passasjerkjøretøy autonomi. Under selskapets nylige AI Day-arrangement ga Elon Musk og hans ingeniører en imponerende presentasjon av AI, dataadministrasjon og databehandlingsevner som støtter, blant andre initiativer, funksjonen Full Self Driving (FSD) på flere Tesla-modeller. FSD krever at den menneskelige sjåføren til enhver tid er engasjert i kjøreoppgaven (noe som er i samsvar med L2-autonomi). For øyeblikket er dette alternativet tilgjengelig på 160,000 8 kjøretøy kjøpt av kunder i USA og Canada. En suite med 360 kameraer på hvert kjøretøy gir et 75°-beleggskart. Kamera (og andre) data fra disse kjøretøyene brukes til å trene det nevrale nettverket (som bruker automatisk merking) til å gjenkjenne objekter, plotte potensielle kjøretøybaner, velge optimale og aktivere de riktige kontrollhandlingene. ~12K oppdateringer av det nevrale nettverket har skjedd i løpet av de siste 1 månedene (~7 oppdatering hvert 4. minutt) ettersom nye data kontinuerlig samles inn og merkefeil eller manøvreringsfeil oppdages. Det trente nettverket utfører planleggings- og kontrollhandlinger gjennom en innebygd, redundant arkitektur av spesialbygd dataelektronikk. Tesla forventer at FSD til slutt vil føre til autonome kjøretøyer (AV-er), som gir fullstendig autonomi i visse operasjonelle designdomener uten behov for menneskelig sjåførengasjement (også referert til som LXNUMX-autonomi).

Andre selskaper som Phiar, Helm.ai og NODAR forfølger også datasynsveien. NODAR har som mål å utvide bildeområdet og 3D-oppfatningen av stereokamerasystemer betydelig ved å lære å justere for kamerafeiljustering og vibrasjonseffekter gjennom patenterte maskinlæringsalgoritmer. Det samlet nylig inn 12 millioner dollar for produksjonen av flaggskipsproduktet Hammerhead™, som bruker "hyllevare" kameraer og standard dataplattformer.

Bortsett fra kostnad og størrelse, er et hyppig argument mot å bruke LiDAR at den har begrenset rekkevidde og oppløsning sammenlignet med kameraer. For eksempel er LiDAR-er med en rekkevidde på 200 m og 5-10 M poeng/sekund (PPS i likhet med oppløsning) tilgjengelig i dag. Ved 200 m vil små hindringer som murstein eller dekkrester registrere svært få punkter (kanskje 2-3 i vertikal og 3-5 i horisontal retning), noe som gjør gjenkjenning av gjenstander vanskelig. Ting blir enda grovere på lengre avstander. Til sammenligning kan standard megapikselkameraer som kjører på 30 Hz generere 30M piksler/sekund, noe som muliggjør overlegen objektgjenkjenning selv på lange avstander. Mer avanserte kameraer (12 M piksler) kan øke dette ytterligere. Problemet er hvordan man kan utnytte disse enorme dataene og produsere handlingsdyktig oppfatning med forsinkelser på millisekundnivå, lavt strømforbruk og dårlige lysforhold.

ANNONSE


Gjenkjennelse, et California-basert selskap, prøver å løse dette problemet. I følge administrerende direktør Mark Bolitho er dens oppgave å "levere overmenneskelig visuell oppfatning for helt autonome kjøretøy." Selskapet ble grunnlagt i 2017, har samlet inn 75 millioner dollar til dags dato og har 70 ansatte. RK Anand, en alun fra Juniper Networks, er en av medgründerne og Chief Product Officer. Han mener at bruk av kameraer med høyere oppløsning, med > 120 dB dynamisk rekkevidde, som kjører med høye bildefrekvenser (for eksempel OnSemi, Sony og Omnivision) gir dataene som kreves for å lage høyoppløselig 3D-informasjon, som er avgjørende for å realisere AV-er. Aktivatorene til dette er:

  1. Spesialdesignede ASIC-er for å behandle dataene effektivt og produsere nøyaktige og høyoppløselige 3D-kart over bilmiljøet. Disse er produsert på en TSMC 7 nm prosess, med en brikkestørrelse på 100 mm², som opererer på en 1 GHz frekvens.
  2. Proprietære maskinlæringsalgoritmer for å behandle millioner av datapunkter offline for å skape det trente nevrale nettverket, som deretter kan fungere effektivt og lære kontinuerlig. Dette nettverket gir persepsjonen og inkluderer objektklassifisering og gjenkjenning, semantisk segmentering, kjørefeltdeteksjon, trafikkskilt og trafikklysgjenkjenning
  3. Minimerer off-chip lagring og multiplikasjonsoperasjoner som er strømkrevende og skaper høy latenstid. Recognis ASIC-design er optimalisert for logaritmisk matematikk og bruker addisjon. Ytterligere effektivitet oppnås ved å gruppere vekter optimalt i det trente nevrale nettverket.

Under treningsfasen brukes en kommersiell LiDAR som sannhet for å trene stereokameradata med høy oppløsning og høyt dynamisk område for å trekke ut dybdeinformasjon og gjøre den robust mot feiljustering og vibrasjonseffekter. Ifølge Mr. Anand er deres maskinlæringsimplementering så effektiv at den kan ekstrapolere dybdeestimater utover treningsområdene gitt av kalibrerings LiDAR (som gir grunnsannheten til en rekkevidde på 100 m).

ANNONSE

Treningsdataene ovenfor ble utført på dagtid med et stereopar med 8.3 megapikslers kameraer som kjørte med 30 Hz bildefrekvenser (~0.5B piksler per sekund). Den demonstrerer evnen til det trente nettverket til å trekke ut 3D-informasjon i scenen utenfor 100 m rekkevidden det ble trent med. Recognis løsning kan også ekstrapolere sin læring med dagtidsdata til nattytelse (Figur 2).

ANNONSE

Ifølge Mr. Anand er rekkeviddedataene nøyaktige til innenfor 5 % (ved lange avstander) og nær 2 % (ved kortere avstander). Løsningen gir 1000 TOPS (billioner operasjoner per sekund) med 6 ms latency og 25W strømforbruk (40 TOPS/W), som er ledende i bransjen. Konkurrenter som bruker heltallsmatematikk er > 10 ganger lavere på denne beregningen. Recognis løsning er for tiden i utprøving hos flere Tier 1-leverandører for bilindustrien.

Forutsi ("forutsi og se hvor handlingen er"), basert i Frankrike, bruker sine hendelsesbaserte kameraer for AV-er, Advanced Driver Assistance Systems (ADAS), industriell automasjon, forbrukerapplikasjoner og helsetjenester. Grunnlagt i 2014 selskapet avsluttet nylig sin C-runde-finansiering på $50 millioner, med totalt $127 millioner samlet inn til dags dato. Xiaomi, en ledende produsent av mobiltelefoner, er en av investorene. Prophesees mål er å etterligne menneskesyn der reseptorene i netthinnen reagerer på dynamisk informasjon. Den menneskelige hjernen fokuserer på å behandle endringer i scenen (spesielt for kjøring). Den grunnleggende ideen er å bruke kamera- og pikselarkitekturer som oppdager endringer i lysintensitet over en terskel (en hendelse) og kun gir disse dataene til beregningsstakken for videre behandling. Pikslene fungerer asynkront (ikke innrammet som i vanlige CMOS-kameraer) og med mye høyere hastighet siden de ikke trenger å integrere fotoner som i et konvensjonelt rammebasert kamera og vente på at hele bildet er ferdig med dette før utlesningen av dataene. Fordelene er betydelige – lavere databåndbredde, beslutningsforsinkelse, lagring og strømforbruk. Selskapets første kommersielle VGA-hendelsesbaserte synssensor hadde et høyt dynamisk område (>120 dB), lavt strømforbruk (26 mW på sensornivå eller 3 nW/hendelse). En HD-versjon (High Definition) (utviklet i fellesskap med Sony), med bransjeledende pikselstørrelse (< 5 μm) er også lansert.

ANNONSE

Disse sensorene utgjør kjernen i Metavision®-sensing-plattformen, som bruker AI for å gi smart og effektiv persepsjon for autonomiapplikasjoner og er under evaluering av flere selskaper i transportområdet. Bortsett fra forovervendt persepsjon for AV-er og ADAS, er Prophesee aktivt engasjert med kunder for overvåking i kabinen av driveren for L2- og L3-applikasjoner, se figur 4:

Bilmuligheter er lukrative, men design-in syklusene er lange. I løpet av de siste to årene har Prophesee sett betydelig interesse og trekkraft i maskinsynsområdet for industrielle applikasjoner. Disse inkluderer høyhastighets telling, overflateinspeksjon og vibrasjonsovervåking.

ANNONSE

Prophesee annonserte nylig samarbeid med ledende utviklere av maskinsynssystemer for å utnytte muligheter innen industriell automasjon, robotikk, bil og IoT (Internet of Things). Andre umiddelbare muligheter er uskarphetskorreksjon for mobiltelefoner og AR/VR-applikasjoner. Disse bruker sensorer i lavere format enn de som brukes for de langsiktige ADAS/AV-mulighetene, bruker enda lavere strøm og opererer med betydelig lavere ventetid.


Israel er en ledende innovatør innen høyteknologi, med betydelige ventureinvesteringer og et aktivt oppstartsmiljø. Siden 2015 har det skjedd rundt 70 milliarder dollar i venture-ledede investeringer i teknologisektoren. En del av dette er innen datasyn. Mobileye gikk i spissen for denne revolusjonen i 1999 da Amnon Shashua, en ledende AI-forsker ved Hebrew University, grunnla selskapet for å fokusere på kamerabasert persepsjon for ADAS og AV-er. Selskapet søkte om en børsnotering i 2014 og ble kjøpt opp av IntelINTC
i 2017 for 15 milliarder dollar. I dag er det lett den ledende aktøren innen datasyn og AV-domenet og nylig kunngjorde sin intensjon om å søke om en børsnotering og bli en selvstendig enhet. Mobileye hadde inntekter på 1.4 milliarder dollar per år og beskjedne tap (75 millioner dollar). Den gir datasynsfunksjoner til 50 bilprodusenter som distribuerer den på tvers av 800 bilmodeller for ADAS-funksjoner. I fremtiden har de til hensikt å lede i L4 kjøretøyautonomi (ingen sjåfør kreves) ved å bruke denne datasynsekspertisen og LiDAR-funksjonene basert på Intels silisiumfotonikkplattform. Mobileyes verdsettelse er estimert til ~$50B når de endelig blir børsnoterte.

ANNONSE

Champel hovedstad, basert i Jerusalem, er i forkant av å investere i selskaper som utvikler produkter basert på datasyn for ulike bruksområder fra transport og landbruk til sikkerhet og sikkerhet. Amir Weitman er medgründer og administrerende partner og startet sitt ventureselskap i 2017. Det første fondet investerte 20 millioner dollar i 14 selskaper. En av investeringene deres var i Innoviz, som ble børsnotert gjennom en SPAC-fusjon i 2018 og ble en LiDAR-enhjørning. Ledet av Omer Keilaf (som kom fra teknologienheten til Intelligence Corps of the Israel Defense Force), selskapet i dag er ledende innen LiDAR-implementeringer for ADAS og AV-er, med flere designgevinster hos BMW og Volkswagen.

Champel Capitals andre fond (Impact Deep Tech Fund II) ble startet i januar 2022 og har samlet inn $30 millioner til dags dato (målet er $100 millioner innen utgangen av 2022). Et dominerende fokus er på datasyn, med 12 millioner dollar distribuert i fem selskaper. Tre av disse bruker datasyn for transport og robotikk.

TankU, basert i Haifa, startet sin virksomhet i 2018 og har samlet inn 10 millioner dollar i finansiering. Dan Valdhorn er administrerende direktør og er utdannet ved Unit 8200, en høyteknologisk elitegruppe innen den israelske forsvarsstyrken som er ansvarlig for signalintelligens og kodedekryptering. TankUs SaaS (Software as a Service)-produkter automatiserer og sikrer prosesser i komplekse utendørsmiljøer som betjener kjøretøy og sjåfører. Disse produktene brukes av eiere av bilflåter, privatbiler, drivstoff og elektriske ladestasjoner for å forhindre tyveri og svindel i automatiserte økonomiske transaksjoner. Drivstofftjenester for kjøretøy genererer ~$2T i globale inntekter årlig, hvorav private og kommersielle kjøretøyflåteeiere forbruker 40% eller $800B. Forhandlere og flåteeiere taper ~100 milliarder dollar årlig på grunn av tyveri og svindel (for eksempel bruk av et flåtedrivstoffkort for uautoriserte private kjøretøyer). CNP (Card not present)-svindel og tukling/stjeling av drivstoff er ekstra kilder til tap, spesielt når du bruker stjålne kortdetaljer i mobilapper for betalinger.

ANNONSE

Selskapets TUfuel-produkt forenkler sikker betaling med ett trykk, blokkerer de fleste typer svindel og varsler kunder når de mistenker svindel. Den gjør dette basert på en AI-motor trent på data fra eksisterende CCTV-er i disse fasilitetene og digitale transaksjonsdata (inkludert POS og andre back-end-data). Parametere som kjøretøyets bane og dynamikk, kjøretøy-ID, reisetid, kjørelengde, påfyllingstid, drivstoffmengde, drivstoffhistorikk og føreradferd er noen attributter som overvåkes for å oppdage svindel. Disse dataene hjelper også forhandlere med å optimalisere driften av nettstedet, forbedre kundelojalitet og implementere visjonsbaserte markedsføringsverktøy. Ifølge administrerende direktør Dan Valdhorn oppdager deres løsning 70 % av flåten, 90 % av kredittkort og 70 % av svindelrelaterte hendelser.

Sonol er et energitjenesteselskap som eier og driver et nettverk av 240 stasjoner og nærbutikker over hele Israel. TUfuel er distribuert på deres nettsteder og har demonstrert forbedret sikkerhet, svindelforebygging og kundelojalitet. Produktprøver er i gang i USA i samarbeid med en ledende global leverandør av bensinstasjoner og nærbutikkutstyr. Lignende initiativ er også i gang i Afrika og Europa.

ANNONSE

Tel-Aviv-basert ITC ble grunnlagt i 2019 av maskinlæringsakademikere fra Ben-Gurion University. ITC lager SaaS-produkter som "mål trafikkflyt, forutsi køer og reduser den gjennom smart manipulering av trafikklys - før det begynner å danne seg kø." I likhet med TankU bruker den data fra hyllekameraer (allerede installert i en rekke trafikkkryss) for å få direkte trafikkdata. Data fra tusenvis av kameraer over en by blir analysert, og parametere som kjøretøytype, hastighet, bevegelsesretning og sekvens av kjøretøytyper (lastebiler vs. biler) trekkes ut gjennom bruk av proprietære AI-algoritmer. Simuleringer forutsier trafikkflyt og potensielle trafikkorksituasjoner opptil 30 minutter i forveien. Trafikklys justeres ved hjelp av disse resultatene for å jevne trafikkflyten og forhindre kø.

Trening av AI-systemet tar én måned med visuelle data over en typisk by og involverer en kombinasjon av overvåket og uovervåket læring. ITCs løsning er allerede utplassert i Tel-Aviv (rangert på 25. plass i verdens mest overbelastede byer i 2020), med tusenvis av kameraer utplassert i hundrevis av veikryss kontrollert av trafikklys. ITCs system administrerer for tiden 75 XNUMX kjøretøyer, som forventes å fortsette å vokse. Selskapet installerer en lignende evne i Luxembourg og starter forsøk i store amerikanske byer. Globalt administrerer løsningen 300,000 XNUMX kjøretøy med driftssteder i Israel, USA, Brasil og Australia. Dvir Kenig, CTO, er lidenskapelig opptatt av å løse dette problemet – å gi folk tilbake personlig tid, redusere klimagasser, øke den generelle produktiviteten og viktigst av alt, redusere ulykker i trafikkerte veikryss. Ifølge Mr. Kenig, "Våre utplasseringer viser en 30% reduksjon i trafikkork, reduserer uproduktiv kjøretid, stress, drivstofforbruk og forurensning."

ANNONSE

Innendørs robotikk var grunnlagt i 2018 og nylig samlet inn 18 millioner dollar i finansiering. Selskapet, basert i nærheten av Tel-Aviv, Israel, utvikler og selger autonome droneløsninger for innendørs sikkerhet, sikkerhet og vedlikeholdsovervåking. Administrerende direktør og medgründer, Doron Ben-David, har betydelig erfaring med robotikk og luftfart samlet ved IAIIAI
(en stor forsvarets hovedentreprenør) og MAFAT (en avansert forskningsorganisasjon innenfor det israelske forsvarsdepartementet), som ligner på DARPA i USA. De økende investeringene i smarte bygninger og kommersielle sikkerhetsmarkeder øker behovet for autonome systemer som kan bruke datasyn og andre sensoriske innganger i små og store indre kommersielle rom (kontorer, datasentre, varehus og butikklokaler). Indoor Robotics retter seg mot dette markedet ved å bruke innendørs droner utstyrt med hyllekameraer og termiske og infrarøde rekkeviddesensorer.

Ofir Bar-Levav er Chief Business Officer. Han forklarer at mangelen på GPS har hindret innendørsdroner i å lokalisere seg inne i bygninger (typisk GPS-nektet eller unøyaktig). I tillegg manglet praktiske og effektive dokking- og strømløsninger. Indoor Robotics løser dette med fire dronemonterte kameraer (øverst, ned, venstre, høyre) og enkle rekkeviddesensorer som nøyaktig kartlegger et innendørsrom og innholdet. Kameradataene (kameraer gir lokaliserings- og kartdata) og termiske sensorer (også montert på dronen) analyseres av et AI-system for å oppdage potensielle sikkerhets-, sikkerhets- og vedlikeholdsproblemer og advare kunden. Dronene driver seg selv gjennom en takmontert "dokkingflis", som sparer verdifull gulvplass og tillater datainnsamling under lading. De økonomiske fordelene ved å automatisere disse verdslige prosessene der menneskelig arbeidskraft er kompleks og kostbar når det gjelder rekruttering, oppbevaring og opplæring, er åpenbare. Bruk av luftdroner kontra bakkebaserte roboter har også betydelige fordeler i form av kapital- og driftskostnader, bedre utnyttelse av gulvplass, frihet til å bevege seg uten å møte hindringer og effektivitet av kameradatafangst. I følge Mr. Bar-Levav vil Indoor Robotics' TAM (Total Addressable Market) i innendørs intelligente sikkerhetssystemer være $80B innen 2026. Sentrale kundesteder i dag inkluderer varehus, datasentre og kontorcampuser til ledende globale selskaper.

ANNONSE


Datasyn revolusjonerer autonomispillet – innen bevegelsesautomatisering, sikkerhet, smart bygningsovervåking, svindeldeteksjon og trafikkstyring. Kraften til halvledere og AI er kraftige muliggjørere. Når datamaskiner mestrer denne utrolige sensoriske modaliteten på en skalerbar måte, er mulighetene uendelige.

Kilde: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/