Die aantal toepassings en die belangrikheid van stemkoppelvlakke groei vinnig

inhoud

groot vier
Amerikaners wil koop
Was, bak, maak skoon!
Ou konsep. Het haar tyd uiteindelik aangebreek?
Tegnies moeilike vraag
Stem? Grafiese kuns? Of dalk albei?
Bly veilig!

’n Amerikaanse gesin in Portland, Oregon het onlangs verneem dat die stemassistent Alexa hul private geselsies opgeneem het en dit na ’n vriend gestuur het. Die eienaar van die huis, met die bynaam Danielle deur die media, het aan verslaggewers gesê dat sy "nooit weer hierdie toestel sal koppel nie omdat sy nie vertrou kan word nie."

Alexa, verskaf deur Echo-luidsprekers (1) en ander toerusting in tienmiljoene Amerikaanse huise, begin opneem nadat sy die naam of "roepwoord" gehoor het wat deur die gebruiker gepraat word. Dit beteken dat selfs al word die woord "Alexa" in 'n TV-advertensie genoem, die toestel kan begin opneem. Dit is presies wat in hierdie geval gebeur het, sê die hardeware-verspreider Amazon.

"Die res van die gesprek is deur die stemassistent geïnterpreteer as 'n opdrag om 'n boodskap te stuur," het die maatskappy in 'n verklaring gesê. "Op 'n stadium het Alexa hard gevra: 'Wie?' Die voortsetting van ’n gesinsgesprek oor hardehoutvloere moes deur die masjien as ’n item op die kliënt se kontaklys beskou gewees het.” Dit is ten minste wat Amazon dink. Dus kom vertaling neer op 'n reeks ongelukke.

Die angs bly egter. Want om een of ander rede, in 'n huis waar ons nog op ons gemak gevoel het, moet ons 'n soort "stemmodus" instel, kyk wat ons sê, wat die TV uitsaai en natuurlik wat hierdie nuwe luidspreker op die bors van laaities sê . ons.

nietemin, Ten spyte van onvolmaakte tegnologie en kommer oor privaatheid, met die groeiende gewildheid van toestelle soos die Amazon Echo, begin mense gewoond raak aan die idee van interaksie met rekenaars deur hul stem te gebruik..

Soos Werner Vogels, Amazon se CTO, tydens sy AWS re:Invent-sessie aan die einde van 2017 opgemerk het, het tegnologie tot nou toe die manier waarop ons met rekenaars kan omgaan, beperk. Ons tik sleutelwoorde in Google met die sleutelbord, aangesien dit steeds die algemeenste en maklikste manier is om inligting in 'n masjien in te voer.

Vogels gesê. –

groot vier

Toe ons die Google-soekenjin op die foon gebruik het, het ons waarskynlik lank gelede 'n mikrofoonteken daar opgemerk met 'n uitnodiging om te praat. Hierdie Google nou (2), waarmee jy 'n soeknavraag kan dikteer, 'n boodskap per stem kan invoer, ens. In onlangse jare het Google, Apple en Amazon baie verbeter stemherkenningstegnologieë. Stemassistente soos Alexa, Siri en Google Assistant neem nie net jou stem op nie, maar verstaan ook wat jy vir hulle sê en beantwoord vrae.

Google Nou is gratis beskikbaar vir alle Android-gebruikers. Die toepassing kan byvoorbeeld 'n alarm stel, die weervoorspelling en roetes op Google maps nagaan. Google Nou Gesprekstaat Uitbreiding Google Assistant() – virtuele bystand aan die toerustinggebruiker. Dit is hoofsaaklik op mobiele en slimhuistoestelle beskikbaar. Anders as Google Now, kan dit in tweerigtingkommunikasie betrokke raak. Die assistent het in Mei 2016 debuteer as deel van Google se Allo-boodskaptoepassing, sowel as die Google Home-stemluidspreker (3).

3. Google Tuisblad

IOS het ook sy eie virtuele assistent, Siri, dit wil sê 'n program wat by die Apple-bedryfstelsels ingesluit is - iOS, watchOS, tvOS homepod en macOS. Siri debuteer met iOS 5 en die iPhone 4s in Oktober 2011 by die Let's Talk iPhone-konferensie.

Die sagteware is gebaseer op 'n gesprekskoppelvlak: dit herken die gebruiker se natuurlike spraak (met iOS 11 is dit ook moontlik om opdragte met die hand in te voer), beantwoord vrae en voltooi take. Danksy die bekendstelling van masjienleer, 'n assistent oor tyd ontleed persoonlike voorkeure aan die gebruiker om meer relevante resultate en aanbevelings te verskaf. Siri vereis 'n konstante internetverbinding - die hoofbronne van inligting hier is Bing en Wolfram Alpha. iOS 10 stel ondersteuning vir derdeparty-uitbreidings bekend.

Nog een van die groot vier Cortana. Dit is 'n intelligente persoonlike assistent wat deur Microsoft geskep is. Dit word ondersteun op Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android en iOS-platforms. Cortana is die eerste keer by die Microsoft Build Developer-konferensie in April 2014 in San Francisco bekendgestel. Die naam van die program kom van die naam van 'n karakter uit die Halo-reeks speletjies. Cortana is beskikbaar in Engels, Italiaans, Spaans, Frans, Duits, Chinees en Japannees.

Gebruikers van die reeds genoemde program Alexa hulle moet ook taalbeperkings oorweeg—die digitale assistent praat net Engels, Duits, Frans en Japannees.

Amazon se virtuele assistent is die eerste keer gebruik in die Amazon Echo- en Amazon Echo Dot-slimluidsprekers wat deur Amazon Lab126 ontwikkel is. Dit bied steminteraksie, musiekweergawe, skep van doenlyste, stel alarms, stroom poduitsendings, speel oudioboeke, en verskaf intydse inligting oor weer, verkeer, sport en ander nuusinligting soos nuus (4). Alexa kan verskeie slimtoestelle beheer om 'n tuisoutomatiseringstelsel te skep. Dit kan ook gebruik word om gerieflike aankope by Amazon te maak.

4. Waarom gebruikers Echo gebruik (volgens navorsing)

Gebruikers kan Alexa se vermoëns verbeter deur Alexa "vaardighede" te installeer, bykomende kenmerke wat ontwikkel is deur derde partye wat meer algemeen na verwys word as toepassings, soos weer- en oudio-toepassings in ander instellings. Die meeste Alexa-toestelle laat jou toe om die virtuele assistent te aktiveer met 'n wakkerwagwoord, wat 'n wakkerwagwoord genoem word.

Amazon oorheers duidelik die slimluidsprekermark vandag (5). IBM, wat die nuwe diens in Maart 2018 bekend gestel het, probeer om die top vier te betree, Watson se assistent, ontwerp vir maatskappye wat self stembeheerde virtuele assistentstelsels wil skep. Wat is die voordeel van die IBM-oplossing? Volgens maatskappyverteenwoordigers, eerstens, oor baie groter geleenthede vir verpersoonliking en privaatheidbeskerming.

Eerstens, Watson Assistant het nie 'n opgelegde handelsmerk nie. Maatskappye kan hul eie oplossings op hierdie platform skep en dit met hul eie handelsmerk merk.

Tweedens kan hulle hul ondersteunende stelsels oplei deur hul eie datastelle te gebruik, wat volgens IBM dit makliker maak om kenmerke en opdragte by daardie stelsel te voeg as ander VUI-tegnologie (stemgebruikerskoppelvlak).

Derdens voorsien Watson Assistant nie IBM van inligting oor gebruikersaktiwiteit nie – ontwikkelaars van oplossings op die platform kan waardevolle data net vir hulself hou. Intussen moet enigiemand wat toestelle bou met byvoorbeeld Alexa, oorweeg dat hul waardevolle data uiteindelik by Amazon sal beland.

Watson Assistant het reeds verskeie implementerings. Die stelsel is byvoorbeeld deur die Harman-maatskappy gebruik, wat ’n stemassistent vir die Maserati-konsepmotor (6) geskep het. By die lughawe in München, dryf 'n IBM-assistent die Pepper-robot aan om besoekers te help om rond te kom. Die derde voorbeeld is Chameleon Technologies, waar stemtegnologie in 'n slimhuismeter gebruik word.

6. Watson Assistent in Maserati konsepmotor

Dit is die moeite werd om by te voeg dat die onderliggende tegnologie hier ook nie nuut is nie. Watson Assistant bevat enkripsievermoëns vir bestaande IBM-produkte, Watson Conversation en Watson Virtual Agent, sowel as API's vir taalanalise en klets.

Amazon is nie net 'n leier in intelligente stemtegnologie nie, maar dit verander dit ook in 'n direkte besigheid. Sommige maatskappye het egter baie vroeër met Echo-integrasie geëksperimenteer. Sisense, 'n maatskappy in die BI- en analitiese gereedskapbedryf, het Echo-integrasie in Julie 2016 bekendgestel. Op sy beurt het die beginner Roxy besluit om sy eie stembeheerde sagteware en hardeware vir die gasvryheidsbedryf te skep. Vroeër vanjaar het Synqq 'n nota-toepassing bekendgestel wat stem- en natuurlike taalverwerking gebruik om notas en kalenderinskrywings by te voeg sonder om dit op 'n sleutelbord te hoef te tik.

Al hierdie klein besighede het hoë ambisies. Wat hulle egter die meeste geleer het, is dat nie elke gebruiker hul data aan Amazon, Google, Apple of Microsoft wil oorhandig nie, wat die belangrikste rolspelers is in die bou van stemkommunikasieplatforms.

Amerikaners wil koop

In 2016 het stemsoektog 20% van alle Google-selfoonsoektogte uitgemaak. Mense wat hierdie tegnologie op 'n daaglikse basis gebruik, noem die gerief en multitasking daarvan as die grootste voordele. (byvoorbeeld die vermoë om 'n soekenjin te gebruik terwyl jy 'n motor bestuur).

Visiongain-ontleders skat die huidige waarde van die slim digitale assistentmark op $1,138 miljard.Daar is al hoe meer sulke meganismes. Volgens Gartner, teen die einde van 2018 30% van ons interaksies met tegnologie sal dit wees deur gesprekke met stemstelsels.

Die Britse navorsingsfirma IHS Markit skat dat die KI (kunsmatige intelligensie) digitale assistentmark teen die einde van hierdie jaar 4 miljard toestelle sal bereik, en hierdie getal kan teen 2020 tot 7 miljard toeneem.

Volgens verslae van eMarketer en VoiceLabs het 2017 miljoen Amerikaners stembeheer minstens een keer per maand in 35,6 gebruik. Dit verteenwoordig 'n toename van byna 130% vergeleke met die vorige jaar. Die mark vir digitale assistente alleen sal na verwagting in '2018 met 23% groei. Dit beteken dat jy hulle reeds sal gebruik 60,5 miljoen Amerikaners, wat konkrete geld vir hul vervaardigers tot gevolg sal hê. RBC Capital Markets skat dat die Alexa-koppelvlak Amazon teen 2020 tot $10 miljard se inkomste sal bring.

Was, bak, maak skoon!

Stemkoppelvlakke betree toenemend die mark vir huishoudelike toestelle en verbruikerselektronika. Dit kon reeds gesien word tydens verlede jaar se IFA 2017-uitstalling. Die Amerikaanse maatskappy Neato Robotics het byvoorbeeld 'n robotstofsuier aangebied wat aan een van verskeie slimhuisplatforms gekoppel is, insluitend die Amazon Echo-stelsel. Deur met jou Echo-slimluidspreker te praat, kan jy die masjien opdrag gee om jou hele huis op spesifieke tye van die dag of nag skoon te maak.

Ander stembeheerde produkte wat uitgestal is, het gewissel van slim-TV's wat onder die Toshiba-handelsmerk deur Turkye se Vestel verkoop is tot verhitte komberse van Duitsland se Beurer. Baie van hierdie elektroniese toestelle kan ook op afstand met slimfone geaktiveer word.

Volgens Bosch-verteenwoordigers is dit egter te vroeg om te sê watter tuisassistent-opsie dominant sal word. Die Duitse tegnologiegroep het by IFA 2017 wasmasjiene (7), oonde en koffiemasjiene gedemonstreer wat aan Echo koppel. Bosch wil ook graag hê dat sy toestelle in die toekoms met Google en Apple se stemplatforms versoenbaar moet wees.

7. Bosch wasmasjien wat aan Amazon Echo koppel

Maatskappye soos Fujitsu, Sony en Panasonic ontwikkel hul eie KI-aangedrewe stemassistent-oplossings. Sharp voeg hierdie tegnologie by oonde en klein robotte wat op die mark kom. Nippon Telegraph & Telephone huur hardeware- en speelgoedvervaardigers om 'n stembeheerde kunsmatige intelligensiestelsel aan te pas.

Ou konsep. Het haar tyd uiteindelik aangebreek?

Trouens, die konsep van Voice User Interface (VUI) bestaan al dekades lank. Enigiemand wat baie jare gelede Star Trek of 2001: A Space Odyssey gekyk het, het waarskynlik verwag dat, rondom die jaar 2000, ons almal rekenaars met ons stemme sou beheer. Boonop was dit nie net wetenskapfiksie-outeurs wat die potensiaal van hierdie tipe koppelvlak raakgesien het nie. In 1986 het Nielsen-navorsers IT-professionele mense gevra wat hulle dink die grootste verandering in gebruikerskoppelvlakke teen die jaar 2000 sou wees. Hulle het meestal gewys op die ontwikkeling van stemkoppelvlakke.

Daar is redes om op so 'n oplossing te hoop. Verbale kommunikasie is immers die mees natuurlike manier vir mense om bewustelik gedagtes uit te ruil, so die gebruik daarvan vir mens-masjien-interaksie lyk vir eers na die beste oplossing.

Een van die eerste VUI's genoem skoenboks, is in die vroeë 60's deur IBM geskep. Dit was die voorloper van vandag se stemherkenningstelsels. Die ontwikkeling van VUI-toestelle is egter beperk deur die grense van rekenaarkrag. Om menslike spraak in reële tyd te ontleed en te interpreteer, verg baie moeite, en dit het meer as vyftig jaar geneem om by die punt te kom waar dit werklik moontlik was.

Toestelle met stemkoppelvlakke het in die middel van die 90's in massaproduksie begin verskyn, maar het nie gewild geword nie. Die eerste telefoon met stembeheer (skakelaar) vermoë was Philips Spark, vrygestel in 1996. Hierdie innoverende en maklik-om-te-gebruik toestel was egter nie vry van tegnologiese beperkings nie.

Ander fone wat toegerus is met vorme van stemkoppelvlak (geskep deur maatskappye soos RIM, Samsung of Motorola) het gereeld op die mark verskyn, wat gebruikers in staat stel om 'n nommer te stemskakel of teksboodskappe te stuur. Almal van hulle het egter vereis om spesifieke opdragte te memoriseer en dit in 'n gedwonge, kunsmatige vorm uit te spreek, aangepas by die vermoëns van die toestelle van daardie tyd. Dit het 'n groot aantal foute gegenereer, wat op sy beurt tot gebruikersontevredenheid gelei het.

Ons betree egter nou 'n nuwe era van rekenaar, waarin vooruitgang in masjienleer en kunsmatige intelligensie die potensiaal van gesprek oopmaak as 'n nuwe manier om met tegnologie te kommunikeer (8). Die aantal toestelle wat steminteraksie ondersteun, het 'n belangrike faktor geword wat 'n groot impak op die ontwikkeling van VUI gehad het. Vandag besit byna 1/3 van die wêreld se bevolking reeds slimfone wat vir hierdie tipe gedrag gebruik kan word. Dit lyk asof die meeste gebruikers uiteindelik gereed is om hul stemkoppelvlakke aan te pas.

8. Moderne geskiedenis van die ontwikkeling van stem-koppelvlak

Voordat ons egter vrylik met 'n rekenaar kan praat, soos die karakters in A Space Odyssey gedoen het, moet ons 'n aantal probleme oorkom. Masjiene is steeds nie baie goed om taalnuanses te hanteer nie. Buitendien baie mense voel steeds ongemaklik om stemopdragte aan 'n soekenjin te gee.

Statistieke toon dat stemassistente hoofsaaklik by die huis of tussen goeie vriende gebruik word. Nie een van die respondente het erken dat hulle stemsoektog in openbare plekke gebruik nie. Hierdie blokkade sal egter waarskynlik verdwyn met die verspreiding van hierdie tegnologie.

Tegnies moeilike vraag

Die probleem waarmee (ASR)-stelsels te kampe het, is om nuttige data uit 'n spraaksein te onttrek en dit te assosieer met 'n spesifieke woord wat 'n spesifieke betekenis vir 'n persoon het. Die klanke wat uitgespreek word, is elke keer anders.

Spraakseinveranderlikheid is sy natuurlike eienskap, waardeur ons byvoorbeeld aksent of intonasie herken. Elke element van die spraakherkenningstelsel het 'n spesifieke taak. Op grond van die verwerkte sein en sy parameters word 'n akoestiese model geskep wat met die taalmodel geassosieer word. Die herkenningstelsel kan op grond van 'n klein of groot aantal patrone werk, wat die grootte van die woordeboek waarmee dit werk, bepaal. Hulle kan wees klein woordeboeke in die geval van sisteme wat individuele woorde of opdragte herken, asook groot databasisse wat die ekwivalent van 'n taalstel bevat en met inagneming van die taalmodel (grammatika).

Die uitdagings wat stemkoppelvlakke in die gesig staar, is hoofsaaklik spraak korrek verstaan, waarin byvoorbeeld hele grammatikale rye dikwels weggelaat word, is daar linguistiese en fonetiese foute, foute, weglatings, spraakgebreke, homonieme, ongeregverdigde herhalings, ens. Al hierdie ACP-stelsels moet vinnig en betroubaar werk. Dit is ten minste die verwagting.

'n Bron van moeilikheid kom ook van ander akoestiese seine as die spraak wat herken word wat die herkenningstelsel se insette binnegaan, d.w.s. alle soorte inmenging en geraas. In die eenvoudigste geval het jy hulle nodig uitfilter. Hierdie taak lyk roetine en maklik - verskeie seine word immers gefiltreer en elke elektroniese ingenieur weet wat om in so 'n situasie te doen. Dit moet egter baie versigtig en versigtig gedoen word as die spraakherkenningsresultaat aan ons verwagtinge moet voldoen.

Die filtering wat tans gebruik word, maak dit moontlik om, saam met die spraaksein, die eksterne geraas wat deur die mikrofoon opgetel word en die interne eienskappe van die spraaksein self te verwyder, wat dit moeilik maak om te herken. 'n Baie meer komplekse tegniese probleem ontstaan egter wanneer die inmenging van die geanaliseerde spraaksein ... 'n ander spraaksein is, dit is byvoorbeeld harde besprekings rondom. Hierdie vraag staan in die literatuur bekend as die sg. Dit vereis reeds die gebruik van komplekse metodes, die sg. dekonvolusie (ontrafel) die sein.

Die probleme met spraakherkenning eindig nie daar nie. Dit is die moeite werd om te besef dat spraak baie verskillende tipes inligting bevat. Die menslike stem suggereer die geslag, ouderdom, verskillende karakters van die eienaar of sy gesondheidstoestand. Daar is 'n groot tak van biomediese ingenieurswese wat toegewy is aan die diagnose van verskeie siektes gebaseer op die kenmerkende akoestiese verskynsels wat in die spraaksein gevind word.

Daar is ook toepassings waar die hoofdoel van akoestiese ontleding van 'n spraaksein is om die spreker te identifiseer of te verifieer dat hy is wie hy sê hy is (stem in plaas van 'n sleutel, wagwoord of PUK-kode). Dit kan belangrik wees, veral vir slimboutegnologieë.

Die eerste komponent van 'n spraakherkenningstelsel is mikrofoon. Die sein wat deur die mikrofoon opgeneem word, bly egter gewoonlik van min nut. Navorsing toon dat die vorm en verloop van die klankgolf baie verskil na gelang van die persoon, die spoed van spraak, en deels die bui van die gespreksgenoot - terwyl dit in 'n klein mate die inhoud van die gesproke opdragte weerspieël.

Daarom moet die sein korrek verwerk word. Moderne akoestiek, fonetiek en rekenaarwetenskap bied saam 'n ryk stel gereedskap wat gebruik kan word om spraakseine te verwerk, te ontleed, te herken en te verstaan. Die dinamiese spektrum van die sein, die sg dinamiese spektrogramme. Hulle is redelik maklik om te verkry, en spraak, aangebied in die vorm van 'n dinamiese spektrogram, is relatief maklik om te herken deur tegnieke soortgelyk aan dié wat in beeldherkenning gebruik word.

Eenvoudige elemente van spraak (byvoorbeeld opdragte) kan herken word aan die eenvoudige ooreenkoms van hele spektrogramme. Byvoorbeeld, 'n stemgeaktiveerde selfoonwoordeboek bevat slegs 'n paar dosyn tot 'n paar honderd woorde en frases, gewoonlik vooraf gelê sodat hulle maklik en doeltreffend geïdentifiseer kan word. Dit is voldoende vir eenvoudige beheertake, maar dit beperk die algehele toepassing ernstig. Stelsels wat volgens die skema gebou is, ondersteun as 'n reël net spesifieke sprekers waarvoor die stemme spesiaal opgelei is. As daar dus iemand nuut is wat hul stem wil gebruik om die stelsel te beheer, sal hulle heel waarskynlik nie aanvaar word nie.

Die resultaat van hierdie operasie word genoem spektrogram 2-W, dit wil sê 'n tweedimensionele spektrum. Daar is nog een les in hierdie blok wat die moeite werd is om aandag aan te gee - segmentering. Oor die algemeen praat ons daarvan om 'n deurlopende spraaksein op te breek in dele wat individueel herken kan word. Slegs hierdie individuele diagnoses maak die erkenning van die geheel uit. Hierdie prosedure is nodig omdat dit onmoontlik is om lang en komplekse spraak in een slag te identifiseer. Hele volumes is reeds geskryf oor watter segmente in 'n spraaksein onderskei moet word, so ons sal nie nou besluit of die segmente wat onderskei moet word, foneme (klankekwivalente), lettergrepe, of dalk allofone moet wees nie.

Die outomatiese herkenningsproses verwys altyd na sekere kenmerke van voorwerpe. Honderde verskillende parameterstelle is getoets vir die spraaksein. Die spraaksein het verdeel in erkende rame en het geselekteerde funksieswaardeur hierdie rame in die herkenningsproses verteenwoordig word, kan ons uitvoer (vir elke raam afsonderlik) klassifikasie, d.w.s. 'n identifiseerder aan die raam toe te ken wat dit in die toekoms sal verteenwoordig.

Volgende stadium rame saam te stel in aparte woorde – meestal gebaseer op die sg model van implisiete Markov-modelle (IMM-). Dan kom 'n mondering van woorde volledige sinne.

Nou kan ons vir 'n oomblik terugkeer na die Alexa-stelsel. Sy voorbeeld toon 'n multi-stadium proses van masjien "verstaan" van 'n persoon - meer presies: die opdrag wat hy gee of die vraag wat gevra word.

Om woorde te verstaan, betekenis te verstaan en gebruikersvoorneme te verstaan is heeltemal verskillende dinge.

Daarom is die volgende stap die werk van die NLP-module (), waarvan die taak is gebruikersbedoelingsherkenning, d.w.s. die betekenis van die opdrag/vraag in die konteks waarin dit gespreek is. As die bedoeling geïdentifiseer word, moet jy toewysing van sogenaamde vaardighede en vermoëns, dit wil sê 'n spesifieke funksie wat deur die intelligente assistent ondersteun word. In die geval van 'n vraag oor die weer, word weerdatabronne opgeroep, wat nog in spraak verwerk moet word (TTS - meganisme). Gevolglik hoor die gebruiker die antwoord op die vraag wat gevra word.

Stem? Grafiese kuns? Of dalk albei?

Mees bekende moderne interaksie stelsels is gebaseer op 'n tussenganger genoem grafiese gebruikerskoppelvlak (grafiese koppelvlak). Ongelukkig is 'n grafiese koppelvlak nie die mees voor die hand liggende manier om met 'n digitale produk te kommunikeer nie. Dit vereis van gebruikers om eers te leer hoe om die koppelvlak te gebruik en hierdie inligting met elke daaropvolgende interaksie te onthou. In baie situasies is stem baie geriefliker omdat interaksie met die VUI so maklik is soos om met die toestel te praat. 'n Koppelvlak wat gebruikers nie dwing om spesifieke opdragte of interaksiemetodes te memoriseer en te memoriseer nie, veroorsaak minder probleme.

Natuurlik beteken die uitbreiding van VUI nie die laat vaar van meer tradisionele koppelvlakke nie - eerder sal hibriede koppelvlakke wat verskeie metodes van interaksie kombineer beskikbaar wees.

Die stemkoppelvlak is nie geskik vir alle take in 'n mobiele konteks nie. Daarmee sal ons 'n vriend bel terwyl ons 'n motor bestuur, en selfs vir hom 'n SMS stuur, maar dit kan te moeilik wees om die jongste oordragte na te gaan - as gevolg van die hoeveelheid inligting wat na die stelsel () oorgedra word en deur die stelsel (stelsel) gegenereer word. . Soos Rachel Hinman in haar boek Mobile Frontier voorstel, is die gebruik van VUI die doeltreffendste wanneer take uitgevoer word waar die hoeveelheid invoer- en uitvoerinligting klein is.

’n Slimfoon wat aan die internet gekoppel is, is gerieflik maar ook ongerieflik (9). Elke keer as 'n gebruiker iets wil koop of 'n nuwe diens wil gebruik, moet hy 'n ander toepassing aflaai en 'n nuwe rekening skep. 'n Veld is hier geskep vir die gebruik en ontwikkeling van stemkoppelvlakke. In plaas daarvan om gebruikers te dwing om baie verskillende toepassings te installeer of aparte rekeninge vir elke diens te skep, sal VUI die las van hierdie moeilike take na 'n KI-geaktiveerde stemassistent verskuif, sê kenners. Dit sal vir hom gerieflik wees om strawwe aktiwiteite uit te voer. Ons sal hom net bevele gee.

9. Stemkoppelvlak met 'n slimfoon

Deesdae is meer as net jou foon en rekenaar aan die internet gekoppel. Slim termostate, ligte, ketels en baie ander IoT-geïntegreerde toestelle is ook aan die netwerk gekoppel (10). So, daar is draadloos gekoppelde toestelle oral om ons wat ons lewens vul, maar nie almal pas natuurlik in 'n grafiese gebruikerskoppelvlak nie. Die gebruik van VUI sal jou help om hulle maklik in ons omgewing te integreer.

10. Stemkoppelvlak met Internet van Dinge

Die skep van 'n stemgebaseerde gebruikerskoppelvlak sal binnekort 'n sleutelvaardigheid vir ontwerpers word. Dit is 'n werklike uitdaging - die behoefte om stemstelsels te implementeer sal jou dwing om meer te fokus op proaktiewe ontwerp, dit wil sê om die gebruiker se oorspronklike bedoelings te probeer verstaan, om hul behoeftes en verwagtinge in elke stadium van die gesprek te antisipeer.

Stem is 'n effektiewe manier om data in te voer - dit stel gebruikers in staat om vinnig opdragte aan die stelsel uit te reik op hul eie voorwaardes. Aan die ander kant bied die skerm 'n doeltreffende manier om inligting te vertoon: dit laat stelsels toe om 'n groot hoeveelheid inligting gelyktydig te vertoon, wat die las op gebruikers se geheue verminder. Dit is logies dat dit bemoedigend klink om hulle in een stelsel te kombineer.

Slimluidsprekers soos Amazon Echo en Google Home bied glad nie visuele vertoning nie. Deur die akkuraatheid van stemherkenning oor matige afstande aansienlik te verbeter, maak hulle handvrye werking moontlik, wat op sy beurt hul buigsaamheid en doeltreffendheid verhoog - wenslik selfs vir gebruikers wat reeds stemgeaktiveerde slimfone het. Die gebrek aan 'n skerm is egter 'n groot beperking.

Slegs pieptone kan gebruik word om gebruikers van moontlike opdragte in te lig, en om die uitvoer hardop te lees, word vervelig behalwe vir die eenvoudigste take. Dit is wonderlik om 'n timer via stemopdrag in te stel terwyl jy kook, maar dit is nie nodig om jou te laat vra hoeveel tyd oor is nie. Om 'n gereelde weervoorspelling te ontvang, word 'n geheuetoets vir die gebruiker, wat die hele week moet spandeer om 'n reeks feite te luister en te verteer eerder as om dit in 'n oogopslag van die skerm af te haal.

Ontwerpers het reeds ontwikkel hibriede oplossing, Echo Show (11), wat 'n vertoonskerm by die basiese Echo-slimluidspreker gevoeg het. Dit vergroot die funksionaliteit van die toerusting aansienlik. Die Echo Show is egter steeds baie minder in staat om die basiese funksies uit te voer wat lank reeds op slimfone en tablette beskikbaar is. Dit kan (nog) nie byvoorbeeld op die web blaai, resensies wys of die inhoud van jou Amazon-inkopiemandjie vertoon nie.

Visuele vertoon is inherent 'n meer effektiewe manier om mense van baie inligting as net klank te voorsien. Stem-eerste-ontwerp kan steminteraksie grootliks verbeter, maar op die lang termyn sal die arbitrêre nie gebruik van visuele spyskaarte ter wille van interaksie wees soos om te sukkel met een hand agter jou rug vasgebind. As gevolg van die dreigende kompleksiteit van end-tot-end intelligente stem- en vertoonkoppelvlakke, moet ontwikkelaars 'n hibriede benadering tot koppelvlakke ernstig oorweeg.

Die verhoging van die doeltreffendheid en spoed van spraakgenerering en -herkenningstelsels het dit moontlik gemaak om dit te gebruik in toepassings en gebiede soos byvoorbeeld:

• militêre (stembevele in vliegtuie of helikopters, byvoorbeeld F16 VISTA),

• outomatiese tekstranskripsie (spraak na teks),

• interaktiewe inligtingstelsels (Prime-Speech, stemportale),

• mobiele toestelle (fone, slimfone, tablette),

• robotika (Cleverbot – ASR-stelsels gekombineer met kunsmatige intelligensie),

• motor (handvrye beheer van motorkomponente, byvoorbeeld Blue & Me),

• tuistoepassings (slimhuisstelsels).

Bly veilig!

Motors, toestelle, verhitting/verkoeling en huissekuriteitstelsels, en baie huishoudelike toestelle begin stemkoppelvlakke gebruik, wat dikwels deur KI aangedryf word. Op hierdie stadium word data wat verkry is uit miljoene gesprekke met masjiene gestuur na rekenaarwolke. Dit is duidelik dat bemarkers daarin belangstel. En nie net hulle nie.

’n Onlangse verslag van Symantec-sekuriteitskenners beveel aan dat stemopdraggebruikers nie sekuriteitskenmerke soos deurslotte moet beheer nie, wat nog te sê van tuissekuriteitstelsels. Dieselfde geld vir die stoor van wagwoorde of vertroulike inligting. Die veiligheid van kunsmatige intelligensie en slim produkte is nog nie voldoende bestudeer nie.

Wanneer toestelle regdeur die huis na elke woord luister, word die risiko van inbraak en stelselmisbruik 'n uiters belangrike bekommernis. As 'n aanvaller toegang tot die plaaslike netwerk of geassosieerde e-posadresse kry, kan die slimtoestel se instellings verander of na fabrieksinstellings teruggestel word, wat lei tot die verlies van waardevolle inligting en die uitvee van gebruikersgeskiedenis.

Met ander woorde, sekuriteitskenners vrees dat stembeheerde en VUI-beheerde KI nog nie slim genoeg is om ons teen potensiële bedreigings te beskerm en ons monde toe te hou wanneer 'n vreemdeling iets vra nie.