Vil fremtiden for internettet være tale? Verdensomspændende talenetværksforslag

World Wide Web (WWW) og webbrowseren er kommet ind i vores liv og revolutioneret, hvordan vi får adgang til information og underholdning, hvordan vi kommunikerer, og hvordan vi driver forretning.

Ved at bruge nye værktøjer, der gør det nemmere og billigere at udvikle taleagenter, foreslår Stanford-forskere nu oprettelsen af ​​World Wide Voice Web (WWvW), en ny version af World Wide Web, som folk kan navigere fuldt ud. ved hjælp af stemmen.

Omkring 90 millioner amerikanere bruger allerede smarthøjttalere til at streame musik og nyheder samt udføre opgaver som at bestille dagligvarer, planlægge møder og styre lys. Men to virksomheder kontrollerer primært disse stemmenetværks-stemmegateways, i det mindste i USA – Amazon, som først udviklede Alexa; og Google, som udviklede Google Assistant. I det væsentlige er begge tjenester befæstede haver. Disse oligopoler skaber store forskelle, der gør det muligt for teknologiejere at favorisere deres egne produkter frem for konkurrerende virksomheders. De kontrollerer, hvilket indhold der stilles til rådighed, og hvor meget de tager for at fungere som mellemled mellem virksomheder og deres kunder. Oven i det udgør deres proprietære smarthøjttalere en privatlivsrisiko, fordi de aflytte samtaler mens de er forbundet.

Stanford-team ledet af en professor i datalogi Monica Lam i Stanford Open Virtual Assistant Lab (OVAL) har udviklet den privatlivsbevarende open source Genie virtuelle assistent og omkostningseffektive taleagentudviklingsværktøjer, der kan tilbyde et alternativ til proprietære platforme. Den 10. november afholdt forskerne også en workshop, hvor de diskuterede deres arbejde og foreslog designet af World Voice Network (se nedenfor). komplet arrangement).

Hvad er WWW?

Ligesom World Wide Web er det nye WWvW decentraliseret. Organisationer offentliggør oplysninger om deres stemmeagenter på deres websteder, tilgængelige for enhver virtuel assistent. I WWvW, siger Lam, er stemmeagenter som websider, der giver information om deres tjenester og applikationer, mens den virtuelle assistent er en browser. Disse stemmeagenter kan også gøres tilgængelige som chatbots eller callcenter-agenter, hvilket gør dem tilgængelige på en computer eller over telefonen.

“WWvW kan nå ud til endnu flere mennesker end WWW, inklusive dem, der ikke er teknologikyndige, dem, der ikke læser og skriver godt, eller måske ikke engang taler det skrevne sprog,” siger Lam. For eksempel Stanford University Associate Professor of Computer Science Chris Peach med kandidatstuderende Moussa Dumbua og Lisa Einstein, arbejder på at udvikle stemmeteknologier til tre afrikanske sprog dette kunne bidrage til at bygge bro mellem analfabetisme og adgang til værdifulde ressourcer, herunder landbrugsinformation og sundhedspleje. “I modsætning til det kommercielle talenetværk ledet af Amazon og Google, som kun er tilgængeligt på visse markeder og sprog, giver det decentraliserede WWvW samfundet mulighed for at levere taleinformation og tjenester på ethvert sprog og til enhver brug, herunder uddannelse og andre humanitære formål, som store kontante afkast,” siger Lam.

Hvorfor blev disse værktøjer ikke skabt tidligere? Stanford-teamet siger: “Det er bare meget svært at bygge stemmeteknologi. Amazon og Google har investeret enorme summer af penge og ressourcer i at levere AI naturlige sprogbehandlingsteknologier til deres respektive assistenter og har ansat tusindvis af mennesker til at kommentere træningsdataene. “Teknologiudviklingsprocessen har været dyr og ekstremt tidskrævende, hvilket har skabt en enorm adgangsbarriere for dem, der forsøger at tilbyde kommercielle intelligente stemmeassistenter,” siger Lam.

Frigivelse af ånden

I de sidste seks år har Lam arbejdet med Stanford University-studerende Giovanni Campagna, en professor i datalogi. James Landaysåvel som Christopher Manning, professor i datalogi og lingvistik, ved OVAL for at udvikle en ny metode til at udvikle stemmeagenter, der er to størrelsesordener mere effektiv med hensyn til sampling end eksisterende løsninger. Genie-foruddannede agentgeneratoren med åben kildekode, de skabte, giver betydelige omkostnings- og ressourcebesparelser ved udvikling af taleagenter på flere sprog.

Lam påpeger, at interoperabilitet er en nøglekomponent for at sikre, at enheder problemfrit kan interagere med hinanden. Genies teknologi er baseret på et distribueret programmeringssprog, de har skabt til virtuelle assistenter, kaldet ThingTalk. Det muliggør interaktion mellem flere virtuelle assistenter, webtjenester og IoT-enheder. Stanford tilbyder i øjeblikket det første kursus i ThingTalk. Virtuelle samtaleassistenter ved hjælp af dyb læringdette efterår.

Til dato har Genie foruddannede agenter til de mest populære stemmefærdigheder såsom musikafspilning, podcasts, nyheder, restaurantanbefalinger, påmindelser og timere og understøttelse af over 700 IoT-enheder. Disse agenter er i det offentlige domæne og kan anvendes til andre lignende tjenester.

World Voice Web Conference

OVAL-teamet præsenterede disse koncepter kl seminar dedikeret til det verdensomspændende stemmenetværk nov. ti.

Konferencen samlede talere fra den akademiske verden og industrien med ekspertise i maskinlæring, naturlig sprogbehandling, computer-til-menneske interaktion og IoT-enheder, og paneldeltagere diskuterede opbygning af et stemmeøkosystem, forudtrænede agenter og den sociale værdi af en stemme netværk. Stanford-holdet var også vært for en live demo af Genie.

“Vi ønsker, at andre mennesker slutter sig til os i opbygningen af ​​det verdensomspændende stemmenetværk,” siger Lam, som også er fakultetsmedlem ved Stanford University. Institut for Menneskeorienteret Kunstig Intelligens. “Det oprindelige World Wide Web voksede langsomt i starten, men da det først slog rod, var det ustoppeligt. Vi håber at se det samme med World Wide Voice Web.”

Genie er et igangværende forskningsprojekt finansieret af National Science Foundation, Alfred P. Sloan Foundation, Verdant Foundation og Stanford HAI.

Add Comment