Ako vhodne prispôsobiť weby a aplikácie nárastu hlasového vyhľadávania? Poskytneme možnosť riešiť bežné situácie rozhovorom a tiež upravíme weby, aby reagovali na vzostup otázok. Hlasových asistentov budú používatelia využívať len vtedy, ak bude ich skúsenosť s nimi pozítívna.
Čo musí dnes vedieť hlasový asistent?
Hlasový asistent je zväčša iba “hlúpym” klientom, ktorý slúži na prijatie (odpočutie) a odovzdanie (syntetizáciu) reči. Tá inteligentná časť beží v cloude, s ktorým je spojený. Bez neho zvyčajne dokáže reagovať iba na drobné otázky.
Ako presne funguje taký hlasový asistent?
Hlasový asistent musí dokázať reč tokenizovať a spracovať (lexická analýza). Základom je jeho schopnosť rozoznať medzery medzi slovami (ticho alebo zmenu intonácie). Následne musí jednotlivým slovám priradiť význam, resp. postavenie vo vete – či ide o dôležitý údaj pre spracovanie alebo len pomocné slovo, ktoré môže ignorovať.
Pre lepšiu predstavu si ukážme takýto príklad:
Prirodzená reč: „Na zajtra mi urob poznámku o stretnutí s Vladom P. na bicykli pri Dunaji“
Dokonalá tokenizácia: Na-zajtra-mi-urob-poznámku-o-stretnutí-s-vladom… atď
Nedokonalá tokenizácia: Nazajtrami-urob-poznámku-ostretnutí-svladom… atď.
Priradenie významu:
- Na (môže znamenať začiatok definície termínu, ignorovať)
- zajtra (relatívny dátum / čas)
- urob (akcia? ignorovať)
- poznámku (záznam do kalendára)
- o (môže znamenať začiatok definície popisu, ignorovať)
- stretnutí (popis v kalendári)
- s (môže znamenať začiatok definície kontaktu, ignorovať)
- Vladom P. (napárovať kontakt, ak existuje; inak popis v kalendári)
- na (lokalita?)
- bicykli (?)
- pri (môže znamenať začiatok definície lokality)
- Dunaji (lokalita)
Zjednodušený text:
- Zajtra
- Poznámka
- Stretnutie
- Vlado P.
- Dunaj
Akcia: Vytvorenie záznamu do kalendára na zajtra (napr. 12:00, keďže čas nebol uvedený), s textom „stretnutie“, prepojený na kontakt Vlado P. (automaticky doplnený telefónom, emailom atď. z databázy kontaktov)
Ako vidíte, už samotná tokenizácia je zložitým procesom, nieto priradenie významu (a kontextu) prirodzenej reči.
Príklad som naschvál uviedol v slovenčine, kde musíme navyše porozumieť skloňovaniu, časovaniu a pod. V angličtine je bicykel vždy “bicycle”, v slovenčine môže byť skloňovaný vo viacerých pádoch a teda schopnosť rozoznať akékoľvek slovo je ešte náročnejšia.
A čo ten “inteligentný” cloud na pozadí?
Zvyšujúci sa výkon počítačov (Moore-ov zákon) a z toho vyplývajúca schopnosť rozpoznávať reč softwareom sa stále zlepšuje. Už dnes dokáže Google vyhľadávať pomerne dobre hlasom v slovenčine, o niekoľko rokov bude aj hlasový asistent každodenným nástrojom. V USA je bežné, že ľudia diktujú SMS správy hlasom a hlasový asistent v mobile im prečíta odpoveď.
Nakoniec, stále silnejšie počítače sú všadeprítomné. Osobný počítač už dávno nie je doma, ale neustále s nami vo vrecku, na cestách, dokonca v prírode mimo civilizácie (kde sa jeho funkcia obmedzuje na fotenie, svietenie alebo identifikáciu hviezd na nočnej oblohe).
Moderné, smart zariadenia už nepotrebujú diaľkový ovládač či akékoľvek tlačidlá alebo podobný zastaralý spôsob hmatovej interakcie.
Reč je najľahšia forma komunikácie…
Naproti tomu je reč už od malička prirodzeným spôsobom interakcie. Päťročné dieťa dokáže viesť pomerne zložité konverzácie, rozumie kontextu a dokáže reagovať na otázky. Päťročné dieťa však nemusí vedieť ovládať niečo hmatom (tlačidlo, myš a pod.), keďže poväčšine ešte nevie čítať (textové popisy funkcií) a nemusí poznať zaužívané kultúrne piktogramy okrem rozlíšenia pár jednoduchých.
…ale nie vždy prístupná pre každého
Na druhej strane reč (a sluch) sú zároveň obmedzujúce – vylučujú niektoré skupiny ľudí z možnej interakcie (osoby so sluchovým obmedzením, hluchonemí, osoby so zlou výslovnosťou, cudzí jazyk, dočasná strata hlasu a pod.). Okľukou sa dostávame k prístupnosti. Aj keby hlasoví asistenti prevalcovali trh, stále ostane skupina ľudí, ktorá ich nemôže (alebo nechce) využívať. Pri každom dizajnovaní hlasovej interakcie musíme myslieť aj na alternatívny spôsob, ako sa môže používateľ dostať k cieľu iným spôsobom.
Nové médium má navyše svoje negatíva – nemôžeme použiť obrázky či video na ilustráciu. Skúste niekomu popísať zloženie skrine z IKEA slovne. Potom mu dajte do ruky návod s bodmi a piktogramami a porovnajte úspešnosť.
Počúvam vás… stále
Hlas je používaný v biometrii na identifikáciu a reč obsahuje často citlivé údaje.
Ako ukladáme zadané príkazy od používateľa? Okamžite ich vyhodnocujeme a po pár dňoch ich mažeme alebo ich zachovávame večne až do zmazania používateľom? Alebo nám postačí ukladať iba kontext, t.j. nejaké tie meta dáta a zvyšok zahadzujeme, lebo je to balast?
Tu tiež hrozí možné zneužitie. Nakoniec, omnoho jednoduchšie sa vyhľadáva v kategorizovaných meta dátach. Predstavte si všetky tie otázky, odpovede, príkazy, jednoducho celú komunikáciu s hlasovým asistentom, presne zatriedené a označkované ako tagy na blogu. Môže to dopadnúť aj veľmi zle. Veď, stačí, že ste v slabej chvílke chceli niekomu poslať škaredý odkaz, ktorý ste na poslednú chvílu „zrušili“.
Kontext a pochopenie zámeru používateľa
Hlasové aplikácie by mali vedieť identifikovať otázky, resp. príkazy. Otázky sú pomerne jednoduché, keďže počet úvodných slov je pomerne limitovaný (ako, kde, čo, kto, prečo, koľko a pod.). Príkazy sa tiež dajú zjednodušiť na určitú množinu slov ako urob, poznač, ulož, poznamenaj, vykonaj, spusti, vymaž a pod. Zložitejšia už bude identifikácia ostatných pojmov, ktoré môžu byť bez kontextu nejednoznačné.
Aj preto si napr. Google asistent ukladá a analyzuje historické hlasové zadania (vyhľadávania). Ak sa spýtate na to „kde sa nachádza Eiffelova veža,“ a následne položíte doplňujú otázku: „A aká je vysoká,“ Google bude poznať kontext, keďže v doplňujúcej otázke nie je jasne definovaná entita, na ktorú sa otázka vzťahuje.
Ak by ste spýtali iba otázku: „Aká je vysoká?“ Nevedel by Google zistiť, čo je predmetom otázky (nakoniec podobne, ako to nedokáže ani človek, ktorý nedostal prvú otázku).
Už teda rozumiete, že kontext je veľmi dôležitý pre porozumenie hlasovým zadaniam. Nakoniec, aj medzi vašimi kontaktami sa môžu nachádzať dvaja menovci. V tom prípade asistent musí dokázať položiť doplňujúcu otázku, koho chcete zavolať? Ten kontakt, kde číslo začína na 0905 124 alebo toho človeka, ktorého číslo začína na 0940 785? Alebo ešte lepšie (kto si má pamätať čísla?): človeka, s ktorým ste za posledný týždeň telefonovali päťkrát a máte aktívny chat alebo kontakt, s ktorým ste nehovorili už vyše pol roka?
Fráza „Zmaž to!“ môže znamenať rôzne veci v rôznom kontexte. A čo ak máte zrovna na obrazovke textový dokument a aj zároveň email, ktorý práve dorazil. Čo presne chcete zmazať? Nehovoriac, ak by ste mali otvorený napr. Facebook a bez ďalšieho overenia by vám konto bolo vymazané (už „počujem“ to zhrozenie pred obrazovkami).
Rôzne frázy pre rovnakú aktivitu
- Pošli email Petrovi
- Napíš email pre Petra
- Odpovedaj na Petrove otázky
- Kontaktuj Petra s odpoveďou
Aký hlas vám je sympatický? A s akým prízvukom? Bude slovenský Maďar lepšie reagovať na prízvuk z juhu Slovenska a teda náchylnejší prikývnuť na „výhodnú“ ponuku? (áno, tu sa už dostávame aj do eticky pochybnej roviny – tzv. dark patterns). V tomto bode už sme dnes – každá navigácia umožňuje vybrať nielen jazyk, ale aj hlas – ženský, mužský, niekde dokonca s rôznymi prízvukmi (americká, britská či austrálska angličtina).
Videl si nejaký dobrý film?
Hlasoví asistenti zároveň dokážu poskytnúť neobmedzené množstvo informácií. Množina informácií záleži iba od toho, čo všetko dokáže inteligentné servery z internetu “vytiahnuť”.
Kedy ste si naposledy nechali od kamarátov odporučiť film? Ale, čo ak sedíte doma, chcete si niečo pozrieť a žiadny kamarát nie je nablízku? Nebude jednoduchšie sa spýtať vášho mobilu? Namiesto návštevy Rotten Tomatoes tak iba zahlásite niečo ako “Odporuč mi film, komédiu, ktorá má hodnotenie aspoň 80% a nie je staršia ako dva roky.”
Môžete namietnuť, že hlasový asistent predsa nevie, čo sa vám zvykne páčiť. Ak ale umožníte ukladať históriu hlasovej komunikácie (v Google predvolené), nie je nič jednoduchšie, ako z minulých otázok vyskladať mozaiku personalizovaných odporúčaní. A nekončí to pri filmoch, čo také recepty, reštaurácie, hudba, pamiatky na dovolenke, nákupy? (do mixu pridajme lokalizačné dáta a prípadné ďalšie, ktoré „cloud“ pozná)
Ako dizajnovať pre hlasovú interakciu?
Počúvajte svoj vnútorný hlas so zatvorenými očami. Teda na začiatok vám postačia tie zatvorené oči.
Predstavme si modelovú situáciu – volá klient, ktorý si chce overiť stav kreditu na účte.
Asistent: Dobrý deň, čo si želáte dnes vybaviť?
Klient: Chcel by som zistiť stav účtu.
Asistent: … Chcete zistiť stav vášho účtu. Prosím, povedzte mi vaše celé meno.
Klient: Volám sa Jozef Novák.
Asistent: … Pán Novák a aký je váš osobný kód?
Klient: 14786821
Asistent: … A ešte prosím posledné štvorčíslie vášho rodného čísla.
Klient: 5412
Asistent: … Ďakujem. Pán Novák, na účte máte ešte kredit 120 Eur.
Klient: Ďakujem. [ukončí hovor]
doplnkovo ešte môže konverzácia pokračovať:
Asistent: … Želáte si ešte vybaviť niečo iné?
Klient: Vlastne áno, zmeňte mi prosím program na automatické platby.
Asistent: … Zmenil som váš program na automatické platby v prípade zníženia kreditu pod 20 Eur.
Všimnite si, že takýto rozhovor je prirodzený, ale zároveň jednoduchý, bez zbytočných zdvorilostí na strane klienta.
Návrh takýchto interakcií pokrývajú štandardizované diagramy, v ktorých je každý krok popísaný a napojený na ďalšie kroky. Sú tam výhybky, cyklenia, ide v princípe o bežný počítačový program.
SEO pre hlasové vyhľadávanie?
Optimalizácia pre vyhľadávače sa významne nezmení len preto, že ľudia začnú vyhľadávať hlasom. Namiesto krátkych fráz (nechce sa nám písať) sa ale začne objavovať omnoho viac dlhších (long-tail) vyhľadávaní, ku ktorým prirodzená reč vedie.
Analýza kľúčových slov sa preto zamerá stále viac aj na otázky – čo, ako, prečo, kde, kedy a podobne. Tvorcovia obsahu sa tiež prispôsobia tomuto trendu a texty začnú byť písané tak, aby dokázali pokryť aj prípadné odpovede. Už dnes Google bežne vyťahuje tzv. featured snippets z textov, ktoré obsahujú odpoveď na otázku.
SEO nástroje sa budú musieť naučiť ešte lepšie zlučovať podobné frázy do kategórií použitím existujúcich (ale potenciálne aj nových) algoritmov zvukovej či frázovej podobnosti.
Reč sa postupne stane preferovaným typom komunikácie so smart zariadeniami. Už dnes je možné tento trend vidieť v USA, kde je schopnosť rozpoznať angličtinu algoritmami takmer optimálna. Ľudia si tak namiesto pomalého „ťukania“ SMS posielajú hlasové odkazy, ktoré sú najprv prepísané do textu, následne poslané, aby mohli byť u príjemcu opäť nahlas prečítané syntetizovaným hlasom. Vodiči sa nemusia pozerať na telefón, ale komunikujú s ním ako so spolujazdcom. Nám ostáva zatiaľ čakať, kým umelá inteligencia zvládne aj menšie jazyky, akým je slovenčina.