Głosowe wprowadzanie danych w GlobIQ

By Listopad 9, 2020 Brak Kategorii
Głosowe wprowadzanie danych

Sztuczna inteligencja trafia pod przysłowiowe strzechy i w coraz większym stopniu staje się naszą codziennością. Zastosowana w aplikacjach daje realne oszczędności, wynikające z usprawnienia pracy. W projekcie GlobIQ wykorzystujemy ją jako część aplikacji mobilnej GeoTask, zawierającej formularze, służące do zbierania danych w terenie. To pokazuje, że odpowiednio zaimplementowane mechanizmy sztucznej inteligencji są proste w obsłudze i nie wymagają np. specjalistycznego przeszkolenia.

Sztuczna inteligencja od dawna występuje m.in. w aplikacjach wykorzystujących komendy głosowe. Podczas prac nad wykorzystaniem głosu w rozwiązaniach mobilnych szukaliśmy sposobu na efektywne wprowadzanie danych do formularzy. Dlaczego akurat komendy głosowe? Lata prac nad projektami geoprzestrzennymi pozwoliły nam na wyciągnięcie wniosku, że używanie tradycyjnych formularzy, sterowanych wyłącznie dotykowo, w terenie bywa kłopotliwe.

Problem wynika z:

  • konieczności przewijania zawartości ekranu w celu odnalezienia właściwego atrybutu
  • konieczności przewijania długich list wyboru, aby znaleźć odpowiedni typ urządzenia
  • kłopotu z trafieniem palcem we właściwe miejsce na ekranie, jeśli np. pojawiają się małe klawisze klawiatury ekranowej.

Wszystko to sprawia, że pracownicy terenowi niechętnie używają typowych aplikacji formularzowych – użycie głosu wydawało się zatem naturalnym rozwiązaniem problemu. Typowy asystent głosowy wymaga rozbudowy, jeśli chce się go wykorzystać do dyktowania wielu danych jednocześnie – w przeciwnym wypadku może okazać się zbyt powolny. Dlatego rozwinęliśmy ten pomysł, aby rozwiązać problem i usprawnić pracę z formularzami w terenie.

Jak to działa?

Na ekranie urządzenia wyświetlany jest formularz do wypełnienia oraz ikona mikrofonu.
Użytkownik dotyka ikony mikrofonu lub wypowiada tzw. słowo wybudzające, przez co włączany jest nasłuch.
Użytkownik może w jednym zdaniu wypowiedzieć słowa do umieszczenia w treści wielu pól, zachowując konwencję: <nazwa_pola> <wartość_pola>.

Aplikacja jest w pełni interaktywna. Wypowiedź użytkownika jest analizowana w trakcie mówienia, a aplikacja przesuwa ekran, podświetla wypowiadane pola i na bieżąco wpisuje do nich dyktowane dane. Użytkownik w momencie dyktowania ma więc wizualne potwierdzenie tego, co „zrozumiała” aplikacja.

Dodatkowo zaimplementowaliśmy obsługę synonimów dla nazw pól i grup pól w formularzu, aby użytkownik mógł wypowiadać je na wiele sposobów. Rozszerzyliśmy też rozwiązanie o możliwość dyktowania danych w kolejności ich występowania na formularzu. Do wydobywania informacji i wypełniania formularzy napisaliśmy własny moduł przetwarzający tekst.

Prace nad rozwiązaniem wciąż trwają – na kolejnym etapie będziemy się koncentrować m.in. na poprawie GUI aplikacji. Chcesz dowiedzieć się więcej?