Divisione Radiofonia - Transponder
Comandi vocali
(06/10/2005: ultimo aggiornamento)

I comandi vocali permettono di interagire con il computer senza dover usare tastiera o mouse (in teoria).
La possibilità per non vedenti o ipovedenti di impiegare questi software per interagire con il PC richiede una robusta attività di adeguamento alle loro esigenze (ad esempio per la possibilità di verificare cosa il software abbia scritto) .

L'argomento è vastissimo, e qui ci limitiamo a tracciare un panorama della situazione attuale, senza pretese di esaustività:

Apple

Alcuni computer Apple (es. il Power Mac iMic) dispongono del software per il riconoscimento dei comandi vocali, purtroppo solo in inglese, richiede anche una pronuncia impeccabile (più americana, che britannica).. Installando il programma iListen della MacSpeech, un utente di un computer Apple G3 e G4 o G5, compresi i modelli portatili (iBook e Powerbook), desktop (iMac) e tower, può dettare con velocità sino a 140 parole al minuto (così dichiarato dal venditore) in italiano. Attualmente con la versione 1.6.8 di iListen sono disponibili i dizionari inglese (USA) e tedesco; necessita di un Mac con almeno G3 a 400 MHz e sistema operativo Mac OS X 10.1.5 o successivi.

Avaya

Avaya si rivolge al mercato enterprise e non ha quindi soluzioni per l'uso domestico. La soluzione di riconoscimento vocale di Avaya richiede l'attivazione di una soluzione IVR (Interactive Voice Response), connessa a linee telefoniche.
Per gestire postazioni operatore per ciechi e/o ipovedenti Avaya può fornire una soluzione che prevede:

•  Terminale telefonico HW per veicolare le comunicazioni

•  Applicativo da PC con ingranditore di caratteri e sintesi da testo

•  Display braille

Pertanto la soluzione per ipo/non vedenti funziona connessa a un attacco digitale del centralino telefonico automatico PABX Avaya Communication Manager e richiede la disponibilita' di un personal computer multimediale ove installare i pacchetti software di ingrandimento, di sintesi vocale e di gestione del display braille.
Il software consente di accedere con comandi vocali al proprio sistema di messaggistica unificata Unified Messenger, che utilizza l'interfaccia di Microsoft Outlook. Avaya Speech Access, questo il nome, si installa su un server ed è destinato alle reti che utilizzano Windows Exchange; può anche essere integrato con le Active Directory di Microsoft.

I comandi vocali possono essere usati per molte attività, per esempio per controllare il calendario degli appuntamenti di Exchange, per effettuare telefonate, per controllare la posta elettronica e la casella vocale. Il software gira su un server Windows 2000 dedicato che deve avere almeno un processore a 1 GHz e 2GB di memoria. Si tratta di un sistema concepito per fornire la funzione di riconoscimento vocali a sistemi di messaggistica aziendali. La più recente applicazione è in un portale di messaggistica aziendale, che permette ai dipendenti della società di effettuare consultazioni vocali, anche quando sono ad esempio in automobile. Nel 2005 Avaya ha integrato la sua piattaforma di comunicazione di telefonia IP (Internet Protocol) per le piccole e medie imprese, Avaya IP Office, con Microsoft Business Solutions CRM (Customer Relationship Management) per la gestione delle comunicazioni e delle relazioni con i clienti.

Dragon Naturally Speaking

(attualmente venduto da Scansoft)
Programma di riconoscimento vocale compatibile con Voice It (così come Via Voice Ibm), Dragon Naturally Speaking è un programma software che anno dopo anno aumenta sempre più l'accuratezza di riconoscimento vocale. Dragon Naturally Speaking Mobile integra la versione Preferred del noto programma di riconoscimento vocale, il registratore portatile Dragon Naturally Mobile ed il software per il riconoscimento specifico del parlato registrato.

Combinando la portabilità del registratore con la possibilità di riconoscere il parlato, grazie alla soluzione Dragon è possibile prendere appunti vocali che verranno poi trascritte ad una velocità maggiore del tempo reale, cioè in un tempo più breve rispetto a quello impiegato per dettarle. Anche questo programma nasce per la dettatura su PC.

Con Dragon comunque non ci si limita a dettare testi, ma è possibile utilizzare tutte le applicazioni più comuni, anche fogli di lavoro come Excel, basandosi completamente sui comandi vocali. Per chi può, l'ideale sarebbe avere la tastiera a portata di mano in modo da correggere rapidamente gli eventuali errori e utilizzare i comandi più comuni, come l'Invio - il cui equivalente comando vocale è "Nuova Riga" - con maggiore rapidità.
Excel è il caso più lampante: la frase "passa alla colonna successiva" è l'equivalente della pressione del tasto cursore di destra., oppure di TAB.

Attualmente siamo alla versione 8.0, idonea per Windows 2000 e Windows XP SP2, con 160 parole al minuto dichiarate. Non sono reperibili documentazioni di organismi certificatori riconosciuti che misurino le effettive prestazioni di questi tipi di software.

IBM

La IBM è da anni impegnata nel progetto ViaVoice. Via Voice assicura un maggior riconoscimento ed un aumentato numero di comandi vocali. Si può ad esempio dettare un testo all'interno di Word, e correggerlo, selezionando e tagliandone le parti, dando al computer esclusivamente comandi vocali. L'apprendimento di base richiede almeno 10 minuti di insegnamento al PC, leggendo un testo dato seguendo le regole indicate. Il programma è comunque così intelligente da apprendere anche in seguito ad ogni dettatura, imparando dai propri errori di riconoscimento. Il programma riconosce anche utenti diversi, consentendo così di dividere una singola stazione di dettatura fra diversi oratori. La Versione 10 offre una maggiore precisione del riconoscimento vocale, opzioni flessibili di dettatura oltre a navigazione, comandi e controlli vocali potenziati. Il vocabolario italiano contiene 100.000 parole, ed è possibile aggiungere fino a 64.000 nuove parole. ViaVoice conosce l'ortografia di oltre 260.000 parole presenti nel vocabolario di riserva e usa il contesto delle parole per facilitarne la corretta "digitazione". È addirittura in grado di riconoscere la differenza tra le parole con la stessa pronuncia, come anno e hanno.

Il programma è compatibile anche con alcuni tipi di registratori vocali. In questa maniera si può registrare il testo lontano dal PC e poi riversarlo, per la trascrizione automatica, una volta ritornati a casa od in ufficio. Voice It VTR è uno dei più diffusi registratori vocali creati proprio per questo scopo. Registra fino ad un'ora ed un quarto di parlato sulla memoria interna (espandibile), consentendo di organizzare gli appunti vocali in apposite cartelle, in modo da poter all'occorrenza dividere le registrazioni per argomento. Si collega al computer grazie ad un cavetto seriale ed il download della voce è particolarmente veloce grazie ad un apposita compressione dei dati. Può essere usato anche per creare normali file audio .WAV di buona qualità.

Big Blue ha annunciato il software WebSphere Voice Application Access (Wvaa), che rende accessibili vocalmente tutte le applicazioni esistenti e raccolte in un portale corporate. Gli utenti possono accedere ad applicazioni mediante comandi vocali e leggere loro informazioni. Il software supporta Voice Xml e Java e prevede un supporto standard per le piattaforme Ibm Lotus Notes e Microsoft Exchange. Cisco e Nuance hanno già annunciato che lo supporteranno. Cisco prevede di integrare Wvaa nella propria infrastruttura Ip Communications e Nuance di consentire l'accesso ai server vocali back-end mediante il proprio software client-side, che traduce il parlato in testo. Nonostante il fatto che le due aziende siano rivali nel comparto del software di front-end per applicazioni vocali, Ibm vuole assicurarsi che WebSphere sia compatibile con Nuance perché il software di riconoscimento vocale di quest'ultima è molto diffuso. Ibm ha anche annunciato che alcune aziende specializzate in applicazioni vocali (V-Enable e Voxsurf) e in consulenza (Viecore) supporteranno Wvaa. Oltre a questo, starà a produttori di software esterni sviluppare portlet compatibili con WebSphere. Secondo Big Blue i clienti utilizzeranno i portlet voice-enabled per sistemi di Crm e di automazione delle forze vendita. Anche se Ibm ha strette relazioni con Sap e Siebel, queste aziende non si sono ancora espresse sul supporto di Wvaa. Il tool può rivelarsi utile per chi viaggia molto in auto dove è possibile ascoltare ma non leggere. Potrebbe anche adattarsi a chi appartiene alla vecchia scuola e non usa l'e-mail da dispositivi mobili. Proprio per questo, Ibm ha rivolto la propria attenzione alla telematica con WebSphere Everyplace Server for Telematics. Basata sulla soluzione sviluppata da Ibm per Honda America e Hyundai, il prodotto è un software formalmente pacchettizzato che prevede strumenti per verificare e sviluppare funzioni in sistemi automotive quali l'accesso basato su comandi vocali alla posta elettronica, diagnosi remota e notifiche sulle condizioni del traffico.

Loquendo

Il browser vocale Voice XML della Loquendo, permette di realizzare portali vocali .

Microsoft

Mobile, in uscita a metà 2005 (ma non ci sono date certe), non punta però tutto sul WiFi (con roaming verso Gsm, Gprs e Edge). Il nuovo sistema operativo, dal nome in codice Magneto, mira alla gestione intelligente per configurare al meglio il palmare o lo smartphone; e ai comandi vocali integrati. Windows Mobile 2005 si baserà su Windows Ce 5.0 , in grado di supportare applicazioni multimediali avanzate, realizzate su DirectX, e renderà più efficienti Pocket Word e Pocket Excel. Sul fronte sicurezza verrà supportato Security Zone per Pocket Internet Explorer.

Opera

Il browser Opera, integrando la tecnologia ViaVoice di IBM, permette di usare (con l'aggiunta del software Voice ) comandi parlati, come "Open next link", "Opera back", o "Opera speak". L'ultimo messaggio fa leggere ad Opera il contenuto della pagina Web e delle e-mail. Purtroppo Voice è correntemente offerto solo in inglese e lavora su Windows 2000 e XP.

VoiceXML

VoiceXML (Voice eXtensible Markup Language) è il nuovo linguaggio standard per la creazione di servizi vocali nel mondo web e rappresenta un elemento fondamentale per favorire lo sviluppo di servizi interattivi sulla sintesi e il riconoscimento vocale, quali i portali vocali. VoiceXML diventa così il linguaggio comune agli sviluppatori dei servizi, ai creatori degli strumenti di sviluppo ed ai produttori di piattaforme e portali vocali. Linguaggio standardizzato. La definizione di uno standard riconosciuto, tanto dal consorzio W3C quanto dalla maggioranza delle imprese operanti nel settore ITC, consente di disporre di: un linguaggio e degli strumenti di sviluppo "orientati al web". I tempi di sviluppo e le competenze necessarie per operare con il voiceXML sono quelli tipici delle applicazioni web, in quanto la derivazione da XML, rende il VoiceXML uno strumento con caratteristiche comuni a numerosi linguaggi web e la programmazione, la modifica ed il controllo di correttezza delle pagine VoiceXML possono quindi essere effettuati utilizzando degli editor XML standard; Come accade nei siti web di ultima generazione, è possibile creare "pagine vocali" dinamiche e personalizzate in base al profilo dell'utente (CGI, ASP, PHP,...) È possibile associare un link ipertestuale a qualunque parola presente nel testo sintetizzato. Massima libertà nella progettazione del sito vocale: è possibile creare siti con una struttura complessa ("a grafo"), senza dover rinunciare alla semplicità di navigazione. La presenza di un help in linea "intelligente" e collegato ai contenuti della pagina, fornisce all'utente la massima sicurezza sulle operazioni da compiere nel corso della navigazione vocale. Sono presenti comandi specifici per ottimizzare l'intonazione delle voci sintetizzate, così come è possibile includere, all'interno dello stesso dialogo, file audio, file musicali e brani di sintesi vocale. Comandi JavaScript possono essere usati all'interno del codice. Essi sono in grado di automatizzare determinate operazioni, come ad esempio, il trattamento in tempo reale dei dati inseriti vocalmente o la gestione di data, ora, ecc. Operatori logici possono essere inclusi per creare pagine vocali "intelligenti", in grado di modificare automaticamente le informazioni di navigazione fornite all'utente in base alle sue scelte. Funzioni speciali: ad esempio il trasferimento di chiamata, la registrazione di file audio, il riconoscimento dei toni DTMF e tutte le più comuni forme di interazione che possono risultare utili per lo sviluppo dei servizi vocali. Il VoiceXML è un'applicazione del linguaggio XML e nasce nel 2000 in seguito all"accordo fra le maggiori aziende operanti nel settore delle telecomunicazioni. Nel marzo dello stesso anno è stato accettato dal consorzio W3C, quale standard mondiale. Il numero delle aziende aderenti al Voice XML Forum è oggi di oltre 350. Maggiori informazioni sulle specifiche del linguaggio VoiceXML possono essere consultate in rete, sul sito del consorzio W3C (http://www.w3.org/TR/voicexml/). Ulteriore materiale didattico e materiale informativo su questo nuovo standard è reperibile sul sito del VoiceXML Forum .

Windows XP

Prevede già l'impiego di sostare di riconoscimento vocale e l'impiego di comandi vocali. Dopo aver definito un profilo vocale (occorre prima installare un software di riconoscimento vocale) si può aggiungere il nuovo sistema di input (la voce) all'ambiente di lavoro. Dal Pannello di Controllo, ciccare su Opzioni internazionali e della lingua > Lingue > Dettagli > Impostazioni. Si apre la finestra delle lingue di input con l'indicazione del riconoscimento vocale. Selezionando il microfono e il pulsante Proprietà, si accede alle impostazioni del riconoscimento e dei comandi vocali per il sistema. Si può estendere il riconoscimento vocale a tutti i programmi standard di Windows XP: Blocco Note, Outlook Express, ecc. Selezionare Pannello di Controllo > Opzioni internazionali e della lingua > Lingue > Dettagli > Avanzate. Spuntare la casella Estendi supporto servizi di testo avanzati a tutte le applicazioni e riavviare il sistema. Da questo momento, quando si seleziona la lingua nella Barra della lingua, compaiono nuove opzioni: la dettatura e i comandi vocali. Cliccare sul microfonino per iniziare la dettatura

(a.p.)

Cerca nel sito
 

Canali Radio di Pubblica Utilità - Filodiffusione (5 Canale Auditorium - 4 Canale) - Isoradio - CCISS - Tecnologie

La Filodiffusione: Presentazione - Piccola storia - Struttura - Indirizzi - Persone - Tecnica - Abbonarsi - Novità
Come ascoltarci: Telefono, Satellite, Internet, Dab, Fm
Accessibilità: Comandi vocali - Sintesi vocale - Faq