Revisione Watson Speech to Text: il miglior servizio di trascrizione ad alto volume?

Watson è il sistema informatico di elaborazione del linguaggio naturale di IBM. Alimenta il famoso supercomputer con risposta alle domande e una serie di prodotti aziendali basati sull'intelligenza artificiale, tra cui Watson Speech to Text. Nella nostra recensione di Watson Speech to Text, daremo un'occhiata a una delle migliori app di sintesi vocale in circolazione, ideale per chiunque desideri convertire l'audio in testo su larga scala.

La piattaforma di elaborazione vocale Watson è disponibile su IBM Cloud. È uno strumento versatile e può essere utilizzato in molti contesti, tra cui la dettatura e la trascrizione di teleconferenze. Inoltre, a differenza della maggior parte delle altre app di sintesi vocale, è disponibile come API, che consente agli sviluppatori di incorporarla nei sistemi di controllo vocale, tra le altre cose.

Watson Speech to Text: piani e prezzi

Puoi utilizzare Watson Speech to Text per elaborare gratuitamente fino a 500 minuti di audio al mese. Se desideri convertire più di quella cifra, dovrai pagare per ogni minuto audio e la tariffa cambia in base alla durata dell'audio elaborato. I costi vanno da $ 0,01 a $ 0,02 al minuto ed è previsto un addebito aggiuntivo di $ 0,03 al minuto se richiedi il modello di linguaggio personalizzato di IBM. Sono disponibili anche piani Watson solo con preventivo premium, che garantiscono l'accesso a funzionalità avanzate di privacy dei dati e garanzie di uptime.

Il prezzo del servizio di sintesi vocale di Watson si basa sul volume di contenuti che devi trascrivere.

Puoi anche accedere al sistema Watson Speech to Text tramite un abbonamento IBM Cloud generico. L'elaborazione del linguaggio naturale è solo un'app in un'ampia gamma di servizi di intelligenza artificiale che puoi ottenere tramite IBM Cloud, quindi questa è una buona opzione per qualsiasi organizzazione che necessita di accesso a trasferimenti di dati ad alta velocità, chatbot o strumenti di sintesi vocale.

Watson Speech to Text: caratteristiche

Grazie all'integrazione API flessibile e ad altri strumenti IBM pre-compilati, il servizio di riconoscimento vocale Watson va ben oltre la trascrizione di base. Se si desidera utilizzarlo in un contesto di servizio clienti, ad esempio, è possibile configurare Watson Assistant per elaborare direttamente domande in linguaggio naturale o rispondere a domande per telefono.

In Watson, IBM ha messo insieme una piattaforma di elaborazione del linguaggio naturale ricca di funzionalità.

Watson funziona con audio dal vivo in 11 lingue e può importare suoni in una varietà di formati preregistrati. Durante lo streaming, il supporto diagnostico in tempo reale significa che Watson può invitare gli utenti ad avvicinarsi al microfono o a cambiare il loro ambiente. È anche impressionante il fatto che Watson possa distinguere tra diversi altoparlanti in una conversazione condivisa grazie a Speaker Diarization, una funzionalità ancora in fase di beta testing.

Watson Speech to Text: Setup

Per utilizzare Watson, la prima cosa che devi fare è creare un account IBM Bluemix. La registrazione è gratuita e indolore, richiede solo un indirizzo email e una password. Una volta effettuato l'accesso, è necessario aggiungere una disposizione sul proprio account per il servizio Speech to Text. In questa fase ti verranno fornite un paio di credenziali che dovresti salvare nei tuoi record.

La registrazione di un account IBM Bluemix è necessaria per ottenere l'accesso al set completo di funzionalità di Watson.

Dopo averlo fatto, le cose diventano molto più complesse. Per accedere a Watson, dovrai aggiungere quelle credenziali a un batch di codice cURL (Uniform Resource Locator) del client e quindi eseguirlo sulla tua macchina. Per scoprire esattamente quale comando chiamare, consulta questa pratica guida. In alternativa, se vuoi solo vedere quanto bene funziona il sistema Watson senza dover passare attraverso tutti quei cerchi, puoi provarlo invece sul sito demo di IBM.

Watson Speech to Text: Interface

A differenza delle app voice-to-text rivolte ai consumatori, i servizi di Watson sono progettati per essere accessibili tramite API e codice incorporato in altri sistemi. Per questo motivo, non esiste una vera "interfaccia" Watson. È invece possibile accedere a Watson tramite tre diversi protocolli Internet. Si tratta di WebSocket, API REST e Watson Developer Cloud.

Watson Speech to Text può essere gestito tramite il sistema Watson Developer Cloud.

Per controllare Watson, dovrai utilizzare uno strumento della riga di comando che si connette al cloud di IBM tramite uno di questi tre percorsi. L'interfaccia che vede l'utente finale che interagisce con Watson dovrà essere costruita da qualcuno del tuo team di sviluppo separatamente.

Watson Speech to Text: Performance

Nel complesso, siamo rimasti colpiti dal modo in cui questa piattaforma di elaborazione del linguaggio naturale ha gestito il linguaggio reale. Abbiamo utilizzato Watson per trascrivere clip che abbiamo registrato in una serie di ambienti stimolanti, nonché brani di discorsi famosi tenuti in diverse delle 11 lingue supportate da Watson.

Abbiamo scoperto che Watson si è comportato bene con il discorso preregistrato.

Sebbene gli errori siano diventati più frequenti per le clip con molto rumore di fondo, in generale, Watson ha prodotto risultati incredibilmente accurati. Dai nostri test stimiamo che in media si sono verificati errori non sollecitati solo una volta ogni 150 parole. Tuttavia, è diventato chiaro perché la funzione di Diarizzazione degli altoparlanti di Watson rimane nei test BETA poiché, più volte durante la nostra valutazione, una voce è stata etichettata erroneamente come altoparlanti separati.

Watson Speech to Text: supporto

Il centro risorse IBM offre una vasta documentazione per comprendere meglio come applicare Watson al tuo caso d'uso specifico. Vale anche la pena utilizzare le integrazioni API e gli SDK creati dalla comunità di sviluppatori Watson e pubblicati su GitHub.

La pagina GitHub dell'API Watson è una buona fonte di supporto per il servizio Watson Speech to Text.

Se non trovi lì la soluzione al tuo problema, puoi contattare IBM direttamente aprendo un ticket di supporto o contattandoli per telefono. Finché hai optato per uno dei pacchetti Watson premium, il tuo utilizzo di Watson sarà protetto da un accordo sul tempo di attività del livello di servizio.

Discorso di Watson al testo: verdetto finale

Se la tua organizzazione ha il know-how e le risorse per integrare correttamente la piattaforma IBM Watson Speech to Text nel tuo sistema, trarrai vantaggio da funzioni avanzate come la diagnostica dell'ambiente sonoro in tempo reale e i risultati provvisori della trascrizione. Tuttavia, le piccole imprese e le organizzazioni dovranno affrontare la sfida tecnica di impostare correttamente Watson.

La competizione

Il servizio IBM Watson Speech to Text è un concorrente diretto dei servizi di trascrizione in blocco Google Cloud Speech-to-Text e Amazon Transcribe. Entrambi sono significativamente più economici di Watson, con la trascrizione di Google Cloud, ad esempio, a partire da $ 0,006 al minuto. Tutti e tre i servizi condividono funzioni simili, come il vocabolario personalizzato, ma una caratteristica che manca gravemente da IBM Watson ma disponibile con entrambi i concorrenti è il riconoscimento automatico della punteggiatura.

Cerchi un'altra soluzione spoeech-to-text? Dai un'occhiata alla nostra migliore guida al software di sintesi vocale.

Articoli interessanti...