Watson Tal till textgranskning: Den bästa transkriptionstjänsten med hög volym? recension

Watson är IBMs datorsystem för naturligt språkbearbetning. Den driver den berömda frågessvarande superdatorn såväl som en serie AI-baserade företagsprodukter, inklusive Watson Speech to Text. I vår Watson-tal-till-textgranskning tittar vi på en av de bästa tal-till-text-apparna runt, idealiska för alla som vill konvertera ljud till text i skala.

Watson-talbehandlingsplattformen är tillgänglig på IBM Cloud. Det är ett mångsidigt verktyg och kan användas i många sammanhang inklusive diktering och konferenssamtalstranskription. Till skillnad från de flesta andra tal-till-text-appar, är det tillgängligt som ett API, vilket gör det möjligt för utvecklare att bädda in det i röstkontrollsystem, bland annat.

Watson Tal till text: Planer och prissättning

Du kan använda Watson Speech to Text för att bearbeta upp till 500 minuter ljud gratis per månad. Om du vill konvertera mer än så måste du betala för varje ljudminutt och hastigheten ändras baserat på hur ljudet behandlas. Kostnaderna sträcker sig från $ 0,01 till $ 0,02 per minut och det kostar en tilläggsavgift på 0,03 $ per minut om du behöver IBM: s anpassade språkmodell. Endast premium-offert-Watson-planer finns tillgängliga, och dessa ger tillgång till förbättrade dataförhållandefunktioner och drifttidsgarantier.

Watsons tal-till-text-tjänst prissätts utifrån volymen på innehåll du behöver transkribera. (Bildkredit: IBM)

Du kan också komma åt Watson Speech to Text-systemet genom ett allmänt IBM Cloud-abonnemang. Naturligt språkbehandling är bara en app i ett brett utbud av AI-tjänster som du kan få via IBM Cloud, så detta är ett bra alternativ för alla organisationer som behöver tillgång till höghastighetsdataöverföringar, chatbots eller text-till-talverktyg.

Watson tal till text: funktioner

Tack vare flexibel API-integration och andra pre-build IBM-verktyg går Watson-taligenkänningstjänsten långt bortom grundläggande transkription. Om du till exempel vill använda det i en kundservicekontext, kan Watson Assistant konfigureras för att behandla naturliga språkfrågor direkt eller svara på frågor via telefon.

I Watson har IBM satt ihop en funktionsrik naturligt språkbearbetningsplattform. (Bildkredit: IBM)

Watson arbetar med live-ljud på 11 språk och kan importera ljud i olika förinspelade format. Vid streaming innebär diagnosstöd i realtid att Watson kan uppmana användarna att närma sig sin mikrofon eller ändra sin miljö. Också imponerande är det faktum att Watson kan skilja mellan olika högtalare i en delad konversation tack vare Speaker Diarization, en funktion som fortfarande genomgår beta-testning.

Watson Tal till text: Setup

För att använda Watson är det första du behöver göra att skapa ett IBM Bluemix-konto. Registreringen är gratis och smärtfri och kräver bara en e-postadress och lösenord. När du är inloggad måste du lägga till en avsättning på ditt konto för tjänsten Speech to Text. Du kommer att få ett par referenser som du bör spara i dina egna poster.

Registrering för ett IBM Bluemix-konto är nödvändigt för att få tillgång till Watsons fullständiga funktionsuppsättning. (Bildkredit: IBM)

När du har gjort det blir saker betydligt mer komplexa. För att få åtkomst till Watson måste du lägga till dessa referenser till en grupp klientenhetens resurslokaler (cURL) -kod och sedan köra den på din maskin. För att ta reda på exakt vilket kommando du ska ringa, kolla in den här praktiska guiden. Alternativt, om du bara vill se hur bra Watson-systemet fungerar utan att behöva hoppa igenom alla dessa hoops kan du prova det på IBMs demosida istället.

Watson Tal till text: gränssnitt

Till skillnad från konsumentläsande röst-till-text-appar är Watsons tjänster designade för åtkomst via API: er och kod inbäddade i andra system. Av den anledningen finns det inget riktigt Watson “gränssnitt”. Istället kan Watson nås via tre olika internetprotokoll. Dessa är WebSockets, REST API och Watson Developer Cloud.

Watson Tal till text kan hanteras genom Watson Developer Cloud-system. (Bildkredit: IBM)

För att kontrollera Watson måste du använda ett kommandoradsverktyg som ansluter till IBMs moln via en av dessa tre rutter. Gränssnittet som slutanvändaren som interagerar med Watson ser måste byggas av någon i ditt utvecklingsteam separat.

Watson Tal till text: Performance

Sammantaget var vi imponerade av hur denna plattform för naturligt språk hanterade verkliga tal. Vi använde Watson för att transkribera klipp som vi spelade in i en mängd utmanande miljöer samt ljudbitar från berömda tal som gavs i flera av Watsons elva stödda språk..

Vi fann att Watson presterade bra med förinspelade tal. (Bildkredit: IBM)

Även om fel växte oftare för klipp med massor av bakgrundsljud genererade Watson i allmänhet otroligt noggranna resultat. Vi har uppskattat från våra tester att obefogade misstag bara inträffade en gång var 150: e ord i genomsnitt. Men det blev klart varför Watsons funktion för högtalardiarisering kvarstår i BETA-testning, eftersom en röst flera gånger under vår utvärdering var felmärkta som separata högtalare.

Watson Tal till text: Support

IBMs resurscenter erbjuder massor av dokumentation för att bättre förstå hur du applicerar Watson på ditt specifika användningsfall. Det är också värt att använda sig av API-integrationer och SDK: er som skapats av Watson-utvecklargruppen och skickas till GitHub.

Watson API GitHub-sida är en bra källa för stöd för Watson Speech to Text-tjänsten. (Bildkredit: IBM)

Om du inte hittar lösningen på ditt problem där kan du kontakta IBM direkt genom att öppna en supportbiljett eller kontakta dem via telefon. Så länge du valt ett av premium-Watson-paketen kommer din Watson-användning att skyddas av ett servicenivå Uptime-avtal.

Watson Tal till text: Slutlig dom

Om din organisation har kunskap och resurser för att korrekt integrera IBM Watson Speech to Text-plattformen i ditt system kommer du att dra nytta av avancerade funktioner som diagnostik i realtid med ljudmiljö och interimtranskriptionsresultat. Småföretag och organisationer kommer dock att kämpa med den tekniska utmaningen att sätta upp Watson ordentligt.

Tävlingen

IBM Watson Speech to Text-tjänsten är en direkt konkurrent till bulktranskriptionstjänster Google Cloud Speech-to-Text och Amazon Transcribe. Båda dessa är betydligt billigare än Watson, med till exempel Google Cloud-transkription, som börjar med $ 0,006 per minut. Alla tre tjänsterna delar liknande funktioner, till exempel anpassade ordförråd, men en funktion som saknas hårt från IBM Watson men som finns med båda konkurrenterna är automatisk igenkänning av skiljetecken.

Letar du efter en annan lösning för text-till-text? Kolla in vår Bästa tal-till-text programvaruhandbok.