Podcast-litterointi Google-dokumentin avulla

Puheen litteroiminen on työlästä. Pienimuotoista podcast-litterointia voi helpottaa esimerkiksi Google-dokumentin sanelutoiminnon avulla.

Litterointi tarkoittaa ääni- tai videotallenteella olevan puheen muuttamista kirjoitetuksi tekstiksi. Litterointi on muutakin kuin tallenteiden kuuntelua; sisältö on ymmärrettävä, ja mitään ei saa jättää pois.

Litteroinnilla puhuttu tallenne muutetaan kirjoitetuksi tekstiksi | Semantix

Tein edellisessä julkaisussa mainitsemani Oiva-hankkeen mentorointi-podcastin litteroinnin tällä tekniikalla.

Tarvikkeet

  1. Tietokone, johon saa liitettyä ulkoisen äänilähteen. Tähän tarvitaan mahdollisesti ulkoinen äänikortti, jossa on mikrofoni/linjatulo äänelle. Minulla oli käytössä Zoom H2N -mikrofoni, joka toimii ulkoisena äänikorttina ja johon saa yhdistettyä myös puhelimen.
  2. Matkapuhelin, jossa on mediasoitin ja äänilähtö kuulokkeille
  3. Audiokaapeli, joka sopii puhelimen kuulokeliitäntään ja tietokoneen tai äänikortin audioliitäntään (usein toimii 3,5mm uros – 3,5mm uros -audiokaapeli).

Litterointiprosessi

  1. Avaa litteroitava podcast tai äänitiedosto matkapuhelimesi mediasoittimella (tai verkkoselaimella, jos tiedosto on jo julkaistu)
  2. Liitä matkapuhelin tietokoneeseen audioliitäntään sopivalla kaapeli
  3. Avaa uusi Google-tekstidokumentti, sitten Työkalut / Puhekirjoitus
  4. Käynnistä sanelu ”Klikkaa ja puhu” -painikkeesta.
  5. Käynnistä podcast matkapuhelimesta.
Google-dokumentin klikkaa ja puhu -painike, jolla sanelu käynnistyy

Tämän jälkeen pitäisi Google-dokumenttiin muodostua tekstiä podcastin puheen mukaisesti. Onnistumiseen vaikuttaa podcastin äänenlaatu sekä puhujan artikulointi ja puhenopeus. Myös verkkoyhteyden pitää olla hyvä, koska puheentunnistus tapahtuu käsittääkseni Googlen palvelimilla reaaliaikaisesti verkon yli.

Todennäköisesti sanelutoiminnolla tehty litterointi sisältää runsaasti virheitä, joten teksti on käytävä ainakin kertaalleen läpi ääniraidan kanssa. Tässä vaiheessa on hyvä korjata virheet sekä lisätä puhujien nimet ja tarvittaessa aikakoodit dialogiin.

Minulla kului tällä tekniikalla noin 3,5 tuntia 20 minuutin mittaisen podcastin litterointiin ja tekstin muotoiluun ja julkaisemiseen verkkosivuilla.

Muita litterointityökaluja

Puheentunnistus kehittyy ja litterointiin on sovelluksia, joista itselläni ei ainakaan vielä ole kokemusta. Listaan tähän kuitenkin muutaman vaihtoehdon. Suomenkielisten podcastien osalta haasteena on pieni kielialue, jonka vuoksi suomen kieli ei ole etusijalla suurille markkinoille pyrkivien yritysten palveluissa.

  • Microsoft Word (Office 365 & Web) – Word-tekstinkäsittelyohjelmaan tuli sanelutoiminto (Dictate) syksyllä 2020, ja lisäksi on toiminto tekstin litteroinnille (Transcribe) äänitiedoston pohjalta. Transcribe toimii tällä hetkellä vain englanninkielisellä puheella, sanelu myös suomeksi.
  • Sonix
  • Watson Speech to Text
  • Ääni Company

Jos sinulla on kokemuksia tai vinkkejä podcastien saavutettavuuteen ja tekstiversioiden tekemiseen liittyen, voit jakaa ne kommenttikentässä.

Lue myös edellinen julkaisu, joka käsittelee podcastin suhdetta saavutettavuusvaatimuksiin.


Artikkelin kansikuva: Christopher Ivanov on Unsplash.

Vastaa