Kansallisarkiston uusi Tuomiokirjahaku-verkkopalvelu avautuu tänään. Palvelussa on mahdollista selata ja hakea 1800-luvun renovoituja tuomiokirjoja Suomen alueelta. Digitoituihin asiakirjoihin on tehty automaattinen tekstintunnistus tekoälyä hyödyntävän HTR-teknologian avulla.
Renovoidut tuomiokirjat ovat yksi Kansallisarkiston suurimmista kokoelmista. Verkkopalveluun tallennetut asiakirjat ovat ilmoitusasioiden pöytäkirjoja vuosilta 1809–1870. Ne käsittelevät lainhuutoja, kiinnityksiä, holhousasioita ja avioehtoja. Ilmoitusasioiden pöytäkirjoja voi käyttää esimerkiksi sukututkimukseen tai kiinteistöjen omistajuuden jäljittämiseen.
Tuomiokirjahaku-sivustolle on myös tuotu hakua helpottavia toimintoja, kuten hakutermilistauksia sekä karttoja, jotka selventävät tuomiokuntajakoa eri aikoina. Lisäksi Kansallisarkiston verkkosivuilla on julkaistu ohjevideoita, jotka opastavat palvelun käyttöön ja antavat erityisesti aloitteleville käyttäjille ideoita siitä, kuinka Tuomiokirjahakua voi hyödyntää.
Tuomiokirjahaun testiversio oli avoinna käyttäjille syyskuun ajan, ja testijaksosta saatiin varsin myönteistä palautetta. ”Palautteen perusteella näyttää siltä, että Tuomiokirjahaulle on paljon kysyntää”, toteaa ylitarkastaja Maria Kallio Kansallisarkistosta. ”Tavoitteena oli myös varmistaa palvelun käytettävyys, ja myös tässä suhteessa testijakso vahvisti käsityksemme siitä, että palvelu on valmis avattavaksi kaikkien käyttöön.”
Automaattinen tekstintunnistus ei ole täysin virheetöntä. Kaikki palvelussa olevat aineistot ovat tekoälyn lukemia, eikä niitä ole jälkikäteen muokattu. Teknologia kehittyy kuitenkin jatkuvasti ja nopeasti, joten tulevaisuudessa voidaan odottaa entistä parempia tekoälyn lukemia aineistoja. Lisäksi Tuomiokirjahaku-palvelun aineistoa on tarkoitus täydentää muun muassa 1800-luvun varsinaisasioiden pöytäkirjoilla sekä laajentaa ajallisesti. Parhaillaan kehitetään vuosien 1880−1918 käsialoja lukevaa mallia.
Sivustolla selattavat transkriptiot on luotu käyttäen kognitiivisen tekoälyn käyttöön perustuvaa HTR-teknologiaa (handwritten text recognition). Sen pohjalta käsin transkriboiduista eli nykytekstiksi muunnetuista sivuista luodaan tekstintunnistusmalleja. Kansallisarkisto on kehittänyt 1800-luvun tuomiokirjoille oman tunnistusmallin, jonka avulla verkkopalvelun aineisto on transkriboitu automaattisesti.
Haku perustuu keyword spotting -teknologiaan, joka etsii haettua sanaa HTR-mallin muodostamista varmuusmatriiseista. Haku ei siis kohdistu tekstimuotoiseen transkriptioon, vaan kuvan taustalle luotuun tietoon. HTR-malli antaa jokaiselle aakkoselle todennäköisyysluvun perustuen siihen, miten varma malli on siitä, että tietty osa kuvasta vastaa tiettyä aakkosta.
Kansallisarkisto on luonut Tuomiokirjahaku-palvelussa hyödynnettävän tekstintunnistusmallin Euroopan unionin rahoittamassa READ (Recognition and Enrichment of Archival Documents) -hankkeessa. Nyt arkistoaineistojen tunnistus ja rikastaminen jatkuu Euroopan-laajuisen READ-COOP-osuuskunnan puitteissa. Tuomiokirja-aineistojen lisäksi Kansallisarkisto on hyödyntänyt hankkeen tuloksia Making a Modern Archive -projektissa, jossa hankkeessa kehitettyjä teknologioita integroidaan Kansallisarkiston digitaaliseen infrastruktuuriin.
Tuomiokirjahaku-verkkopalveluun (https://tuomiokirjat.narc.fi/)
ylitarkastaja Maria Kallio, puh. 029 533 7194, [email protected]
Kansallisarkisto tekee työtä sen puolesta, että tulevaisuuden sukupolvet voivat perustaa päätöksenteon ja tutkimuksen todelliselle tiedolle suomalaisesta yhteiskunnasta. Toiminta takaa kansalliseen kulttuuriperintöön kuuluvien tietojen muuttumattomuuden sekä mahdollisuuden tiedon laajaan hyödyntämiseen yhteiskunnassa. Toimipaikat sijaitsevat Helsingissä, Hämeenlinnassa, Inarissa, Joensuussa, Jyväskylässä, Mikkelissä, Oulussa, Turussa ja Vaasassa.
© Koodiviidakko Oy - Y-tunnus 1939962-1