Muut työkalut

IRC kanava:
#avoindata

Luonnollisen äidinkielemme käsittely

1 tykkäys 0 ei tykkää
  • Tomi Toivio
  • Points : 210
  • Ranked : 30
  • Badges : 3 5
  • http://ukulilandia.lol
  • Location : Espoo
  • Tomi Toivio is a M.Soc.Sci, journalist, translator, PHP programmer, and who knows what else?
210
kysytty 11. huhtikuuta, 2014 kategoriassa Suomen avoimen datan portaalin rakentaminen | TomiToivio (210 pistettä) toimesta

Luonnollisen eli ihmisten puhuman kielen käsittelyyn on tarjolla monia erilaisia helppokäyttöisiä avoimen lähdekoodin työkaluja, jotka sopivat loistavasti englanninkielisen tekstin käsittelyyn. Suomen käsittely koneellisesti on huomattavasti vaikeampaa. 

Osittain tarvittaisiin opastusta suomenkielisen tekstin käsittelyyn olemassaolevilla työkaluilla, osittain työkalut eivät toimi suomeksi niin hyvin.

Ensimmäisessä vaiheessa olisi tärkeää koota vähintäänkin avoin opas suomenkielisen tekstin käsittelyyn nykyisillä työkaluilla ja resursseilla. Aiheesta voitaisiin pitää myös koulutuksia. 

Lisäksi voitaisiin miettiä onko avattavia työkaluja olemassa ja onko mahdollista kehittää niitä lisää?

Luonnollisesti kyse on tulevaisuuden kannalta suuresta kysymyksestä, johon tulisi mielestäni panostaa paljonkin resursseja.

Osittain kyse on myös siitä, että suomen kielen työkaluihin tarvitaan dataa suomen kielestä: sanastoja, erisnimilistoja, raakatekstiä, (käsin) annotoituja tekstikorpuksia, puhenäytteitä jne.

1 vastaus

1 tykkäys 0 ei tykkää
  • Ranked : 26059
vastattu 11. huhtikuuta, 2014 | Timo Honkela toimesta
Aloitin vuodenvaihteessa Helsingin yliopiston Nykykielten laitoksella digitaalisten aineistojen tutkimuksen professorina ja tarkoitukseni on muun muassa edistää ja edesauttaa esitetyn kommentin ja kysymyksen mukaisia asioita muiden tutkimus- ja opetustehtävien ohella. Laitoksen kieliteknologian yksikkö on Suomen johtava suomenkielisen kieliteknologian kehittäjä ja välineitä ollaan lisääntyvässä määrin siirtämässä avoimen tieteen piiriin. Asiaan liittyvää tutkimus- ja kehitystyötä tehdään myös Kansalliskirjaston Digitointi- ja konservointikeskuksessa, jossa monet tehtävät sisältävät samankaltaisia haasteita kuin mitä muillakin alueesta kiinnostuneilla on. Tehtäväkentän laajuudesta johtuen en rohkene luvata välittömiä tuloksia, mutta pyrimme tuomaan tuloksia käyttöön mahdollisimman laajasti. Myös erilaisten hackathon- yms. tapahtumien järjestäminen yhteistyössä aiheesta kiinnostuneiden kanssa tulee jatkossa myös kyseeseen.
Hienoa! Osallistuin äskettäin HSL:ltä avoimen meSpeak.js-puhesyntetisaattorin kehitykseen sen verran, että ääkköset saatiin toimimaan, mutta synteesin laadussa on paljon toivomisen varaa - onkohan tämä nykytila vai löytyykö laadukkaampaa avointa synteesiä? http://www.masswerk.at/mespeak/

Avoimessa puheentunnistuksessa taas tiedossani on Simon, jossa on sanelutoiminto demoasteella ja tietääkseni vain englanniksi, mutta tähtäimessä on suurempi Open Speech Initiative: http://grasch.net/node/24
Sisällön lisenssi:

Datatoiveet

Aiemmat datatoiveet:

Esitä datatoive!

Tietoja

Avoindata.net on pystytetty suomalaisen avoimen datan verkoston avoimeksi tukisivustoksi. Suomalaisten tietovarantojen kieli on monesti suomi. Käytä siis suomen kieltä.


Kategoriat ovat työn alla, joten jos kaipaat jotain kategoriaa, lähetä palautetta.

203 kysymystä

237 vastausta

165 kommenttia

26,058 käyttäjää

Suosituimmat tagit

Sponsorit

...