Kursusest

Tere tulemast Korpuslingvistika kursuse kodulehele. Sellel kursusel tutvustatakse keelekorpuste koostamispõhimõtteid ja automaatse koostamise, märgendamise ja valideerimise viise. Tutvutakse korpuse analüüsi meetodite ja vahenditega.

9 mõtet “Kursusest” kohta

  1. Mis asjad on “valged vahed”? Kas need on nö. päris sõnavahed, mitte need vahed, mis tehislikult tekitatakse nt sõnade ja kirjavahemärkide vahele?

    1. Siia võib arvestada pea kõik n-ö nähtamatud märgid: tühik, tabulaator, reavahetus (enter), lehevahetus (form feed). Mis märke täpselt \s kaasab, võib eri keskkondades erineda, aga maintud märgid on suure tõenäosusega selles hulgas alati.

  2. Kodutöö teises ülesandes on hetkel selline lause: “Lisaks peab otsing välja jätma mas-vorm peab esinema kindlasti olema-le järgnevas sõnas, mitte esmalt otsitavas tüves.”, kus peaks ilmselt kaks eraldi lauset olema. Mis siis ikka otsingust välja jääma peab?

  3. Jah, vabandan, oli kogemata jäänud üks poolik lause sinna, kustutasin selle nüüd ära. Aga muidu mõte ikka sama, mida loengus selgitasin: mas-vorm peab siis esinema kusagil olema-le järgnevas sõnas, mitte esimeses otsitavas olemas, näiteks laused “Industriaalühiskonnas on probleem, mida teha tarbekaupade ülejäägiga, varjatult olemas olnud juba XIX sajandi lõpust peale. Olemas!” jääks tulemusest välja, aga “Industriaalühiskonnas oli probleem olemas olnud juba XIX sajandi lõpust peale.” jääks sisse. Siin ei tasu väga üle mõelda, sest praktikas on asi üsna lihtne, tuleb lihtsalt tagada, et esimesele otsitavale olema-le järgneks veel vähemalt üks sõna, mis on mas-vormis.

Kommenteerimine on suletud