Sophie: aspell-cs-20040614.1-10 x86

aspell-cs-20040614.1-10.x86_64.rpm

                         Czech data for ispell

The dictionary is rapidly evolving - see ftp://ftp.vslib.cz/pub/unix/ispell/
for actual version!

                         Èeská data pro ispell

V¹echny tyto soubory jsou ve stádiu pomìrnì rychlých zmìn. Sledujte
ftp://ftp.vslib.cz/pub/unix/ispell/, kde jsou zveøejòovány nejnovìj¹í verze.

Slovník je rozdìlen na následující èásti:

hlavni.cat	Pravidelná skloòovaná podstatná jména a pøídavná jména,
		(vèetnì tìch, která mají kromì pravidelných tvarù jeden
		nebo více tvarù nepravidelných), v¹echna slovesa, a
		pøíslovce odvozená od pøídavných jmen flagem R
nepravid.cat	Nepravidelná podstatná jména a pøídavná jména (jsou
		uvedeny v¹echny tvary bez flagù)
nesklon.cat	Nesklonná podstatná a pøídavná jména (mají jediná tvar)
zajmena.cat	Zájmena
cislovk.cat	Èíslovky
prislovc.cat	Pøíslovce (kromì pøíslovcí odvozených z pøídavných jmen
		flagem R)
predlozk.cat	Pøedlo¾ky (vèetnì víceslovných)
spojky.cat	Spojky (vèetnì víceslovných)
citoslov.cat	Citoslovce
castice.cat	Èástice
zkratky.cat	Iniciálové zkratky a zkratky typu napø., apod.
nezaraz.cat	Dosud nezaøazená slova
krestni.cat     Køestní jména
prijmeni.cat    Èeská pøíjmení
narstjaz.cat    Jména národù, státù a jazykù
obce.cat        Jména obcí v ÈR
geogr.cat       Zemìpisná jména v ÈR i ve svìtì, jména mìst mimo ÈR
cizi.cat        Cizí jména
nazvy.cat       Ostatní názvy

Zdrojový soubor czech.a-z pro vytvoøení slovníku pro ispell se získá takto:

    perl -pe 'print "echo "' *.cat | sh - | \
      perl -pe 's/ +/\n/g; s/[{}\.]//g; s/-/\n/g' > czech.a-z

Slouèený soubor se zpracuje pøíkazem buildhash:

    buildhash czech.a-z czech.aff czech.hash

který vytvoøí slovník pro ispell. Po zkopírování souboru czech.aff a
czech.hash do adresáøe, ve kterém ispell oèekává slovníky, lze ispell
pou¾ívat pøíkazem

    ispell -d czech kontrolovaný_soubor

Pokud pøi nalezení neznámého slova pøi kontrole textu zvolíte mo¾nost
I)nsert, pøidá se slovo do souboru $HOME/.ispell_czech. Chcete-li pomoci
s vytváøením slovníku, za¹lete tento soubor (pokud mo¾no vyèi¹tìný od
nespisovných a cizích slov a pøípadných HTML znaèek nebo pøíkazù pro
TeX) na adresu Petr.Kolar@vslib.cz.

Pokud chcete pouze pøispìt k roz¹íøení slovníku a nechcete text zdlouhavì
interaktivnì kontrolovat, mù¾ete pou¾ít pøíkaz

    ispell -d czech -l < kontrolovaný_soubor > výstup

který pracuje neinteraktivnì a ulo¾í do souboru výstup v¹echna slova
ze vstupního souboru, která nejsou obsa¾ena ve slovníku spell checkeru.
Tento výstupní soubor za¹lete pro úèely roz¹iøování slovníku. Zasílejte
pouze slovníky vzniklé kontrolou souèasných pøevá¾nì spisovných textù
(Mácha nebo Neruda pravdìpodobnì není na závadu, ale tøeba Bible Kralická
u¾ vhodná není).

Rozdìlení zdrojového slovníku na èásti je provedeno z toho dùvodu, aby
bylo mo¾né slovník snadno doplòovat (zatím ov¹em pomù¾e více, kdy¾ po¹lete
syrový seznam neznámých slov):

Soubor výstup se slouèí se souborem hlavni.cat, retrográdnì setøídí
(slova se setøídí jako by byla napsaná pozpátku, aby se snadno doplòovaly
flagy):

    perl retro.p hlavni.cat výstup | perl sort.p | perl retro.p > hlavni1.cat

V souboru hlavni1.cat je pak tøeba (na øádcích, které neobsahují ¾ádné
lomítko) doplnit flagy. Slova, která do souboru nepatøí (pøíslovce apod.),
se potom pøemístí do jiných souborù. Na závìr se pøipojí dosud nezaøazená
slova do nezaraz.cat a výsledkem je nová verze souboru hlavni.cat:

    grep -v / hlavni1.cat >> nezaraz.cat
    grep / hlavni1.cat > hlavni.cat

Pro doplòování flagù lze pou¾ít i skript blemma - viz soubor ceskeaff.txt.
Jeho úèinnost je v¹ak pomìrnì nízká a chybovost pomìrnì velká.

                                                  Petr.Kolar@vslib.cz