antykonkordancja

Konkordancja to lista słów, które są w Biblii. A ja zrobiłem antykonkordancję — czyli listę słów, których w Biblii nie ma.

Wziąłem listę czterech tysięcy najpopularniejszych słów w języku polskim. Odrzuciłem te, które występują w Biblii. To, co zostało, to właśnie antykonkordancja. Tu możecie ją sobie obejrzeć (a tu jest wersja html). Na tej liście (to jest plik tekstowy, zakodowany w utf-8) w każdej linijce jest słowo oraz liczba mówiąca, jak popularne w języku polskim jest to słowo. Im liczba większa, tym słowo popularniejsze.

Tutaj są narzędzia, którymi zrobiłem antykonkordancję. A zrobiłem ją tak. Najpierw ze strony http://students.mimuw.edu.pl/~ja235896/biblia/download.php ściągnąłem całą treść Biblii Tysiąclecia w postaci javowego programu i wyczarowałem z tego plik biblia.txt — plik tekstowy z całą treścią Biblii. Potem odpaliłem program slowa_biblii.py — nim stworzyłem plik slowa_biblii.txt, w którym są wszystkie słowa występujące w biblii. Potem ze strony http://sjp.pl/slownik/odmiany/ ściągnąłem odmianę wszystkich słów w języku polskim i wypakowałem ją do pliku odmiana.txt. Potem odpaliłem program odmiana_slow_biblijnych.py — on na podstawie plików slowa_biblii.txt i odmiana.txt stworzył plik ze wszystkimi słowami występującymi w biblii we wszystkich możliwych formach; ten plik nazwałem slowa_biblii_odmienione.txt. Potem odpaliłem program frekwencja.py — on z polskiej wiktionary pobrał słownik frekwencyjny i wypluł go w postaci csv, zapisałem to do frekwencja.txt. Potem odpaliłem program antykonkordancja.py — on od pliku frekwencja.txt odjął plik slowa_biblii_odmienione.txt, tworząc antykonkordancję, którą zapisałem w pliku antykonkordancja.txt. Poczytałem antykonkordancję i zobaczyłem, że była dobra, więc wrzucam ją na stronę. Miłej lektury.

Uwaga: w antykonkordancji są wulgaryzmy. No co ja wam poradzę: to są popularne słowa w języku polskim i w Biblii naprawdę ich nie ma.