2008.09.20 15:36
co zrobić, kiedy w mplayerze oglądasz film z polskimi napisami i zamiast polskich liter widzisz podkreślenie ("_")
Kiedy oglądasz mplayerem film z polskimi napisami i zamiast polskich liter widzisz podkreślenie ("_"), sprawdź, jakie masz ustawione locale. Ja zauważyłem, że kiedy locale mam ustawione na coś innego niż pl_PL.ISO8859-2 i oglądam film z napisami w ISO8859-2, to nawet jeśli powiem mplayerowi, że napisy są kodowane w ISO8859-2 (opcją -subcp=iso-8859-2), i tak zaimast ogonków mam nieraz podkreślenie. Nie wiem, czemu tak się dzieję, ale odnotowuję, bo może kiedyś ktoś będzie miał ten problem, pogoogluje i przeczyta te słowa.
komentarze:
2008.09.20 16:05 Jurgi
Dla odmiany w windowsowej wersji MPlayera (np. z nakładką SMPlayer) trzeba się upewnić, że kodowanie znaków ustawione jest na standard Windows, a nie ISO, inaczej będą krzaki.
2008.09.20 16:17 Piotrek
Można by pewnie dorobić do mplayera odgadywanie kodowania. W ogóle odgadywanie kodowania jest ciekawą i słabo ruszoną sprawą. Bo jak na przykład odróżnić tekst w ISO-8859-2 od tekstu w ISO-8859-1? Ja myślę, że po częstości występowania różnych znaków.
2008.09.20 18:19 marcin
Kiedyś dawno temu robiłem automatyczne rozpoznawanie \"standardów\" kodowania polskich znaków - zaimplementowałem dwie metody:
- opartą na statystyce istniejących tekstów w języku polskim
- opartą na wyliczaniu ujemnych punktów za znaki nienależące do danego standardu
podsumowując, znając język nie ma specjalnie problemu w rozpoznawaniu kodowania
http://the.fork.pl/code/attic/plc/
2008.09.20 20:24 Piotrek
@marcin: o, fajnie. A ja bym poszedł w swoich marzeniach jeszcze dalej - ja myślę, że da się znaleźć kodowanie nawet nie znając języka. Na przykład odgadywać od razu i język, i kodowanie.
2008.09.21 02:45 Marcin
niebanalne ale do zrobienia
http://en.wikipedia.org/wiki/Wikipedia:Language_recognition_chart
http://labs.translated.net/language-identifier/
2008.09.29 21:10 Jurgi
Jest taki program do rozpoznawania języka. Wkleja mu się fragment i wylicza prawdopodobieństwo, czyli pewnie bazuje na statystyce. Nazywa się Polyglot 3000.
A program konwertujący polskie krzaki z automatycznym rozpoznawaniem to widziałem z 7 lat temu, już wtedy był leciwy. Łapał nawet kodowania z ośmiobitowego Atari. :D Był w pakiecie z czymś większym… Nazwy nie pamiętam, pewnie jest na moim starym kompie, ale nie mam dostępu do niego.
powrót na stronę główną
RSS