драўляны зэдлік   С.Б.Е.Ў.К.: чытай, што пішуць
 


Артыкулы
 
level up!

Лацінізуй!    // напісана адмыслова для праекту lacinka.org

Цалкам зразумелым і лягічным зьяўляецца імкненьне чалавека спрасьціць сабе жыцьцё, і людзі ідуць на ўсё новыя і новыя ахвяры дзеля ажыцьцяўленьня гэтага самага працэсу спрашчэньня таго ці іншага.

У свой час праграмісты дарваліся да лацінкі і адразу зразумелі, што фармальна лацінка ад кірыліцы адрозьніваецца хіба што толькі сымбалямі. Зразумелі і адразу стварылі новую праграму — першы лацінізатар. Сказаць, якая менавіта праграма была першай, цяжка, бо ў любым выпадку знойдзецца аўтар, які закрычыць: «А я яшчэ ў шасьцідзясятыя на пэрфакартах лацінізатары муціў». Магчыма, таму ня будзем высьвятляць, хто быў першым, а вернемся да рэчаіснасьці.

Канвэртатараў з кірыліцы ў лацінку зараз разьвялося столькі, што вылучыць адзін лепшы з процьмы астатніх, не паспрабаваўшы карыстацца кожным, надзвычай цяжка. Гэта і зьявілася падставай для правядзеньня адноснага параўнаньня лацінізатараў, даступных сёньня карыстальніку. Такім чынам, у сёньняшнім drive-тэсьце удзел бяруць: Белазар v3.6.2.2015, CyrLat-HTML v1.1, Cyr/Lat Converter v1.10, Cyr2Lat, kirlat, Моўны Канвэртар v2.3 і Kir2Lac v2.0.2. Акрамя гэтага макрасы для Microsoft Word cyrlat і word2000, а таксама тры online-лацінізатары.

Два словы пра абсталяваньне і працэс тэставаньня

Тэставаньне праводзілася на ангельскай WinXP Pro з выкарыстаньнем кодавай табліцы windows-1251 для неunicodeавых праграмаў. Канвэртавалася аповесьць В.Быкава «Ваўчыная яма» (130Кб). Рэйтынг вылічаўся як сярэдняе арытмэтычнае адзнакаў, атрыманых лацінізатарам за interface, хуткасьць работы, якасьць канвэртаваньня, наяўнасьць дадатковых магчымасьцяў і зручнасьць карыстаньня вынікам работы праграмы. Адзнакі адносныя і прыведзеныя менавіта ў такой пасьлядоўнасьці. Ацэньвалася толькі частка праграмы, зьвязаная з лацінізаваньнем кірылічнага тэксту.

Праграмы

Белазар v3.6.2.2015
Аўтар: Алег Азароўскі
Старонка праграмы: belazar.belinter.net
Памер: 1,9Мб (разам са слоўнікам)

Белазар 3.6.2.2015

Такі своеасаблівы камбайн, пра які ўжо ходзяць легенды. Некаторыя зь ягонай дапамогай пішуць сачыненьні, іншыя ж проста абмяжоўваюцца функцыяй перакладу. І хоць пераклад яшчэ ня вельмі дасканалы, ў апошніх вэрсіях праграмы зьявілася функцыя экспарту ў лацінку, а менавіта яна нас зараз і цікавіць. Праграма можа захоўваць лацінку ў кадыроўцы cp-1257 і ў фармаце HTML Unicode. У першым выпадку аповесьць была канвэртаваная ў лацінку за 1 сэкунду, у другім выпадку — за 54 сэкунды. Але якасьць канвэртаваньня вельмі нізкая: слова «вераб'і» канвэртуецца ў «vierab'i» у той час, калі апострафа ў лацінцы ўвогуле не існуе, «у Балёньі» — у «u Balońi», «Заслаўе» перайшло ў «Zasłaŭie». Файна, што слова «ЯНКА» было лацінізаванае ў «JANKA». Літара «g» узьнікае ў выніковым тэксьце ў тых і толькі тых выпадках, калі праграма сустрэне спалучэньне літараў «зг», што вельмі дрэнна, бо большая частка «g» застанецца нераспазнанай, а таксама праграма наўтыкае лішніх «g» у словах, дзе другая літара ў спалучэньні «зг» зьяўляецца фрыкатыўным гукам: напрыклад, у спалучэньнях кораня з прыстаўкай. Праграма цалкам ігнаруе літару «ґ» і перадае яе ў лацінку без аніякіх зьменаў. Было б добра пры наяўнасьці экспарту ў кадыроўцы HTML Unicode зрабіць магчымасьць аўтаматычнай устаўкі HTML-фарматаваньня, прынамсі пераносу на новы радок. Ня можа працаваць без усталёўкі, што таксама не зьяўляецца плюсам для яе.
Рэйтынг: 4.4 (8/2/2/5/5)

CyrLat-HTML v1.1
Аўтар: Зьм. Гулецкі
Старонка праграмы: www.geocities.com/belarus_coins/cyrlat.html
Памер: 1,1Мб (542Кб ва ўсталёвачным архіве)

CyrLat-HTML 1.1

Праграма, як гэта зразумела з назвы прызначаная толькі для канвэртаваньня кірыліцы ў лацінку і захаваньня выніку ў выглядзе HTML-старонкі ў адпаведнай кадыроўцы. Можа канвэртаваць тэкст як са зьнешняга файлу, так і з адмысловага поля, куды яго трэба ўводзіць. Аповесьць з файла канвэртавалася крыху менш за 3 сэкунды, з экрану — за 7. Адразу кідаецца ў вочы, што праграма замест літары «ŭ» упарта выкарыстоўвае «ū», хоць у беларускай лацінцы выкарыстоўваецца першая, а Unicode дазваляе выкарыстоўваць любую. Таксама ня вельмі спадабалася, што працэс экспарту тэксту з поля на экране праграма робіць няправільна з-за чаго ўзьнікаюць дадатковыя пераносы радкоў. Пра HTML-тэгі праграма таксама нічога ня ведае. Апроч таго, «вераб'і» былі ператвораныя ў «vierabi», «у Балёньі» — ва «u Balońi», «зь Я.Чачотам» ператварылася ў «ź JA. Čačotam» — траблы з рэгістрам літараў. Цікава яшчэ тое, што слова «функцыі» праграма канвэртуе ў «funkcyji», а «у Заслаўі» — у «u Zasłaūi», хоць правіла тут адно і тое ж.
/* Тут варта зазначыць, што зараз суіснуюць два найбольш распаўсюджаныя варыянты клясычнай лацінкі: тая, дзе гук [йі] перадаецца як «i» і тая, дзе ён перадаецца як «ji». Большасьць лацінізатараў пабудаваныя пад першы варыянт, а гэты, відаць, — пад другі. Увогуле, калі не сказана адваротнага, трэба лічыць, што канвэртатар выкарыстоўвае першы варыянт лацінкі. */
Слова «ЯНКА» тут таксама канвэртуецца ў «JANKA», што несумненна зьяўляецца плюсам.
Рэйтынг: 5.8 (8/9/4/1/7)

Cyr/Lat Converter v1.10
Аўтар: Віктар Аўтушка
Старонка праграмы: lng.belinter.net
Памер: 479Кб (228Кб ва ўсталёвачным архіве)

Cyr/Lat Converter 1.10

Вакно праграмы падзеленае на дзьве часткі: у адной кірылічны арыгінал, у другой — вынікі лацінізаваньня. Праграма мае магчымасьць канвэртаваньня тэксту ў адну з трох кадыровак: CE, Baltic, ASCII. Увогуле, альгарытм працуе правільна, але, на жаль, вынік дужа залежыць ад кадыроўкі, прычым карыстацца ім цяжка (калі нават увогуле магчыма) без наяўнасьці Baltic codepage, якая ёсьць далёка, далёка ня ў кожнага. У кожнай з кадыровак «Яма» была лацінізаваная зa прыкладна 10 сэкундаў.
Рэйтынг: 5.4 (6/6/9/4/2)

Cyr2Lat
Аўтар: Marat Duchan
Спасылка: dukhan.at.tut.by/latinka/Cyr2Lat.zip
Памер: 14Кб (непасрэдна бібліятэка - 2Кб)

Насамрэч гэта не самастойная праграма, а толькі функцыя канвэртаваньня, даступная ў фармаце lib і ў выглядзе dll-бібліятэкі. Таму найбольш зручнай яна будзе пры выкарыстаньні ў іншых праграмах у якасьці, напрыклад, ядра лацінізатара або функцыі лякалізацыі інтэрфэйсу праграмы на лацінку ў рэальным часе. Функцыя прымае 3 парамэтры: тэкст для канвэратваньня, буфэр для выніку і даўжыню буфэру. Хуткасьць канвэратваньня вельмі высокая: аповесьць была апрацаваная за ўсяго толькі 0,3 сэкунды. Але хіба з «u Balońi» усё роўна крыху сапсавала агульнае ўражаньне.
Рэйтынг: 5.25 (-/10/8/0/3)

Kirlat
Аўтар: Alexander Mikhailian
Спасылка: www.mova.org/~lowry/
Памер: каля 50Кб

Kirlat

Розныя вэрсіі гэтай праграмы ходзяць па інтэрнэце, але знайсьці сайт, на якім бы яны разьмяшчаліся, не атрымалася. Цікава таксама, што вэрсіі не нумаруюцца, але час ад часу дапрацоўваюцца. Распаўсюджваецца праграма разам з зыходным кодам, жыве ў сыстэмным трэі і мае некалькі кірункаў канвэртаваньня, сярод якіх канвэртаваньне з кірыліцы ў лацінку і назад. Праграма працуе праз буфэр абмену, канвэртуючы тэкст, які там знаходзіцца, і перазапісваючы яго вынікам. Аповесьць была лацінізаваная за 11 сэкундаў, але вынікі канвэртаваньня ня вельмі ўразілі: «вераб'і» ператварыліся ў «vierab'i», «у Балёньі» — ва «u Balońi», «Заслаўе» — у «Zasłaŭie», ігнаруецца літара «ґ», незразумелыя рэчы адбываюцца з адзіночнымі ётаванымі літарамі (напрыклад, калі гэта ініцыялы), таксама па незразумелых прычынах ётаваныя літары ў некаторых выпадках перадаюцца з «i» у той час, калі мусяць з «j». Зручная праграмка для хуткага канвэртаваньня невялікіх тэкстаў, але яна яшчэ мусіць быць дапрацаваная.
Рэйтынг: 5.0 (8/6/4/2/5)

Моўны Канвэртар v2.3
Аўтар: Юрась Міхед
Старонка праграмы: www.juras14.net/open.php?r=5
Памер: 43Кб (у архіве; магчыма, спатрэбіцца дадатковая бібліятэка: 58Кб у архіве)

Моўны Канвэртар 2.3

Адна з найбольш дасканалых праграмак сёньняшняга агляду. Мае тэкставае поле, якое, відаць, працуе ў кадыроўцы Unicode, дзе, уласна, трэба рэдагаваць тэкст і глядзець на вынікі. Таксама прысутнічае ручны выбар набору сымбаляў для ўводу. Такая магчымасьць вельмі зручная пры адсутнасьці кірылічнай або лацінкавай раскладкі: праграма ператварае сымбалі клявіятуры ў сымбалі адпаведнай раскладкі і выводзіць іх на экран. Хаця крыху назіраліся хібы, калі быў выбраны пункт «сыстэмная»: сымбалі, якія зьяўляліся на экране не адпавядалі сымбалям націснутых клявішаў у сыстэмнай раскладцы. Праграма таксама мае звычку аўтаматычна пераключыць раскладку на, як ёй здаецца, найбольш рэлевантную, але гэта больш раздражняе, бо пераключэньне адбываецца ў большасьці выпадкаў тады, калі рабіць гэта ня трэба. Аповесьць была лацінізаваная за 2 хвіліны 6 сэкундаў. Даволі шмат. Таксама тут прысутнічае тая ж хіба ў «u Balońi», але «у Заслаўі» канвэртавалася ў «u Zasłaŭi», хоць відавочна, што праграма перадае гук [йі] праз «ji». Далей карыстальніку прапануецца магчымасьць захаваць вынік у адным зь пяці фарматаў, сярод якіх ёсьць і Unicode. Сымбалі, якія не прысутнічаюць у кодавай табліцы захаваньня захоўваюцца ў г.зв. «HTML-Unicode». Цікава, што калі выбраць у мэню пункт «Захоўваць у Unicode (HTML)», некаторыя сымбалі замест Unicode-кодаў захоўваюцца ў адной з цэнтральнаэўрапейскіх кадыровак, прычым не зразумела якая канкрэтна гэта кадыроўка. Апроч лацінізаваньня ў праграме таксама прысутнічаюць функцыі кірылізаваньня і прымітыўнага тарашкевізаваньня.
Рэйтынг: 6.2 (8/0/7/6/10)

Kir2Lac v2.0.2
Аўтар: j.Zedlik
Старонка праграмы: www.zedlik.com/pragramy/kir2lac/
Памер: 263Кб (усталёвачны архіў)

Kir2Lac 2.0.2

Праграмка з простым інтэрфэйсам на два полі — зыходны файл, выходны файл — і поля, у якое выводзяцца ўсе службовыя паведамленьні адносна канвэратваньня падчас работы праграмы. Уваходнымі зьвесткамі зьяўляецца plain text у кадыроўцы cp-1251. Вынік праграма можа захаваць як таксама plain text у адным з чатырох рэжымаў: лацінкавыя сымбалі, якія не ўваходзяць у кадыроўку ASCII замяняюцца адпаведнымі бяз гачыкаў, замянаюцца на псэўдалацінку з ' і ^, замяняюцца на HTML коды і замяняюцца на любыя сымбалі, вызначаныя карыстальнікам. Таксама прысутнічае магчымасьць экспарту файла ў HTML-старонку з захаваньнем фарматаваньня, шкада толькі, яно можа быць выкананае толькі разам з канвэртаваньнем у тэкставы файл. З дадатковых магчымасьцяў прапануецца аўтавызначэньне рэгістру літараў, якія ў кірыліцы перадаваліся адным сымбалем, а ў лацінцы — двума. І варта зазначыць, яна нават крыху працуе. «Ваўчыная яма» была лацінізаваная за 8, 9 і 11 сэкундаў у першых трох з вышэйзгаданых рэжымаў адпаведна. Памылак канвэртаваньня ня выяўлена. Выразы кшталту «яНКА» і «ЯНКА» канвэртуюцца ў, адпаведна, «jANKA» і «JANKA». Дарэчы, існуе onlineвая вэрсія гэтага лацінізатара (www.zedlik.com/pragramy/kir2lac-online/), але ён цалкам адпавядае win32-праграме, таму як асобны лацінізатар не разглядаўся.
Рэйтынг: 7.8 (9/6/9/8/7)

Макрасы і online-лацінізатары

Макрасы для Word і тым больш online-лацінізатары — гэта зусім іншая вагавая катэгорыя і ня могуць параўноўвацца з кампіляванымі бінарнікамі. Таму лічбы адносна часу канвэртаваньня прыведзеныя хутчэй для параўнаньня адпаведных канвэртавальнікаў паміж сабой (то бок макрасаў з макрасамі, а online-лацінізатараў — з online-лацінізатарамі). Але гэта не вызваляе іх ад належнай якасьці лацінізаваньня.

Cyrlat
Аўтар: Alaksiej Kazan
Старонка праграмы: www.geocities.com/alaksiej (не працуе)
Памер: 34Кб (усталёвачны архіў)

Cyrlat

Увогуле, макрасамі ня вельмі зручна канвэртаваць вялікія тэксты. Магчыма, значную ролю ў гэтай суб'ектыўнай ацэнцы грае хуткасьць канвэртаваньня, якая адчувальна нашмат меншая. Часам здараюцца цікавыя рэчы. Вось і пры лацінізаваньні аповесьці таксама было. Невядома, якім чынам працуе макрас, але, напрыклад, чвэрць «Ямы» — роўна чацьвертая частка — была лацінізаваная за 13 сэкундаў, палова — ужо за 51, а не за 26, як можна было б здагадвацца. Цалкам аповесьць так і не была лацінізаваная нават за чатыры з паловай хвіліны. Памылка зь «vierab'i», з «u Balońi», «ґ» макрасу не вядомая, магчымасьць перадачы дыграфаў двума літарамі ў верхнім рэгістры таксама не рэалізаваная. Такі вось сярэднячок.
Рэйтынг: 2.5 (-/0/6/0/4)

Word2000
Аўтар: невядомы
Старонка праграмы: невядомая, ёсьць на www.lacinka.org
Памер: 40Кб (усталёвачны архіў)

Word2000

Макрас зь ня самым лепшым альгарытмам паступовай замены кожнага сымбаля падчас шматразовага прагляду ўсяго тэксту. Тым ня менш, аповесьць лацінізаваная за 98 сэкундаў, у «вераб'ях» застаўся апостраф, усе літары, якія не ўваходзяць у кадыроўку ASCII, апроч «ŭ», перадаюцца ў няправільнай кадыроўцы, «ґ» ігнаруецца, у некаторых выпадках ётаваныя перадаваліся з «i», калі насамрэч мусілі быць з «j».
Рэйтынг: 2.75 (-/1/6/0/4)

Online-лацінізатар: www.knihi.com/lacinizatar/

Напэўна, самы вядомы і самы папулярны online-лацінізатар. Можа лацінізаваць ня толькі кавалкі тэксту з файламі, а нават сайты ў рэжыме рэальнага часу. Але тут крыецца засада: лацінізатар разумее толькі старонкі ў кадыроўцы cp-1251. Старонка ў любой іншай кадыроўцы будзе лацінізаваная няправільна. Пасьля загрузкі «Ваўчынай ямы» на сэрвэр назіралася затрымка ў 5 сэкундаў, пасьля якой пачаў выводзіцца вынік. То бок аповесьць была лацінізаваная прыкладна за час, роўны часу затрымкі. Зрэшты, калі час загрузкі самога файла і атрыманьня выніку нашмат перавышае час канвэртаваньня, апошні ня грае значнай ролі. Памылкі: «vierabi», «u Balońi». Лацінізатар спрабуе аўтаматычна вызначаць рэгістар дыграфаў, адпавядаючых вялікім літарам, але праскокваюць хібы з ініцыяламі. «ґ» ігнаруецца, «ŭ» перадаецца як «ú».
Рэйтынг: 5.0 (4/7/6/4/4)

Online-лацінізатар: www.pravapis.org/latin.asp

Гэты лацінізатар пабудаваны на рэгулярных выразах і канвэртуе тэкст шляхам шматлікіх праглядаў усяго тэксту і замены па адной і той жа літары на ейны лацінкавы адпаведнік. У архівах www.livejournal.com можна нават адшукаць зыходны код на ASP. Аповесьць лацінізатар канвэртаваць адмовіўся, сказаўшы «Request object error 'ASP 0107 : 80004005', Stack Overflow». Маленькія тэксты лацінізуюцца, але ня вельмі якасна: «vierabi», «u Balońi». Ніякіх дадатковых магчымасьцяў, на жаль, не прадугледжана.
Рэйтынг: 3.0 (5/0/6/0/4)

Online-лацінізатар: slounik.zolak.boo.pl

Гэты канвэртар можа апрацоўваць тэксты ў некалькіх напрамках, адзін зь якіх лацінізаваньне. Дадзеныя пачынаюць выводзіцца адразу пасьля сканчэньня загрузкі файла. Хаця гэта сьведчыць толькі пра тое, што функцыя лацінізаваньня выводзіць вынік адразу ў плынь выхаду. Таму падлічыць час канвэртаваньня можна толькі седзячы на канале з хуткасьцю ў ня менш за 256 КБ/сэк. Было заўважана, што вялікая кірылічная літара «Й» чамусьці не апрацоўваецца зусім. Магчыма гэта выкліканае меркаваньнем, што ў звычайным тэксьце яна не сустракаецца. Таксама «вераб'і» канвэртаваліся ў «vierab'i», «у Балёньі» — ва «u Balońi», «Заслаўе» — у «Zasłaŭie». Літара «ґ» таксама ігнаруецца.
Рэйтынг: 4.0 (7/-/5/0/4)

Вынікі

Што ж, час зрабіць пэўныя высновы. Такім чынам:

Белазар v3.6.2.2015 ****
CyrLat-HTML v1.1 ******
Cyr/Lat Converter v1.10 *****
Cyr2Lat *****
Kirlat *****
Моўны Канвэртар v2.3 ******
Kir2Lac v2.0.2 ********
Cyrlat ***
Word2000 ***
www.knihi.com/lacinizatar/ *****
www.pravapis.org/latin.asp ***
slounik.zolak.boo.pl ****

Усё-ткі файна, што праблема аўтаматычнага канвэртаваньня кірылічнага тэксту ў лацінку вырашаная і сродкі яе вырашэньня ўжо выкарыстоўваюцца. Файна, што кожны можа лёгка і проста атрымаць лацінкавы тэкст на аснове кірылічнага арыгіналу. Файна, што карыстальнік можа нават выбраць сабе канвэртавальнік па сваім гусьце.

Але разам з тым крыху журботна, што толькі адзінкі праходзяць простыя тэсты. І нават гэтыя адзінкі ня могуць пакуль зрабіць з кірыліцы лацінку такой, якой яна мусіць быць насамрэч. Канвэртавальнікаў яшчэ чакае доўгі шлях удасканаленьня, які яны абавязкова пройдуць. Ня сёньня, ня заўтра, але хутка. Разьвіцьцё ўжо ідзе.

21.11.2004         
Камэнтары

Глядзець усе камэнтары ў Coredump
Усяго камэнтароў: 4

Alexander Mikhailian

18.02.2005
01:31:47
прывітаньне, kirlat вось тут ляжыць http://www.mova.org/~lowry/
zedlik

18.02.2005
17:21:08
Ага, дзякуй, выправіў.
Чорны дэмбель

06.04.2006
04:02:18
Што заўважыў:
лацінізацыю бех памылак робяць тоькі 2 з разгледжаных. Аднак Cyr/Lat Converter перадузята адсунуты глыбока назад. Тым часам для яго зусім не абавязкова мець Baltic, ды там яшчэ ёсць цікавыя штукі, якіх няма у іншых.
Paweł

30.11.2006
18:21:02
Але чаму распрацоўшчык праграмы для беларускай лацінкі так няграматна піша свае імя і прозвішча - Alexander Mikhailian? Ці можа прозвішча ангельскае і пішацца ў арыгінале?

Дадаць камэнтар

 
 
 

навіны сайту
14.03.2015
VMS 2.9.2: адпраўка на velcom і life, падтрымка перанесеных нумароў
07.05.2012
VMS 2.9.1: выпраўленая адпраўка на velcom і life
27.04.2010
VMS 2.9: дададзены life і выпраўлены velcom
02.03.2009
Падтрымка Windows Vista для Belarusian (Latin) (Custom) Keyboard Layout
усе навіны
 
стужкі навінаў
RSS
Atom
 
вялікі брат
 
не па тэме
zedlik. Пэрсанальны блог