napster 19 июл 2008 в 11:42

Кодировки

1 мин

1.5K

Чулан

+44

159

Комментарии 159

netright 19 июл 2008 в 11:45

Мне кажется UTF-8 не должно быть в этом списке... это какраз решение всех проблем с разными кодировками.

+17

napster 19 июл 2008 в 12:00

Ага в основном с UTF как раз и возникают вопросы. В моем случае "порадовал" codeigniter.

-16

НЛО прилетело и опубликовало эту надпись здесь

kai 19 июл 2008 в 16:34

чем же вас жизнь так обидела, что вы конца света ждете?

elfiki 20 июл 2008 в 07:32

оффтоп: колллайдер запускают - как же не ждать конца света? :)

НЛО прилетело и опубликовало эту надпись здесь

allter 22 июл 2008 в 16:11

Прямо дорога в светлое будущее. :)
На практике куча геморроя. UTF-16 и то лучше для большинства юзеров (которым не нужны суррогаты) была бы, за счёт символов одинаковой длины.

НЛО прилетело и опубликовало эту надпись здесь

allter 23 июл 2008 в 22:20

Ну, это понятно... Но на практике каждое ТЗ начинается "мы будем использовать Уникод (в различных вариациях: UCS[-x], UTF-8)", а как доходит до реализации, начинаются геморои: а как передавать (UTF-какой?), как защищаться от дублирования ников (символы с похожими очертаниями), что делать с китайскими символами в полях ввода, введёнными глупыми пользователями, что делать при рассинхронизации потока в протоколе (или в legacy-файловом формате), что делать с существующей инфраструктурой в других кодировках и с другим уровнем поддержки юникода и т.п.

Тогда как вариант с использованием одной из cp1251/koi8-r/cp866 уже опробован и гарантированно убирает бОльшую часть таких неожиданностей.

HoochieMen 20 июл 2008 в 03:05

хрен с ним с апокалепсисом, вижить, вероятность 1%. Откуда столько пафоса? занимайтесь лучше улучшением своей жизни, не сейте в массы панику)) а то дуриков много вдруг ещё кто в дот залезет ожидать чего-либо

НЛО прилетело и опубликовало эту надпись здесь

maxic 21 июл 2008 в 06:31

Кстати а причем здесь "англизация" юзеров. UTF-8 как раз создан для того, чтобы помочь не "англизованным" юзерам. Унификация и стандартизация в этой области это путь как минимум к безбаговости в области просмотра интернациональных контентов.

vitamin 19 июл 2008 в 13:28

Про codeigniter не знаю. А вообще про UTF рекомендую почитать эту статью.
Надо отметить, что с тех пор часть проблем была решена.

A2K 19 июл 2008 в 13:18

правильно. остальным кодировкам давно пора умереть.
как-то я уже и не представляю где и зачем можно использовать что-то кроме UTF8

madhat 19 июл 2008 в 13:45

А вы у японцев спросите (http://en.wikipedia.org/wiki/Han_unification)

Shark 19 июл 2008 в 13:51

Ну разве что в каких-нибудь приборах с ограниченными ресурсами, наверное. А вообще правду говорите — смерть всем кодировкам, вива ля Юникод!

Kane 20 июл 2008 в 10:07

Например в IRC максимальная длина сообщения в UTF-8 ощутимо меньше чем ва cp1251, например.

Kane 20 июл 2008 в 10:08

брр.. например

foo 19 июл 2008 в 13:39

Согласен. "Существует две кодировки: Unicode и Someothershit"

+11

НЛО прилетело и опубликовало эту надпись здесь

foo 19 июл 2008 в 14:06

Я понимаю. Просто это — цитата, и я не хотел её искажать. :)

НЛО прилетело и опубликовало эту надпись здесь

samlowry 20 июл 2008 в 02:43

И шо, все-таки стали друг друга понимать?

tigerman 20 июл 2008 в 05:10

По крайней мере, общаться стало в разы проще.

-1

samlowry 20 июл 2008 в 05:33

Легче общаться носителям одного и того же языка - да, решена проблема кодировок. Но тут UTF-8 преподносят как решение легендарной проблемы разноязычия :)

НЛО прилетело и опубликовало эту надпись здесь

Ahmea 19 июл 2008 в 11:47

Как я вас понимаю, порой возня с кодировками превращается с сущий ад

Elected 19 июл 2008 в 11:51

Ну можно также сказать, цель оправдывала средства (риск).
Ну а вдруг бы построили, представляете сколько мы бы сэкономили на ракетах, шатлах и т.д.. =)

shandor 19 июл 2008 в 12:00

копайте глубже...
зачем человечество вобще столько языков и буковок понапридумывало... обошлись бы одним английским (7-битным, кстати)!

Это эволюция...

napster 19 июл 2008 в 12:10

А я и не против. С раскладками клавиатуры тоже было бы полегче, с шрифтами кириллическими да и вообще дофига всего бы упростилось.

shandor 19 июл 2008 в 12:31

обвинить в этом никого нельзя. Никто не мог предугадать бум интернета и компьютеризации всего и вся, нужно было с чего-то начинать.

Поэтому и обсуждать это бессмысленно. Подобных примеров масса: тот же ipv4 - ктож знал, что интернет будет в каждом холодильнике...

SerrNovik 20 июл 2008 в 15:38

Если бы Эльбрус сделали пораньше, то все бы сейчас обходились кирилицей. Это был хоть прогнозируемый, но рандом.
Я всегда считал что язык должен быть один - английский ОК для меня. Но меня убедили что для разнообразия может быть еще несколько(а иногда это удобно).
Так что моя вавилонская башня состоит из одного общего и десятка языков чтобы все на всех уж слишком сильно не походили.

НЛО прилетело и опубликовало эту надпись здесь

FloppyFormator 19 июл 2008 в 12:41

Пятибитным, если забить на прописные :)

romychs 21 июл 2008 в 06:55

А цифры? Знаки препинания? Не, 6-ти битный надо :)

НЛО прилетело и опубликовало эту надпись здесь

Tagire 19 июл 2008 в 12:53

Тогда маленькая часть мира имеет фору против неэсперантоговорящих. Простейший разговорный английский можно за неделю можно выучить.

НЛО прилетело и опубликовало эту надпись здесь

spiritedflow 21 июл 2008 в 05:22

Pri gusto de vino mi parolas kun tiu, kiu gxin gustumis. Pri utileco de libro mi parolas kun tiu, kiu gxin tralegis. Pri beleco de esperanto mi parolas kun tiu, kiu gxin ellernis. Do, kial vi pensas ke Esperanto estas acxa?

О вкусе вина я говорю с тем, кто его пробовал. О полезности книги я говорю с тем, кто её прочитал. О красоте эсперанто я говорю с тем, кто его знает. Итак, почему ты думаешь, что эсперанто убожество? (отвечать на эсперанто!)

Tagire 19 июл 2008 в 13:52

Это потому что эсперанто содержит оч много слов из русского языка. Представьте, как это будут осваивать индусы или китайцы(пол мира почти)

НЛО прилетело и опубликовало эту надпись здесь

Tagire 19 июл 2008 в 14:47

Независимость смысла от места слова в предложении есть не только в русском.
У эсперанто еще фонетика на испанский похоже. Для азиатских народов это сложно выговаривать. Да и английский знают по всему миру уже. И он и есть стандарт международного общения.

Tagire 19 июл 2008 в 14:47

Просто когда язык надо учить всем, важно не придержать тех, кто впереди, а подтолкнуть тех кто позади.

НЛО прилетело и опубликовало эту надпись здесь

khim 19 июл 2008 в 18:28

Это не преимущество, а недостаток.

НЛО прилетело и опубликовало эту надпись здесь

Tagire 19 июл 2008 в 23:46

Это конечно круто, что он выделяет. Но если я приеду в другую страну и, захотев кушать, пойду в простую мелкую закусочную - то я предпочту, чтобы продавец там знал международный язык.

Tagire 19 июл 2008 в 12:54

И вообще 0101000111010101010001010001011?)

maq 19 июл 2008 в 14:50

Tagire 19 июл 2008 в 14:58

1101001! 10010101!? 1011010!

BarAusWald 21 июл 2008 в 11:12

http://ulin.ru/humour/programmer-humour-01.gif

Setti 19 июл 2008 в 17:00

true

maq 19 июл 2008 в 17:09

Ну я в общем-то это и имел в виду :)

khim 19 июл 2008 в 21:42

Что такое язык междунардного общения? Это язык, который может использоваться для общения между народами. То есть, грубо говоря, язык на котором ты с большой вероятностью сможешь поговорить с первым встречным в другой стране (не в той, где ты живёшь). Это английский, испанский, французский, может быть китайский (китайцув сейчас можно в самых разных странах встретить). Но уж никак не эсперанто.

Это всё равно как предлагать использовать X.400 вместо SMTP для почты: да, есть масса преимуществ. Да, спамерам жилось бы гораздо хуже. Но... с кем вы собрались переписываться?

samlowry 20 июл 2008 в 02:52

>может быть китайский
Может быть? :)
language|native speakers|total speakers
Mandarin Chinese|600 M|1,051 M
English|350 M|1,000 M

ruskar 20 июл 2008 в 07:37

Да, но если мы вычтем из общего количества (total speakers) носителей языка (native speakers), то для китайского получится только 451 миллион, а для английского 650 миллионов - эти цифры куда важнее для применения в международном общении. Просто китайцев - гигантское количество, неудивительно, что они говорят на своём же языке.

habrausername 22 июл 2008 в 16:34

Кстати удивительно то, что в Китае население больше миллиарда, а native speakers указано 600 миллионов.

allter 22 июл 2008 в 16:59

Для начала, Китай - такая же большая страна, как и Россия и говорят там на каталонском, мандаринском и сотнях прочих языков.

spiritedflow 21 июл 2008 в 04:59

> язык на котором ты с большой вероятностью сможешь поговорить с первым встречным в другой стране

Определение понятно. Да, эсперанто под него не подходит.

Но как тогда назвать язык, который каждый день используют тысячи разностранцев по всему миру, язык, международное использование которого на порядок превышает внутринародное (эсперантисты-соотечественники между собой почти всегда используют свой национальный язык, некоторые даже принципиально)?

hellt 19 июл 2008 в 12:01

если бы люди не строили вавилонскую башню, то отпала бы необходимость изучать разные языки) куда проблематичнее

НЛО прилетело и опубликовало эту надпись здесь

hellt 19 июл 2008 в 12:13

а в раю как дела с кодировками обстоят? ))

НЛО прилетело и опубликовало эту надпись здесь

bubuq 19 июл 2008 в 16:14

...а архангел Гавриил и говорит: оБХЕП!

impass 20 июл 2008 в 01:12

в "раю" вполне достаточно телепатии / НСО (несловестного общения), мыслеобразы каждому понятны ведь :)

НЛО прилетело и опубликовало эту надпись здесь

xmagnusx 19 июл 2008 в 13:05

Хабр - порождение сатаны?

НЛО прилетело и опубликовало эту надпись здесь

Shark 19 июл 2008 в 13:48

Хабр — порождение НЛО :)

Setti 19 июл 2008 в 17:01

Во всем виноваты женщины

samlowry 20 июл 2008 в 02:54

Во всём виновато Apple :)

SerrNovik 20 июл 2008 в 15:45

Не было бы у Евы Apple - не было-бы секса или не надо было бы тра#@ться(Нужно подчеркнуть в зависимости от религиозных взглядов).

ipod 21 июл 2008 в 11:47

Если бы Ева не откусила от яблока, то нас с вами попросту не было бы.

НЛО прилетело и опубликовало эту надпись здесь

ipod 21 июл 2008 в 11:57

)

Q2W 19 июл 2008 в 12:21

Ну есть, всё-таки, и плюс у немногоязычных кодировок - это вес символа.
В UTF-8 это 2 байта против 1 в cp1251 и проч.

Но он совершенно не перевешивает минусы, это факт.

ish 19 июл 2008 в 12:41

2 байта не для всех символов, кстати.

НЛО прилетело и опубликовало эту надпись здесь

zanudische 19 июл 2008 в 16:55

По ссылке я не ходил, но её осуждаю. Википердия пишет фигню (что нередко случается).
Ходить надо не туда, а на www.unicode.org.
Там, к примеру, написано, что "Unicode characters may be encoded at any code point from U+0000 to U+10FFFF", т.е. может быть до трех значащих байт на символ (но использовать при этом придется UTF-32, в коей от 4 байт на символ). Соотв. символ с кодом 10FFFFh в UTF-8 будет занимать те самые шесть байт.

merlin-vrn 19 июл 2008 в 17:09

Кодировку с названием UTF-32, хотя и можно построить, никто нигде не документировал, не программировал и не использует. Вы, вероятнее всего, имели ввиду UCS-4.

zanudische 19 июл 2008 в 17:12

http://www.unicode.org/faq/utf_bom.html#UTF32

merlin-vrn 19 июл 2008 в 19:03

Мда, память меня подвела. Освежил информацию, спасибо.

НЛО прилетело и опубликовало эту надпись здесь

zanudische 19 июл 2008 в 19:24

Ага, и меня дырявая башка подвела.
Только одного боюсь - чую, юникодная шайка на 110000h символах не остановится. Уже понапихали туда чуть ли не египетские иероглифы...

khim 19 июл 2008 в 19:34

Древневавилонские. Но их не так много известных нам.

allter 22 июл 2008 в 16:24

Известная фишка (годовалой или двухлетней давности) - в Юникод, даже с суррогатами (пресловутыми символами дальше 65535го), не входят иероглифы имён нескольких высокопоставленных китайских деятелей - лидеров страны с 1,5 миллиардами людей населения.
В частности и поэтому (но не только из-за этого, а по многим другим причинам) даже в азиатском регионе используют проприетарные двухбайтовые кодировки, где одинаковый, в сущности, иероглиф может занимать два кодепойнта (наподобие кириллических букв, имеющихся и в латинице), в зависимости от того, японский он или китайский, или ещё из-за каких-то факторов.

Q2W 19 июл 2008 в 14:17

Я писал о самом распространённом для нас с вами случае - русских буквах в UTF-8.

bubuq 19 июл 2008 в 16:15

Ну надо быть аккуратнее про "нас" :)

-1

bubuq 21 июл 2008 в 16:18

То есть непроживание в РФ повод для минуса?

Reey 19 июл 2008 в 12:30

мысль один: мы и сейчас строим вавилонскую башню
мысль два: всё же язык универсализуется обратно) (хотя я могу ошибаться)

brutaler 19 июл 2008 в 12:34

В каждой стране свой язык. Еслиб был бы один язык на всех, то была бы и одна страна на всех? А если одна страна, то с кем ей соперничать и конкурировать, а т.к. изза конкуренции и идет развитие, то в одной стране на всю планету не было бы прогресса, не было бы компьютеров, и как следствие - не было бы кодировок.

-1

track13 19 июл 2008 в 12:40

прогресс был бы. Лень неубиваема

Suomi 19 июл 2008 в 22:01

Ну да, в Бразилии бразильский язык.

samlowry 20 июл 2008 в 02:56

Да и во всех остальных странах Латинской Америки - тоже Мексиканский, Аргентинский и т. п. :) Да и в США тоже местные, племенные языки индейцев.

Aecktann 19 июл 2008 в 12:43

бнопня?

-2

bethrezen 19 июл 2008 в 12:54

Если бы не Торвальдс, сидели бы сейчас под вистой...

helios 19 июл 2008 в 13:30

не будь нисков, винды бы не было вообще: как не крути, а ДОС был их отродьем

bethrezen 19 июл 2008 в 13:43

Тем не менее, радует то, что в большинстве последних дистрибутивов Linux по умолчанию utf-8. Радует то, что в интернете много статей про проблемы с локалями, про перенос баз из одной кодировки в другую и так далее. Даже смартфоны под Symbian используют utf-8. Прогресс на лицо :-) Что не делается - всё к лучшему

vilky 19 июл 2008 в 13:31

Боюсь, вы просто не в курсе: Вавилонская башня - рядовой междуреченский зиккурат, а куча языков была и до неё. А чтобы не мучиться с кодировками достаточно было не строить компьютеры.

feedbee 19 июл 2008 в 13:33

Это сейчас у всех быстрый интерент и огромные диски и флешки, и все радуются utf-ам и кричат, что utf круто! Конечно utf круто, и мы со временем придем к тому, что останется только он. Но простите, 20 лет назад не было столь масштабных международных глобальных сетей, высоких скоростей и емких носителей, так что 256 символов ASCII (однобайтовая кодировка) был оптимальный вариант.

bethrezen 19 июл 2008 в 13:44

Да, были времена, когда в досе загружали keyrus.com :-)

Nhes 19 июл 2008 в 13:36

Р° РјРЅРµ РїРѕС„РёРі, Сѓ РјРµРЅСЏ РЁС‚РёСЂР»РёС† РµСЃС‚СЊ =)

HoldenCaulfield 19 июл 2008 в 13:58

ДЕЙНДЕП кЕАЕДЕБЮ ЙПСВЕ :)

grep0 19 июл 2008 в 14:32

Пх'нглуи мглв'нафх Ктулху Р'льех вгах'нагл фхтагн

НЛО прилетело и опубликовало эту надпись здесь

kurumpa 19 июл 2008 в 20:54

®е г¦ нв Ї®Ј п ¬®«®¤Ґ¦м...

korynd 19 июл 2008 в 22:57

№йни-айни!

НЛО прилетело и опубликовало эту надпись здесь

kai 19 июл 2008 в 14:08

Э... скоро уже 2009 год наступит, а у кого-то все ещё остались проблемы с кодировками? Ужос! В наше то время... Осильте уж utf8 чтоле..

kai 19 июл 2008 в 14:52

Заминусовал либо дряхлый любитель koi8 либо спешащий на пенсию обожатель cp1251? О боже.. любитель досовской кодировки.. некрофил на выезде...

alex_blank 19 июл 2008 в 17:47

кстати, регулярно в рунете замечаю ресурсы, где страница записана в CP-1251 и к тому же этот факт еще и не указан в HTTP-хедере.. как результат, слетает кодировка в браузере

на вопрос "почему ты не юзаешь utf-8?" таким "вебмастерам" следует ответ "а зачем?"

X-/

merlin-vrn 19 июл 2008 в 17:52

Они отчасти правы. Если стоит сервер, замурованный в стене, и работает (Ц), зачем что-то менять?

Другое дело - в новых проектах.

alex_blank 19 июл 2008 в 18:05

так я про новые проекты и говорю

вот Хабрахабр постоянно просходит такая фигня: постишь коммент, а он потом отображается в виде кракозябр (пример).. а всё потому, что CP-1251

НЛО прилетело и опубликовало эту надпись здесь

Metatron 19 июл 2008 в 21:17

про 1Ц - отдельный разговор. они в приципе понимают только либо CP866, либо CP1251... Бухгалтерам больше и не нужно... Да и вообще, 640 килобайт должно хватить.. Копирайт сами поминте.. Вот 1С тем же путем идет.

korynd 19 июл 2008 в 22:59

Тогда понятно, латиница отображается одинаково в обоих кодировках.

iZENfire 19 июл 2008 в 15:01

Вот с какими проблемами кодировки символов может столкнуться тот, кто программирует на Java:
http://www.javaportal.ru/java/articles/ruschars/ruschars.html

В общем, хватает "весёлых" моментов. :)

xaxaTyH 19 июл 2008 в 15:09

Неделю назад поставил Убунту, перекодировал все свои скрипты, и теперь только UTF-8. Никаких костылей. Радостно :)

art_t 19 июл 2008 в 15:30

Точно, задолбало выяснять на транслите "Kakaya y teba kodirovka?"

prairie_dog 19 июл 2008 в 15:46

Еще FreeBSD по дефолту под utf сделали бы....

kai 19 июл 2008 в 16:03

а там до сих пор koi8?

iZENfire 19 июл 2008 в 16:03

Можете описать свою проблему?

wiktar 19 июл 2008 в 21:25

Системная консоль не поддерживает UTF-8 ). Это не только его, а всех проблема)

НЛО прилетело и опубликовало эту надпись здесь

Kalan 19 июл 2008 в 16:07

Кодировки — это фигня, сейчас UTF-8 везде (кроме, почему-то, Хабра и ещё некоторых мест). Основная долбёжка происходит со всякими арабами-евреями-сирийцами с их двунаправленным письмом и с языками Азии (композит на композите сидит и композитом погоняет). И веб-приложения от этого тоже не избавлены.

khim 19 июл 2008 в 18:45

К сожалению UTF-8 хотя и является сайчас самой распространённой кодировкой, но далеко ещё не везде. А в отдельных регионах (скажем в России или в Японии) другие кодировки всё ещё популярнее, чем UTF-8.

merlin-vrn 19 июл 2008 в 16:16

Автор, вы ISO 8859-5 забыли ;)

До недавних времён она была дефолтной в X для русского языка. Только в этом году сменили, "потому, что никто всё равно не пользуется" на UTF-8. Не прошло и десяти лет...

kai 19 июл 2008 в 16:28

Тык, дело в нас самих. Если бы кто-то умный из наших поднял бы этот вопрос раньше, сменили бы раньше. Хватит уже и того, что буржуи больше нас самих над поддержкой русского в юникоде работали.

bethrezen 19 июл 2008 в 16:23

А вот кстати про проблему апача с кодировками в модуле mod_autoindex почему то нигде ничего не написано. Видел где-то только, что там тупо в исходник прописана ISO. Обидно :-( Даже DefaultCharacterSet не помогает

merlin-vrn 19 июл 2008 в 16:31

Вы неправы, либо у вас старый Apache. Вот фрагмент конфига mod_autoindex, который указывает ему сами понимаете что:

# Файловая система - в юникоде
IndexOptions Charset=UTF-8

Результат налицо, правда, только в заголовках ответа:

Content-Type: text/html;charset=UTF-8

Кстати говоря, нашёл я это когда-то в доках: http://httpd.apache.org/docs/2.2/mod/mod_autoindex.html#indexoptions

bethrezen 19 июл 2008 в 16:42

Спасибо большое. Я как всегда лоханулся... Два дня искал, и не нашел))) Сейчас попробую

tenshi 19 июл 2008 в 18:00

этих ЮТФ кодировок тоже не мало...
одни программы понимают ЮТФ8, но не понимают ЮТФ16, другие - наоборот.
одни понимают БОМ, а другим от него становится плохо.

НЛО прилетело и опубликовало эту надпись здесь

hitman47h 19 июл 2008 в 18:27

-2

korynd 19 июл 2008 в 23:00

У вас неправильная кодировка.

ibnteo 19 июл 2008 в 20:18

Если бы люди не строили вавилонскую башню, то вообще не с чем было бы париться, не было бы ни компьютеров, ни современной цивилизации.

Halt 19 июл 2008 в 20:39

Проблемы будут до тех пор, пока ~~программисты~~ кодеры будут лениться реализовывать UTF в своих программах. До тех пор пока будут альтернативы обязательно найдется человек, который захочет их использовать (и будет с пеной у рта доказывать что только так и надо). А на самом деле, это проистекает от того, что начинающий программист слушал "эксперта", который, наслушавшись других "экспертов" вещал, что юникод это сложно, это много памяти и что непереносимо.

Вообще, в инете была где-то статья; называлась что-то вроде "Мифы о Unicode" там хорошо были описаны аппаратные и, главное, психологические проблемы перехода на юникод. Если кто знает ссылочку, поделитесь пожалуйста :)

Metatron 19 июл 2008 в 21:07

Отсюда вывод - различные кодировки, это не ошибка человеков, в фича божия... :-)

sgolubev 19 июл 2008 в 23:11

Вы ещё скажите, что "Если бы люди не стали строить вавилонскую башню, то сейчас бы" все говорили только на русском :-)

tigerman 20 июл 2008 в 02:22

На эсперанто. :)

Tishka17 20 июл 2008 в 04:33

кодировки, кодировки.... А в линухе интерфейс на башкирский перевести некому. :)
А без этого в некоторых местах ругаются.

kurokikaze 20 июл 2008 в 07:30

"Хочешь чтобы что то было сделано правильно - сделай это сам"

ruskar 20 июл 2008 в 07:57

Когда-то ушёл с Bred'a на PHP Expert Editor из-за отсутствовавшей поддержки UTF-8. У стех пор прошло много времени и Bred уже поддерживает UTF-8, но я остался на PHPEE.

korynd 20 июл 2008 в 22:17

Он же давно устарел.

maxic 21 июл 2008 в 06:33

Устарел, еще не значит что плохой ;)

aquality 20 июл 2008 в 11:30

Надо чтоб microsoft обновление для IE выпустило, в котором все кодировки кроме utf удаляются. Все вебмастеры тогда забегают и переведут сайты на utf-8. ))

kurokikaze 20 июл 2008 в 20:16

Может лучше сам ИЕ, того-этого? Ну хотя бы ниже седьмой версии.

ajaxtelamonid 21 июл 2008 в 04:34

А подскажите, кто знает, скрипт для batch перекодирования из cp1251 в utf-8 файлов на хостинге. Язык любой.
А то с прежних времен скопилось много кода, весь на 1251.

spiritedflow 21 июл 2008 в 05:56

В unix-е для любого plain-text файла можно:
cp FILE FILE.cp1251 && iconv -f cp1251 -t utf-8 <FILE.cp1251>FILE && rm FILE.cp1251
или, если есть:
enconv -L ru -x utf8 FILE

Но это самая простая часть. Сложнее найти и поправить всякие меты с content-type в html файлах, проверить и отладить скрипты на работу с юникодом (вывод, ввод, сортировка, регекспы), переконфигурировать апач, если надо.

PS: команды я проверил, но никому не доверяй, даже мне! Забэкапь все предварительно и протестируй на чем-нибудь не важном :)

esperantist 6 авг 2008 в 14:41

spiritedflow
а я вот измучился с iconv на AIX
# iconv -f CP1251 -t UTF-8 multcrcrit_help.htm > test.htm
iconv: 0791-004 cannot open converter
как толька я эту CP1251 не писал и маленькими буквами и windows-1251 - ну не находит AIX конвертера и все тут! Нашел список кодировок AIX - в нем действительно нет упоминания про кодировку 1251. Ни UNIX, ни Linux у меня нет, тока AIX и WIN. Что делать - ума не приложу. Может кто сможет подсказать как быть. У меня несколько тысяч htm файлов и мне с ними notepad'ом не управиться никак :-(