существует файл py1 c следующим содержанием:
python -c "x=u'''$1'''; print x.encode('idna')"
буква u, в начале значения для переменной - это попытка привести ввод в
bash
./py1 подпись.рф
к следующему виду в python:
x=u"подпись.рф"
так вот, при вызове скрипта получаем следующий вывод:
~$ ./py1 а
xn--nba1k
~$ ./py1 апо
xn--34-eea4dwnbb5725d
но:
~$ ./py1 ф
Traceback (most recent call last):
File "", line 1, in
File "/usr/lib/python2.7/encodings/idna.py", line 164, in encode
result.append(ToASCII(label))
File "/usr/lib/python2.7/encodings/idna.py", line 76, in ToASCII
label = nameprep(label)
File "/usr/lib/python2.7/encodings/idna.py", line 38, in nameprep
raise UnicodeError("Invalid character %r" % c)
UnicodeError: Invalid character u'\x84'
ошибка по-видимому в данном месте
u'''$1'''
и возможно логичнее было бы воспользоваться sys.argv[] в python, однако я никак не возьму в толк, как верно вставить полученную переменную в python из sys.agr в другую, с параметром u перед строкой, пробовал следующий подход:
создается файл wpq1.py с нижеизложенным:
# -*- coding: UTF-8 -*-
import sys
x= unicode(sys.argv[1])
print x
затем вызывается в shell:
~$ python wpy1.py фырфырфыр
Traceback (most recent call last):
File "wpy1.py", line 5, in
x= unicode(sys.argv[1])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1
in position 0: ordinal not in range(128)
Ответ
В Питоне 3 sys.argv уже как Unicode пришёл бы:
$ python3 -c 'import sys; print(sys.argv[1].encode("idna").decode())' пример.рф
xn--e1afmkfd.xn--p1ai
В Питоне 2, самостоятельно аргументы командной строки из байт в текст декодировать необходимо. Для этого нужно выбрать кодировку. Для системных строк: argv, переменных окружения, путей можно sys.getfilesystemencoding() кодировку использовать (с оговорками):
$ python2 -c 'import sys; print sys.argv[1].decode(sys.getfilesystemencoding()).encode("idna")' пример.рф
xn--e1afmkfd.xn--p1ai
На Linux sys.getfilesystemencoding() от локали зависит. Подробнее Как работать с путями c русскими символами?
В общем случае, системные строки это почти произвольный набор байт, который не всегда как текст можно интерпретировать, поэтому существует surrogateescape обработчик ошибок, который также может активироваться на Python 3, если локаль не настроена (или неверно настроена):
$ LC_ALL=C python3 -c 'import sys; print(sys.argv[1].encode("idna").decode())' пример.рф
Traceback (most recent call last):
File "/usr/lib/python3.5/encodings/idna.py", line 181, in encode
result.extend(ToASCII(label))
File "/usr/lib/python3.5/encodings/idna.py", line 76, in ToASCII
label = nameprep(label)
File "/usr/lib/python3.5/encodings/idna.py", line 38, in nameprep
raise UnicodeError("Invalid character %r" % c)
UnicodeError: Invalid character '\udcd0'
Локаль по умолчанию (поломанные или вообще отсутствующие настройки) подразумевает ascii кодировку (С, POSIX). Поэтому при запуске init-скриптов (сервисы), при заходе по ssh, в cron-скриптах, убедитесь что локаль c нужной кодировкой определена, чтобы не-ascii содержимое такое как IDN обрабатывать. Иначе ошибку получите:
$ LC_ALL=C python2 -c 'import sys; print sys.argv[1].decode(sys.getfilesystemencoding()).encode("idna")' пример.рф
Traceback (most recent call last):
File "", line 1, in
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 0: ordinal not in range(128)
Если вы решите жёстко прописать кодировку такую как utf-8, то будьте уверены на 100%, что имена доменов у вас всегда всегда в этой кодировке генерируются в окружении, где вы запускаете ваш Питон-скрипт. Иначе или UnicodeDecodeError или хуже кракозябры получите, что приведёт к генерации неверного punycode (что вы можете не сразу заметить, что удорожает исправление ошибки).