slu and和unicode的规则

bus*_*don 10 python unicode url google-app-engine friendly-url

在仔细研究了人们对游戏标题的不同方式后,我注意到它经常忽略了如何处理非英语游戏.

url编码非常严格.请参阅http://www.blooberry.com/indexdot/html/topics/urlencoding.htm

所以,例如,人们如何处理标题slu for等问题

"Unalágrimacayóenla arena"

人们可以为印欧语言提出合理的表格,即.可以通过ISO-8859-1编码的东西.例如,转换表将转换'á'=>'a',因此slug将是

"UNA-Lágrima酒店-岛-ZH-LA-舞台"

但是,我正在使用unicode(特别是使用UTF-8编码),所以不保证我会得到什么类型的代码点(我必须为不能进行ISO-8859-1编码的事情做准备.

我是个骗子.怎么处理这个?我是否应该为ISO_8859-1范围内的字符(<255)提供转换表并放弃其他所有内容?

编辑:为了给出更多的背景,先验,我真的不希望用非印欧语言来贬低数据,但是如果我遇到这样的数据,我想有一个计划.扩展ASCII的转换表会很好.有什么指针吗?

此外,由于人们在问,我正在使用python,在Google App Engine上运行

zgo*_*oda 8

slughifi库中可以找到几乎完整的音译表(用于拉丁语,希腊语和西里尔字符集).它面向Django,但可以很容易地修改以满足一般需求(我在AppEngine上使用基于Werkzeug的应用程序).