当我用JavaScript编写"?" > "Z"它时,它返回true.在Unicode顺序中,它当然应该是false.如何解决这个问题?我的网站使用的是UTF-8.
我试图用波兰语中的pangram删除变音字符.我使用Michael Kaplan的博客http://www.siao2.com/2007/05/14/2629747.aspx中的代码,但没有成功.
考虑一下pangram:"Pchnąćwtęłódźjeżalubośmskrzyńfig.".一切正常,但对于字母"ł",我仍然得到"ł".我想问题是"ł"表示为单个unicode字符,并且没有跟随NonSpacingMark.
你知道我怎么能解决它(不依赖于某些词典中的自定义映射 - 我正在寻找某种unicode转换)?
我正在读一个包含德语,法语,西班牙语,英语和波兰文的xml文件.
为了处理抛光字母(这导致最麻烦)我试图这样做:
File file = new File(path);
InputStream is = new FileInputStream(file);
Reader reader = new InputStreamReader(is, charset);
InputSource src = new InputSource(reader);
src.setEncoding(charset.name());
SAXParserFactory factory = SAXParserFactory.newInstance();
SAXParser saxParser = factory.newSAXParser();
saxParser.parse(src, handler);
Run Code Online (Sandbox Code Playgroud)
我遇到的问题是没有任何默认的字符集正确显示文本.有些人在其中有一些问号,其中有一些其他字符组合,例如Ä..
为了打破它,我写了另一个片段来测试哪个charset工作:
public static void main(String[] args){
Charset charset = StandardCharsets.UTF_8;
String chars = "??una d?ugie";
System.out.println(new String(chars.getBytes(charset), charset));
}
Run Code Online (Sandbox Code Playgroud)
再次测试每一个,但没有任何作用..我希望你有一个想法.
我正在使用JQuery load()方法将内容加载到页面.唯一的问题是,当通过load()方法加载内容时,所有国家(波兰)字符都显示无效...在加载的页面和主要内容(其中内容加载)编码设置为iso-8859-2(是的) ,我知道,我应该使用utf-8 bo它在这种情况下没有帮助).
我真的不知道如何解决它.我唯一的解决方案是在加载前和接收数据解码后用一些代码替换特殊字符,但它有点复杂:D
有任何想法吗?
干杯
我想为用Django编写的网站实现一个搜索解决方案.从可用选项(我研究过Solr,Sphinx,Xapian,PostgreSQL/Tsearch3,MySQL)看,Sphinx看起来是最好的.但是,它不支持波兰语的词干,这是我想要搜索的数据的语言.
在Sphinx中处理不受支持的语言的最佳方法是什么?我有一种直觉,我可以从Ispell字典创建一个词干语料库.我怎样才能与Sphinx合作?
我们在尝试让波兰语字符正确显示在使用 FPDF 生成的发票上时遇到问题。我不确定是 FPDF 还是我们正在使用的字体造成了问题。UTF-8 在 PHP 配置和 MySQL 配置中都在服务器上正确设置。所有波兰语字符都正确显示在网站上,无论是来自代码的文本还是来自数据库的文本。
在 FPDF 中:
- 原文:
Za?ó?? g??l? ja??:
- // 没有额外的工作显示为
结果:ZażóÅ,ć gęślÄ... jaźń:
- // 应用以下更改后
html_entity_decode(utf8_decode($string),ENT_QUOTES)
Run Code Online (Sandbox Code Playgroud)
结果:Za?ó?? g??l? ja??:
- // 应用以下更改后
iconv("UTF-8", "ISO-8859-2", $string)
Run Code Online (Sandbox Code Playgroud)
结果:Za¿ó³æ gê¶l± ja¼ñ:
这在 Arial 和 Times 的内置字体中都会发生。我使用http://www.fpdf.org/en/tutorial/tuto7.htm的步骤构建了一种名为 Tellural 的字体。但是,这似乎并不能解决问题。
这种字体是 Tellural.php,包含:
<?php
$type='TrueType';
$name='Tellural';
$desc=array('Ascent'=>886,'Descent'=>-216,'CapHeight'=>699,'Flags'=>32,'FontBBox'=>'[-521 -216 1213 891]','ItalicAngle'=>0,'StemV'=>70,'MissingWidth'=>822);
$up=-106;
$ut=73;
$fpdf_charwidths['tellural']=array(
chr(0)=>822,chr(1)=>822,chr(2)=>822,chr(3)=>822,chr(4)=>822,chr(5)=>822,chr(6)=>822,chr(7)=>822,chr(8)=>822,chr(9)=>822,chr(10)=>822,chr(11)=>822,chr(12)=>822,chr(13)=>822,chr(14)=>822,chr(15)=>822,chr(16)=>822,chr(17)=>822,chr(18)=>822,chr(19)=>822,chr(20)=>822,chr(21)=>822,
chr(22)=>822,chr(23)=>822,chr(24)=>822,chr(25)=>822,chr(26)=>822,chr(27)=>822,chr(28)=>822,chr(29)=>822,chr(30)=>822,chr(31)=>822,' '=>244,'!'=>323,'"'=>346,'#'=>539,'$'=>478,'%'=>743,'&'=>605,'\''=>185,'('=>348,')'=>348,'*'=>483,'+'=>518,
','=>289,'-'=>491,'.'=>274,'/'=>549,'0'=>518,'1'=>518,'2'=>518,'3'=>518,'4'=>518,'5'=>518,'6'=>518,'7'=>518,'8'=>518,'9'=>518,':'=>274,';'=>289,'<'=>518,'='=>518,'>'=>518,'?'=>409,'@'=>582,'A'=>602,
'B'=>606,'C'=>605,'D'=>643,'E'=>567,'F'=>553,'G'=>639,'H'=>640,'I'=>268,'J'=>268,'K'=>623,'L'=>485,'M'=>805,'N'=>666,'O'=>688,'P'=>597,'Q'=>726,'R'=>613,'S'=>486,'T'=>530,'U'=>629,'V'=>624,'W'=>914,
'X'=>571,'Y'=>532,'Z'=>562,'['=>386,'\\'=>549,']'=>386,'^'=>468,'_'=>342,'`'=>537,'a'=>586,'b'=>565,'c'=>558,'d'=>590,'e'=>558,'f'=>341,'g'=>570,'h'=>611,'i'=>275,'j'=>289,'k'=>508,'l'=>322,'m'=>873,
'n'=>586,'o'=>560,'p'=>588,'q'=>576,'r'=>371,'s'=>411,'t'=>357,'u'=>597,'v'=>569,'w'=>877,'x'=>545,'y'=>602,'z'=>483,'{'=>356,'|'=>253,'}'=>356,'~'=>537,chr(127)=>822,chr(128)=>822,chr(129)=>822,chr(130)=>822,chr(131)=>822,
chr(132)=>822,chr(133)=>822,chr(134)=>822,chr(135)=>822,chr(136)=>822,chr(137)=>822,chr(138)=>822,chr(139)=>822,chr(140)=>822,chr(141)=>822,chr(142)=>822,chr(143)=>822,chr(144)=>822,chr(145)=>822,chr(146)=>822,chr(147)=>822,chr(148)=>822,chr(149)=>822,chr(150)=>822,chr(151)=>822,chr(152)=>822,chr(153)=>822,
chr(154)=>822,chr(155)=>822,chr(156)=>822,chr(157)=>822,chr(158)=>822,chr(159)=>822,chr(160)=>244,chr(161)=>567,chr(162)=>319,chr(163)=>470,chr(164)=>591,chr(165)=>470,chr(166)=>486,chr(167)=>674,chr(168)=>304,chr(169)=>486,chr(170)=>486,chr(171)=>488,chr(172)=>562,chr(173)=>491,chr(174)=>562,chr(175)=>562,
chr(176)=>292,chr(177)=>586,chr(178)=>214,chr(179)=>293,chr(180)=>556,chr(181)=>423,chr(182)=>411,chr(183)=>376,chr(184)=>193,chr(185)=>411,chr(186)=>411,chr(187)=>459,chr(188)=>483,chr(189)=>406,chr(190)=>483,chr(191)=>483,chr(192)=>613,chr(193)=>602,chr(194)=>602,chr(195)=>602,chr(196)=>602,chr(197)=>470,
chr(198)=>605,chr(199)=>596,chr(200)=>605,chr(201)=>567,chr(202)=>528,chr(203)=>567,chr(204)=>567,chr(205)=>268,chr(206)=>268,chr(207)=>643,chr(208)=>659,chr(209)=>666,chr(210)=>666,chr(211)=>688,chr(212)=>688,chr(213)=>688,chr(214)=>688,chr(215)=>537,chr(216)=>613,chr(217)=>629,chr(218)=>629,chr(219)=>629,
chr(220)=>629,chr(221)=>532,chr(222)=>464,chr(223)=>541,chr(224)=>371,chr(225)=>586,chr(226)=>586,chr(227)=>586,chr(228)=>586,chr(229)=>341,chr(230)=>558,chr(231)=>558,chr(232)=>558,chr(233)=>558,chr(234)=>558,chr(235)=>558,chr(236)=>558,chr(237)=>224,chr(238)=>224,chr(239)=>698,chr(240)=>590,chr(241)=>586,
chr(242)=>586,chr(243)=>560,chr(244)=>560,chr(245)=>560,chr(246)=>560,chr(247)=>537,chr(248)=>371,chr(249)=>597,chr(250)=>597,chr(251)=>597,chr(252)=>597,chr(253)=>602,chr(254)=>357,chr(255)=>148);
$fpdf_charwidths['telluralB']=$fpdf_charwidths['tellural'];
$fpdf_charwidths['telluralI']=$fpdf_charwidths['tellural'];
$fpdf_charwidths['telluralBI']=$fpdf_charwidths['tellural']; …Run Code Online (Sandbox Code Playgroud) 我使用 Ubuntu 18.04
当我按right Alt+ 任何变音字母时,无论是它a,c还是s我什么也得不到。使用left Alt+ 任何字母也是如此。
我的输入源设置为波兰语。
为什么我不能输入波兰语?
我写了一些基本的程序,我想提取波兰语单词的引理,这是非常重要的,因为波兰语使用屈折。
我正在创建简单的程序来加载数据并将单词转换为引理,但不知道该怎么做:
from nltk import corpus
pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()
Run Code Online (Sandbox Code Playgroud)
例如,我想做这样的词形还原(忽略一些词形还原可能含糊不清——这在波兰语中是正常的):
kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male)
kotka, kotki, kotk?, kotce, kotk?, kotce, kotka == kot (singular female!)
koci?tko, koci?tka, koci?tko, koci?tku, koci?tkiem, koci?tku, koci?tko == kot (singular neutral)
etc. (plural males, plural females, plural neutrals)
Run Code Online (Sandbox Code Playgroud)
如何使用 pl196x 在或 nltk 中做这样的工作。
语料库的源数据包含这样的屈折变化和引理 - 所以它是可能的,但如何访问它:
<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.
Run Code Online (Sandbox Code Playgroud) 我不知道在哪里发布这个,但我想我在K&R的波兰计算器程序中发现了一个相当大的错误.基本上,当您执行操作时,会弹出两个值,而只会推送结果.问题是结果没有被推到堆栈顶部!这是一个例子:

教科书提供的波兰计算器的完整代码如下所示:
#include <stdio.h>
#include <stdlib.h> /* for atof() */
#define MAXOP 100 /* max size of operand or operator */
#define NUMBER '0' /* signal that a number was found */
int getop(char []);
void push(double);
double pop(void);
/* reverse Polish calculator */
main()
{
int type;
double op2;
char s[MAXOP];
while ((type= getop(s)) != EOF) {
switch (type) {
case NUMBER:
push(atof(s));
break;
case '+':
push (pop() + pop()) ;
break;
case '*':
push(pop() * pop());
break;
case …Run Code Online (Sandbox Code Playgroud) polish ×9
.net ×1
c ×1
c# ×1
calculator ×1
chars ×1
compare ×1
diacritics ×1
encoding ×1
fpdf ×1
iso-8859-2 ×1
java ×1
javascript ×1
jquery ×1
load ×1
nlp ×1
nltk ×1
php ×1
python ×1
python-2.7 ×1
search ×1
sphinx ×1
stack ×1
stemming ×1
ubuntu-18.04 ×1
unicode ×1
utf-8 ×1