我有类似的东西
a = "?????? ???? ??? ??"
Run Code Online (Sandbox Code Playgroud)
我希望实现类似的目标
a[0] = ??
a[1] = ???
a[3] = ?
Run Code Online (Sandbox Code Playgroud)
但由于म占用4个字节,而बि占用8个字节,我无法直接进行.那么可以做些什么呢?在Python中.
有没有人对使用现代机器学习技术进行印度文字光学字符识别的最新工作有什么想法?我知道在加利福尼亚州的ISI进行了一些研究,但据我所知,在过去的3到4年里没有出现任何新的东西,并且令人遗憾的是,天籁的OCR很缺乏!
我正在尝试使用i18n在java中使用来自互联网的示例ttf文件的devanagari/hindi.
我能够加载资源包条目,并加载ttf和设置字体,但它不会根据需要呈现jlabel.它显示了代替字符的块.如果我在eclipse中调试,我可以将鼠标悬停在unicode变量上,甚至可以渲染devanagari.下面是代码和资源包供参考.
package i18n;
import java.awt.Font;
import java.awt.GridLayout;
import java.io.InputStream;
import java.util.Locale;
import java.util.ResourceBundle;
import javax.swing.JFrame;
import javax.swing.JLabel;
import javax.swing.JPanel;
public class MyNumbers extends JFrame {
private ResourceBundle rb;
private Font devanagariFont;
public MyNumbers (String language, String fontFile) {
loadResourceBundle(language);
loadFont(fontFile);
display();
}
private void display() {
String unicode = null;
JPanel labels = new JPanel(new GridLayout(0,2));
JLabel uni = null;
for(int i=0; i<=10; i++) {
unicode = rb.getString("" +i);
labels.add(new JLabel("" + i));
labels.add(uni = new JLabel(unicode));
uni.setFont(devanagariFont);
} …
Run Code Online (Sandbox Code Playgroud) 我要求在发送到Android应用程序的GCM警报中显示kannada文本.
我按照这些教程在Android上安装读/写印度语言字体以及 如何在Android 上编写和阅读印度语区域语言字体.
简而言之,我做了以下事情:
但我最终显示这样的卡纳达语文本:
鉴于,我已发送ವಿಕಿಪೀಡಿಯ谢谢!从我的后端服务器.如何显示kannada与从后端发送的完全相同.
这是泰米尔语unicode代码点列表
[u'\ u0b9a',u'\ u0b9f',u'\ u0bcd',u'\ u0b9f',u'\ u0b9a',u'\ u0baa',u'\ u0bc8',u'\ u0baf',u '\ u0bbf',u'\ u0bb2',u'\ u0bcd',u'\ u0ba8',u'\ u0bc'',u'\ u0bb1',u'\ u0bcd',u'\ u0bb1',u'\ u0bc1]
如何将其转换为可读字符串?
我正在为FOSS语言学习计划编写Python脚本.假设我有一个XML文件(或保持简单,一个Python列表),其中包含特定语言的单词列表(在我的例子中,单词是泰米尔语,它使用基于Brahmi的印度语脚本).
我需要绘制那些可以使用这些字母拼写的单词的子集.
一个英文例子:
words = ["cat", "dog", "tack", "coat"]
get_words(['o', 'c', 'a', 't']) should return ["cat", "coat"]
get_words(['k', 'c', 't', 'a']) should return ["cat", "tack"]
Run Code Online (Sandbox Code Playgroud)
泰米尔语的例子:
words = [u"????", u"????", u"????", u"?????"]
get_words([u'?', u'?', u'?', u'??') should return [u"????", u"????")
get_words([u'?', u'??', u'?') should return [u"????"]
Run Code Online (Sandbox Code Playgroud)
返回单词的顺序或输入字母的顺序不应有所不同.
虽然我理解unicode代码点和字形之间的区别,但我不确定它们是如何在正则表达式中处理的.
在这种情况下,我想只匹配由输入列表中的特定字素组成的那些单词,而不是其他任何内容(即字母后面的标记只应该跟随该字母,但字母本身可以出现在任何字母中.订购).
我是 Flutter 新手,正在尝试使用代码来更改字符串中特定 Unicode 字符的颜色。颜色编码 \\u0951、\\u0952 和 \\u1cda 表示蓝色、红色和绿色。输出字符串与预期格式不匹配。我看到一些字符重复,并且在某些字符中,颜色被应用于相邻的字符。非常感谢任何帮助解决该问题的帮助。\n我希望代码能够在 Android 和 IOS 平台上运行。
\n早些时候,当我使用 spannableStr 在 Android 中开发此应用程序时,我在 Kotlin 中有类似的代码,工作正常。\nFlutter Dart 代码是:
\nimport \'package:flutter/material.dart\';\n\nimport \'package:flutter/painting.dart\';\nimport \'package:google_fonts/google_fonts.dart\';\n\nclass TextModifierScreen extends StatefulWidget{\n @override\n State<StatefulWidget> createState() {\n return TextModifierScreenState();\n }\n}\n\nclass TextModifierScreenState extends State{\n\n List<TextSpan> _displaySpans = [];\n String inputString = "\xe0\xa4\xae\xe0\xa5\x83\xe0\xa5\x92\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xb5\xe0\xa5\x87\xe0\xa5\x92 \xe0\xa4\xaf\xe0\xa5\x8b\xe0\xa5\x91 \xe0\xa4\xb8\xe0\xa5\x8d\xe0\xa4\xb5\xe0\xa4\xbe\xe0\xa4\xb9\xe0\xa4\xbe\xe1\xb3\x9a \xe0\xa4\xad\xe0\xa5\x82\xe0\xa5\x92 \xe0\xa4\xae\xe0\xa5\x81\xe0\xa5\x92\xe0\xa4\xad\xe0\xa4\xaf\xe0\xa5\x8b\xe0\xa5\x92\xe0\xa4\xb0\xe0\xa4\xbe \xe0\xa5\xa5";\n\n void replaceVowelsWithColor(String input) {\n List<TextSpan> spans = [];\n for (int i = 0; i < input.length; i++) {\n String char = input[i];\n int unicode = char.codeUnitAt(0);\n …
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用 gvim 用孟加拉语( http://en.wikipedia.org/wiki/Bengali_alphabet )编写。字体渲染不正确。我试过gedit,渲染是正确的。要进行比较,请查看此图像的 gedit 和此图像的 gvim (所有非英语实际上都是孟加拉语,请参见例如第 590 行中的差异)
如果有帮助的话:
$vi --version
VIM - Vi IMproved 7.3 (2010 Aug 15, compiled May 14 2013 13:17:57)
Included patches: 1-415, 417-944
Modified by <bugzilla@redhat.com>
Compiled by <bugzilla@redhat.com>
Huge version with GTK2 GUI. Features included (+) or not (-):
+arabic +file_in_path +mouse_sgr +tag_binary
+autocmd +find_in_path -mouse_sysmouse +tag_old_static
+balloon_eval +float +mouse_urxvt -tag_any_white
+browse +folding +mouse_xterm -tcl
++builtin_terms -footer +multi_byte +terminfo
+byte_offset +fork() +multi_lang +termresponse
+cindent +gettext -mzscheme +textobjects …
Run Code Online (Sandbox Code Playgroud) 是否有任何最佳方法来实现印度语(如印地语泰米尔语)的字符计数例如,如果我们采用英语中的“母亲”一词,它是一个 6 个字母的单词。但是,如果您用印地语键入相同的单词(\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe),它是一个两个字母的单词(\xe0\xa4\xae\ xe0\xa4\xbe + \xe0\xa4\xa4\xe0\xa4\xbe) 但字符长度变成了4。有没有办法计算真实字符的数量?
\n\n\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe -> actual -> 4, Expected-> 2\n\xe0\xa4\x9c\xe0\xa4\x97\xe0\xa4\xa6\xe0\xa5\x80\xe0\xa4\xb6 -> actual ->5 , Expected -> 4\n\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa4\xae\xe0\xa4\xb6 -> actual -> 5, expected -> 3\n
Run Code Online (Sandbox Code Playgroud)\n\n对此的任何帮助将不胜感激......
\n