标签: indic

和梵文字符一起玩

我有类似的东西

a = "?????? ???? ??? ??"
Run Code Online (Sandbox Code Playgroud)

我希望实现类似的目标

a[0] = ??
a[1] = ???
a[3] = ?
Run Code Online (Sandbox Code Playgroud)

但由于म占用4个字节,而बि占用8个字节,我无法直接进行.那么可以做些什么呢?在Python中.

python unicode indic devanagari

25
推荐指数
2
解决办法
4744
查看次数

是否有任何词干可用于印度语

是否有任何印度语语言的词干提取器的实现,如(印地语,泰卢固语)可用....

nlp stemming indic

9
推荐指数
1
解决办法
2802
查看次数

梵天的OCR(印地语/马拉地语/梵语)

有没有人对使用现代机器学习技术进行印度文字光学字符识别的最新工作有什么想法?我知道在加利福尼亚州的ISI进行了一些研究,但据我所知,在过去的3到4年里没有出现任何新的东西,并且令人遗憾的是,天籁的OCR很缺乏!

ocr machine-learning image-processing computer-vision indic

8
推荐指数
1
解决办法
7659
查看次数

devanagari i18n in java

我正在尝试使用i18n在java中使用来自互联网的示例ttf文件的devanagari/hindi.

我能够加载资源包条目,并加载ttf和设置字体,但它不会根据需要呈现jlabel.它显示了代替字符的块.如果我在eclipse中调试,我可以将鼠标悬停在unicode变量上,甚至可以渲染devanagari.下面是代码和资源包供参考.

package i18n;

import java.awt.Font;
import java.awt.GridLayout;
import java.io.InputStream;
import java.util.Locale;
import java.util.ResourceBundle;

import javax.swing.JFrame;
import javax.swing.JLabel;
import javax.swing.JPanel;

public class MyNumbers extends JFrame {
    private ResourceBundle rb;
    private Font devanagariFont;

    public MyNumbers (String language, String fontFile) {
        loadResourceBundle(language);
        loadFont(fontFile);
        display();
    }

    private void display() {
        String unicode = null;

        JPanel labels = new JPanel(new GridLayout(0,2));
        JLabel uni = null;
        for(int i=0; i<=10; i++) {
            unicode = rb.getString("" +i);
            labels.add(new JLabel("" + i));
            labels.add(uni = new JLabel(unicode));
            uni.setFont(devanagariFont);
        } …
Run Code Online (Sandbox Code Playgroud)

java internationalization indic

7
推荐指数
1
解决办法
2716
查看次数

在Android应用程序中显示Kannada文本

我要求在发送到Android应用程序的GCM警报中显示kannada文本.

我按照这些教程在Android上安装读/写印度语言字体以及 如何在Android 上编写和阅读印度语区域语言字体.

简而言之,我做了以下事情:

  1. 扎根Android设备
  2. 已安装ES文件资源管理器(从Android电子市场免费下载)
  3. 下载了DroidSansFallback.ttf TrueType字体并将其保存在SD卡中
  4. 打开ES文件资源管理器 - 在设置中,启用Root Explorer和Mount System作为RW
  5. 从SD卡根目录复制文件并将其粘贴到/ System/Fonts(必要时覆盖)
  6. 重启

但我最终显示这样的卡纳达语文本:

在此输入图像描述

鉴于,我已发送ವಿಕಿಪೀಡಿಯ谢谢!从我的后端服务器.如何显示kannada与从后端发送的完全相同.

android indic kannada

7
推荐指数
1
解决办法
9999
查看次数

如何使用空格将tamil unicode值数组转换为python中的tamil字符串?

这是泰米尔语unicode代码点列表

[u'\ u0b9a',u'\ u0b9f',u'\ u0bcd',u'\ u0b9f',u'\ u0b9a',u'\ u0baa',u'\ u0bc8',u'\ u0baf',u '\ u0bbf',u'\ u0bb2',u'\ u0bcd',u'\ u0ba8',u'\ u0bc'',u'\ u0bb1',u'\ u0bcd',u'\ u0bb1',u'\ u0bc1]

如何将其转换为可读字符串?

python unicode tamil indic python-unicode

6
推荐指数
1
解决办法
1991
查看次数

正则表达式获取具有特定字母的所有单词列表(unicode字形)

我正在为FOSS语言学习计划编写Python脚本.假设我有一个XML文件(或保持简单,一个Python列表),其中包含特定语言的单词列表(在我的例子中,单词是泰米尔语,它使用基于Brahmi的印度语脚本).

我需要绘制那些可以使用这些字母拼写的单词的子集.

一个英文例子:

words = ["cat", "dog", "tack", "coat"] 

get_words(['o', 'c', 'a', 't']) should return ["cat", "coat"]
get_words(['k', 'c', 't', 'a']) should return ["cat", "tack"]
Run Code Online (Sandbox Code Playgroud)

泰米尔语的例子:

words = [u"????", u"????", u"????", u"?????"]

get_words([u'?', u'?', u'?', u'??')  should return [u"????", u"????")
get_words([u'?', u'??', u'?') should return [u"????"] 
Run Code Online (Sandbox Code Playgroud)

返回单词的顺序或输入字母的顺序不应有所不同.

虽然我理解unicode代码点和字形之间的区别,但我不确定它们是如何在正则表达式中处理的.

在这种情况下,我想只匹配由输入列表中的特定字素组成的那些单词,而不是其他任何内容(即字母后面的标记只应该跟随该字母,但字母本身可以出现在任何字母中.订购).

python regex unicode tamil indic

6
推荐指数
1
解决办法
1851
查看次数

Flutter/Dart:更改字符串中特定 unicode 字符的颜色

我是 Flutter 新手,正在尝试使用代码来更改字符串中特定 Unicode 字符的颜色。颜色编码 \\u0951、\\u0952 和 \\u1cda 表示蓝色、红色和绿色。输出字符串与预期格式不匹配。我看到一些字符重复,并且在某些字符中,颜色被应用于相邻的字符。非常感谢任何帮助解决该问题的帮助。\n我希望代码能够在 Android 和 IOS 平台上运行。

\n

早些时候,当我使用 spannableStr 在 Android 中开发此应用程序时,我在 Kotlin 中有类似的代码,工作正常。\nFlutter Dart 代码是:

\n
import \'package:flutter/material.dart\';\n\nimport \'package:flutter/painting.dart\';\nimport \'package:google_fonts/google_fonts.dart\';\n\nclass TextModifierScreen extends StatefulWidget{\n  @override\n  State<StatefulWidget> createState() {\n    return TextModifierScreenState();\n  }\n}\n\nclass TextModifierScreenState extends State{\n\n  List<TextSpan> _displaySpans = [];\n  String inputString = "\xe0\xa4\xae\xe0\xa5\x83\xe0\xa5\x92\xe0\xa4\xa4\xe0\xa5\x8d\xe0\xa4\xaf\xe0\xa4\xb5\xe0\xa5\x87\xe0\xa5\x92 \xe0\xa4\xaf\xe0\xa5\x8b\xe0\xa5\x91 \xe0\xa4\xb8\xe0\xa5\x8d\xe0\xa4\xb5\xe0\xa4\xbe\xe0\xa4\xb9\xe0\xa4\xbe\xe1\xb3\x9a \xe0\xa4\xad\xe0\xa5\x82\xe0\xa5\x92 \xe0\xa4\xae\xe0\xa5\x81\xe0\xa5\x92\xe0\xa4\xad\xe0\xa4\xaf\xe0\xa5\x8b\xe0\xa5\x92\xe0\xa4\xb0\xe0\xa4\xbe \xe0\xa5\xa5";\n\n  void replaceVowelsWithColor(String input) {\n    List<TextSpan> spans = [];\n    for (int i = 0; i < input.length; i++) {\n      String char = input[i];\n      int unicode = char.codeUnitAt(0);\n …
Run Code Online (Sandbox Code Playgroud)

typography text-rendering indic dart flutter

6
推荐指数
1
解决办法
301
查看次数

在 vim 中渲染孟加拉语(可能还有其他印度语)字体

我正在尝试使用 gvim 用孟加拉语( http://en.wikipedia.org/wiki/Bengali_alphabet )编写。字体渲染不正确。我试过gedit,渲染是正确的。要进行比较,请查看此图像的 gedit 和此图像的 gvim (所有非英语实际上都是孟加拉语,请参见例如第 590 行中的差异)

如果有帮助的话:

$vi --version
VIM - Vi IMproved 7.3 (2010 Aug 15, compiled May 14 2013 13:17:57)
Included patches: 1-415, 417-944
Modified by <bugzilla@redhat.com>
Compiled by <bugzilla@redhat.com>
Huge version with GTK2 GUI.  Features included (+) or not (-):
+arabic          +file_in_path    +mouse_sgr       +tag_binary
+autocmd         +find_in_path    -mouse_sysmouse  +tag_old_static
+balloon_eval    +float           +mouse_urxvt     -tag_any_white
+browse          +folding         +mouse_xterm     -tcl
++builtin_terms  -footer          +multi_byte      +terminfo
+byte_offset     +fork()          +multi_lang      +termresponse
+cindent         +gettext         -mzscheme        +textobjects …
Run Code Online (Sandbox Code Playgroud)

vim fonts render indic

5
推荐指数
1
解决办法
787
查看次数

计算印度语言的字符数(印地语、泰米尔语支持所有印度语言)

是否有任何最佳方法来实现印度语(如印地语泰米尔语)的字符计数例如,如果我们采用英语中的“母亲”一词,它是一个 6 个字母的单词。但是,如果您用印地语键入相同的单词(\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe),它是一个两个字母的单词(\xe0\xa4\xae\ xe0\xa4\xbe + \xe0\xa4\xa4\xe0\xa4\xbe) 但字符长度变成了4。有没有办法计算真实字符的数量?

\n\n
\xe0\xa4\xae\xe0\xa4\xbe\xe0\xa4\xa4\xe0\xa4\xbe -> actual -> 4, Expected-> 2\n\xe0\xa4\x9c\xe0\xa4\x97\xe0\xa4\xa6\xe0\xa5\x80\xe0\xa4\xb6  -> actual ->5 , Expected -> 4\n\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb0\xe0\xa4\xae\xe0\xa4\xb6  -> actual -> 5, expected -> 3\n
Run Code Online (Sandbox Code Playgroud)\n\n

对此的任何帮助将不胜感激......

\n

html javascript css jquery indic

5
推荐指数
1
解决办法
521
查看次数