标签: tokenize

接近Scala中的文本解析

我正在创建一个将在Scala中解析命令的应用程序.命令的一个例子是:

todo get milk for friday

Run Code Online (Sandbox Code Playgroud)

所以计划是让一个非常聪明的解析器分开线并识别命令部分以及字符串中有时间参考的事实.

一般来说,我需要在Scala中创建一个tokenizer.所以我想知道我的选择是什么.我对正则表达式很熟悉,但我还计划制作类似SQL的搜索功能:

search todo for today with tags shopping

Run Code Online (Sandbox Code Playgroud)

我觉得正则表达式将不灵活地实现具有很多变化的命令.这让我想到实现某种语法.

在Scala中我在这方面的选择是什么？

parsing scala tokenize

Bef*_*rem

lucky-day

2
推荐指数

1
解决办法

4360
查看次数

是否有cpp文件的标记化器

我有一个带有巨大类实现的cpp文件.现在我必须修改源文件本身.

为此,是否有一个库/ api /工具将为我标记此文件,并在每次请求时给我一个令牌.

我的要求如下.

OpenCPPFile()
While (!EOF)
   token = GetNextToken();
   process something based on this token
EndWhile
I am happy now

Run Code Online (Sandbox Code Playgroud)

问候,AJ

c++ tokenize

AMM*_*AMM

lucky-day

2
推荐指数

1
解决办法

1396
查看次数

我想在Jquery tokenInput上插入令牌项

在jQuery插件:标记自动完成文本输入中,我们有:

$("#tokenize").tokenInput("php-example.php?a=1&b=2", {
        hintText: "Type in the names of your favorite TV shows",
        noResultsText: "No results",
        searchingText: "Searching..."
});

Run Code Online (Sandbox Code Playgroud)

如何使用函数"insert_token"将新的intes添加到列表中,如何预先填充列表？

谢谢

jquery tokenize jquery-tokeninput

Mat*_*ira

2011 12-28

2
推荐指数

1
解决办法

4155
查看次数

有没有一个工具可以在java中拆分德语复合词？

我成功地将句子分成了一个单词StringTokenizer.

是否有一个工具,它能够像复合词拆分Projektüberwachung成其零件Projekt和überwachung甚至一些较长的？

分割复合词的原因是我想要进行文本提取.我想这样的短语转换Projektplanung und -überwachung成两个部分Projektplanung和Projektüberwachung.分裂复合词是我的第一步.

java string text-processing tokenize

Mar*_*eit

lucky-day

2
推荐指数

1
解决办法

2410
查看次数

为什么我的arrayList只添加了StringTokenizer的最后一个令牌？

我做了这个代码

private static List<String> rebuildURLWithComplexValues(String url) {

List<String> tokens = null;

if(url != null && url.length() > 0) {
    if(url.contains("flowVars")) {              
        String[] firstSplit = url.split("\\[");
        for (int i = 0; i < firstSplit.length; i++) {
            if(firstSplit[i].contains("'")) {
                StringTokenizer st = new StringTokenizer(firstSplit[i], "\'");
                tokens = new ArrayList<String>();
                String token = st.nextToken();
                System.out.println(token);
                tokens.add(token);
            }
        }

        return tokens;
    }
}
return null;
}

Run Code Online (Sandbox Code Playgroud)

Sysout正确地显示每个令牌,但是当我然后迭代arrayList或检查它的大小时,说1(应该是2)并且仅显示添加的最新令牌.

为什么会这样？

谢谢.

java token tokenize

msq*_*qar

2013 07-19

2
推荐指数

1
解决办法

912
查看次数

读取CSV文件并使用StringTokenizer

这是一个简单的家庭作业,过去几天一直让我发疯.如果我要使用几个阵列,我可以在不久前完成它但是必须使用StringTokenizer让我疯了.

我遇到的主要问题是读取CSV文件.我不知道该怎么做,之前的在线搜索只提出了超级强烈的解决方案,这对于像我这样的初学者来说太过分了.

这是我的代码.如你所见,我不知道是否使用.nextLine()或.NextToken().似乎都没有用.

对于那些想知道作业的人来说,基本上是用逗号分隔前4个产品,然后读取其余行作为这4个产品的评级.基本上6行,4列.第一行是产品,其余的是评级.

import java.util.StringTokenizer;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.util.Scanner;

public class ProductRating {

public static void main(String[] args) {
    // TODO Auto-generated method stub


    Scanner fileIn=null;
    try{
        fileIn = new Scanner(
                 new FileInputStream("C:/Users/Cristian/Desktop"));
    }
    catch (FileNotFoundException e)
     {  // This block executed if the file is not found
        // and then the program exits
    System.out.println("File not found.");
    System.exit(0);
    }

    //If Opened File Successful this runs
    String products = "A";
    String rantings ="0";
    System.out.println("Gathering …

Run Code Online (Sandbox Code Playgroud)

java csv string tokenize

Cri*_*yes

2014 04-20

2
推荐指数

1
解决办法

5548
查看次数

Python word_tokenize

我是python的新手.我正在尝试查找文本的频率分布.这是代码,

import nltk
nltk.download()
import os
os.getcwd()
text_file=open(r"ecelebi\1.txt","r")
p = text_file.read()
words = nltk.tokenize.word_tokenize(p)
fdist= FreqDist(words)
print(fdist)

Run Code Online (Sandbox Code Playgroud)

问题是程序没有给出任何错误或解决方案.它只是归还了这个

>>> ================================ RESTART ================================
>>> 
showing info http://nltk.github.com/nltk_data/

Run Code Online (Sandbox Code Playgroud)

我认为问题出在word_tokenize()上.如果你能提供帮助,我将不胜感激.谢谢.

python tokenize nltk

Eda*_*Eda

lucky-day

2
推荐指数

1
解决办法

1万
查看次数

如何在C++中的字符串中每N个字符插入一个字符

我怎样才能插入字符 ACTER成字符串 1个字符后到底是什么？

我需要插入'|' 在每个其他角色之后进入字符串.

换句话说(C++):"Tokens all around!"
变成:( "T|o|k|e|n|s| |a|l|l| |a|r|o|u|n|d|!"不,那不是数组)

谢谢

c++ string tokenize

CAT*_*DOG

2015 01-20

2
推荐指数

1
解决办法

5500
查看次数

Scala JavaTokenParsers动态解析

我正在尝试使用JavaTokenParser来解析从前一个令牌读取大小的字符串的重复次数,即

list-name:5
ABCDE

second-list-name:2
AB  //<--the length of the string determines by the value at the token before

Run Code Online (Sandbox Code Playgroud)

因此,repN将由列表名称后面的令牌I确定

def body = (listname <~ ":") ~ (numOfRepeat <~ LF) ~ repN(?, char)
def char = """[A-Z]""".r

Run Code Online (Sandbox Code Playgroud)

有什么技巧我可以将刚传递的令牌(numOfRepeat)作为Int值传递给下一个解析器(repN)？

谢谢!

parsing scala tokenize

Joy*_*age

lucky-day

2
推荐指数

1
解决办法

747
查看次数

了解azure搜索charFilters映射

我使用以下自定义分析器创建索引

"analyzers":[
 {
    "name":"shinglewhite_analyzer",
    "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
    "charFilters":[
       "map_dash"
    ],
    "tokenizer":"whitespace",
    "tokenFilters":[
        "shingle"
    ]
 }
],
"charFilters":[
 {
    "name":"map_dash",
     "@odata.type":"#Microsoft.Azure.Search.MappingCharFilter",
     "mappings":[ "_=> " ]
 }
]

Run Code Online (Sandbox Code Playgroud)

问题是来自输入的像ice_cream这样的单词与查询冰淇淋不匹配,但它与冰淇淋相匹配.有人可以帮我理解这是如何工作的,如果我做错了什么？

此外,我们想查询"冰淇淋"以匹配"冰淇淋","冰淇淋"和"冰淇淋",但有利于那些有序.

tokenize analyzer azure-cognitive-search

Ton*_*ony

2016 04-13

2
推荐指数

1
解决办法

306
查看次数