标签: batch-processing

Apache Flink - DataSet API - 如何将 n 个结果分组在一起

我们正在使用 Apache Flink(1.4.2) 进行批处理,出于性能原因,我们希望在输出之前对 100 个项目进行分组,而不是直接输出每个项目。

如果我们要使用 DataStream API,我们将能够使用诸如翻滚窗口之类的东西(https://ci.apache.org/projects/flink/flink-docs-release-1.5/dev/stream/operators/windows.html #翻滚窗口

但这在进行批处理时不可用。

是否可以使用 DataSet Api 或许通过某些 group/reduce 函数来做到这一点?

batch-processing apache-flink

2
推荐指数
1
解决办法
517
查看次数

将 nlp.pipe() 与 spaCy 的预分段和预标记化文本结合使用

我正在尝试标记和解析已经分成句子并且已经被标记化的文本。举个例子:

sents = [['I', 'like', 'cookies', '.'], ['Do', 'you', '?']]
Run Code Online (Sandbox Code Playgroud)

处理批量文本的最快方法是.pipe()。但是,我不清楚如何将其与预标记和预分段的文本一起使用。性能是这里的关键。我尝试了以下操作,但这引发了错误

docs = [nlp.tokenizer.tokens_from_list(sentence) for sentence in sents]
nlp.tagger(docs)
nlp.parser(docs)
Run Code Online (Sandbox Code Playgroud)

痕迹:

Traceback (most recent call last):
  File "C:\Python\Python37\Lib\multiprocessing\pool.py", line 121, in worker
    result = (True, func(*args, **kwds))
  File "C:\Python\projects\PreDicT\predicting-wte\build_id_dictionary.py", line 204, in process_batch
    self.nlp.tagger(docs)
  File "pipes.pyx", line 377, in spacy.pipeline.pipes.Tagger.__call__
  File "pipes.pyx", line 396, in spacy.pipeline.pipes.Tagger.predict
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\model.py", line 169, in __call__
    return self.predict(x)
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\feed_forward.py", line 40, in predict
    X = layer(X)
  File "C:\Users\bmvroy\.virtualenvs\predicting-wte-YKqW76ba\lib\site-packages\thinc\neural\_classes\model.py", line 169, in …
Run Code Online (Sandbox Code Playgroud)

python nlp tokenize batch-processing spacy

2
推荐指数
1
解决办法
2329
查看次数

春季批量测试 - 无法自动装配。未找到“JobLauncherTestUtils”类型的 bean

尽管应用程序运行正常,但我无法运行 Spring Batch 测试。

这是我的配置

@Slf4j
@Configuration
public class MyBatchConfig {
    private final JobLauncher jobLauncher;
    private final JobBuilderFactory jobBuilder;
    private final StepBuilderFactory stepBuilder;
    private final MyReader myReader;

    public MyBatchConfig(JobLauncher jobLauncher, JobBuilderFactory jobBuilder, 
               StepBuilderFactory stepBuilder, MyReader myReader) {
        this.jobLauncher = jobLauncher;
        this.jobBuilder = jobBuilder;
        this.stepBuilder = stepBuilder;
        this.myReader = myReader;}

    @Scheduled(fixedDelay = 10000000)
    public void run() throws Exception {
        JobExecution execution = jobLauncher.run(
                myJob(),
                new JobParametersBuilder().addLong(System.nanoTime()).toJobParameters());
    }

    @Bean
    public Job myJob() {
        return jobBuilder.get("myJob")
                .start(myStep())
                .build();
    }

    @Bean
    public …
Run Code Online (Sandbox Code Playgroud)

java spring batch-processing spring-batch spring-boot

2
推荐指数
1
解决办法
3810
查看次数

关闭 Octave 中的警告

我正在 Octave 中运行 Matlab 兼容脚本,因此我正在等待有关“&”和“|”的一些警告 命令和其他命令,所以我在我现在的 Octave 脚本中添加了“警告('all','off')”,但它似乎没有做任何事情......我不明白,我仍然得到相同的结果警告!

有什么想法如何解决这个问题吗?

PS:我正在以批处理模式运行 Octave 脚本。

matlab warnings octave batch-processing

2
推荐指数
1
解决办法
240
查看次数

虽然我没有itemReader和itemWriter的用法,但对我来说是春季批次?

春季新手:我有一系列批次

  • 从一些sql表中读取所有新记录(自上次执行以来)
  • 所有新记录上传到hadoop
  • 所有数据(旧的和新的)运行一系列map-reduce(pig)作业
  • 所有输出下载到本地并在所有输出上运行一些其他本地处理

重点是,我没有任何明显的"项目" - 我不想与我的数据中的特定文本行相关,我将它作为一个大块工作,并且不需要任何提交间隔和这样...

但是,我确实希望保持所有这些步骤松散耦合 - 例如,步骤a + b + c可能会成功几天并累积处理过的东西而步骤d一直失败,然后当它最终成功时它会读取并处理所有它的前面步骤的输出.

SO:我的"项目"是一个虚构的"工作项目",它将表示整个新数据?我自己维护一系列队列并在它们之间传递这些虚构的工作项目?

谢谢!

java spring batch-processing spring-batch

1
推荐指数
1
解决办法
515
查看次数

递归查找和替换文件

我想做的是跟随.我想创建一些bat文件,它将递归搜索从当前目录开始的文件,并替换为我提供的文件.对于前者 如果我想搜索并替换test1.txt,我打开这个迷你应用程序并编写text1.txt,并放置我想要替换的文件.

  • 迪尔
    • app.bat
    • test1.txt // app将递归搜索文件夹1和文件夹2,并将用test1.txt替换所有找到的结果
    • 文件夹1
    • 文件夹2

我想知道,如果因为这个原因准备好去app或bat文件?

windows cmd batch-file batch-processing

1
推荐指数
1
解决办法
5562
查看次数

使用正则表达式替换浮点数中的逗号

在大型数据文件中,我想用每个浮点数中的点替换逗号.

56,66应该变成55.66等等.

该文件包含许多其他逗号,应保持不变.应更改浮点数(仅限那些).

可能是相关信息:

  • 逗号前面的数字不超过3位(但是,0,1,2和3都出现)
  • 逗号后面的数字永远不会超过2位(但是0,1和2都会出现)

我可以在Notepad ++或Eclipse中触发正则表达式,这对我来说无关紧要.

regex floating-point replace batch-processing

1
推荐指数
1
解决办法
4336
查看次数

如何在R中自动化数据框命名?

假设我有以下数据框:

x <- data.frame(let = sample(LETTERS, 100, replace = T),
                num = sample(1:10, 100, replace = T))
Run Code Online (Sandbox Code Playgroud)

我想创建几个子集,x其中每个新数据帧的级别为x$let.到目前为止,我已经提出了这个简单的功能:

ss <- function(letra){
  return(subset(x, let == letra))
}
Run Code Online (Sandbox Code Playgroud)

这是非常简陋的,并没有按照我的意愿进行命名.我的问题是:我如何自动执行以下程序?

a <- ss('A')
b <- ss('B')
c <- ss('C')
...
z <- ss('Z')
Run Code Online (Sandbox Code Playgroud)

r function subset batch-processing

1
推荐指数
1
解决办法
520
查看次数

批量读取Cifar10数据集

我正在尝试阅读从https://www.cs.toronto.edu/~kriz/cifar.html > 批量提供的CIFAR10数据集。我试图使用泡菜将其放在数据框中,并读取其中的“数据”部分。但是我得到这个错误。

KeyError                                  Traceback (most recent call last)
<ipython-input-24-8758b7a31925> in <module>()
----> 1 unpickle('datasets/cifar-10-batches-py/test_batch')

<ipython-input-23-04002b89d842> in unpickle(file)
      3     fo = open(file, 'rb')
      4     dict = pickle.load(fo, encoding ='bytes')
----> 5     X = dict['data']
      6     fo.close()
      7     return dict
Run Code Online (Sandbox Code Playgroud)

KeyError:“数据”。

我正在使用ipython,这是我的代码:

def unpickle(file):

 fo = open(file, 'rb')
 dict = pickle.load(fo, encoding ='bytes')
 X = dict['data']
 fo.close()
 return dict

unpickle('datasets/cifar-10-batches-py/test_batch')
Run Code Online (Sandbox Code Playgroud)

machine-learning computer-vision batch-processing python-3.x

1
推荐指数
1
解决办法
6520
查看次数

在Windows上使用批量导入将数十亿个节点和关系导入Neo4j

我想向Neo4j插入数十亿个节点和关系。尽管我有16GB的RAM,但由于工作内存已超载,浏览器(Chrome)在30分钟后取消了“ LOAD CSV”的使用。

显然,可以使用批处理导入器将大型数据集导入Neo4j(文档和下载Linux解释)。

要简单地使用它(不需要source / git / maven):

1. download 2.2 zip
2. unzip
3. run import.sh test.db nodes.csv rels.csv (on Windows: import.bat)
4. after the import point your /path/to/neo4j/conf/neo4j-server.properties 
to this test.db directory, or copy the data over to your server cp -r 
test.db/* /path/to/neo4j/data/graph.db/

You provide one tab separated csv file for nodes and one for 
relationships (optionally more for indexes)
Run Code Online (Sandbox Code Playgroud)

我很难在Windows上使用该插件。在Rik Van Bruggen的Linux视频中(上面的链接),他提到“批处理导入程序的安装”。

我解压缩了文件“ download 2.2 zip”。我在另一个文件夹中有CSV文件。如何使用Windows文档中提到的“ import.bat”命令?在cmd中找不到命令...

batch-processing neo4j maven

1
推荐指数
1
解决办法
996
查看次数