小编PWS*_*PWS的帖子

如何从Dataflow中的PCollection读取bigQuery

我有一个从pubsub获得的Object的PCollection,可以这样说:

 PCollection<Student> pStudent ;
Run Code Online (Sandbox Code Playgroud)

在学生属性中,有一个属性,比如说studentID;并且我想使用此学生ID从BigQuery读取属性(class_code),并将我从BQ获取的class_code设置为PCollcetion中的Student Object

有谁知道如何实现这一目标?我知道在Beam中有一个,BigQueryIO但是如果我要在BQ中执行的查询字符串条件来自PCollection中的学生对象(studentID),那么我该怎么办?如何从BigQuery的结果中将值设置为PCollection ?

google-bigquery google-cloud-dataflow apache-beam

2
推荐指数
1
解决办法
1256
查看次数

在文本中修正拼写错误的最佳算法

我有一个单词库列表和一个有拼写错误(错别字)的文本,我想根据库列表更正单词拼写错误是正确的

例如

在单词列表中:

listOfWord = [...,"halo","saya","sedangkan","semangat","cemooh"..];

这是我的字符串:

string = "haaallllllooo ssya sdngkan ceemoooh , smngat semoga menyenangkan"

我想改变spellerror是正确的,如:

string = "halo saya sedangkan cemooh, semangat semoga menyenangkan"

什么是检查列表中每个单词的最佳算法,因为我在列表中有数百万个单词并且有很多可能性

python string algorithm nlp pattern-matching

1
推荐指数
1
解决办法
3163
查看次数