小编ghu*_*ill的帖子

在pyspark中调用scala代码进行XSLT转换

这可能是一个长镜头,但认为它可以不会受到伤害.我试图在pyspark中使用Elsevier的开源spark-xml-utils软件包来使用XSLT转换一些XML记录.

我通过一些探索性代码获得转换工作取得了一些成功:

# open XSLT processor from spark's jvm context
with open('/tmp/foo.xsl', 'r') as f:
    proc = sc._jvm.com.elsevier.spark_xml_utils.xslt.XSLTProcessor.getInstance(f.read())


# transform XML record with 'proc' 
with open('/tmp/bar.xml','r') as f:
    transformed = proc.transform(f.read())

Run Code Online (Sandbox Code Playgroud)

但是,在更现实的情况下,我无法proc.transform进入lambda地图功能,得到的错误类似于:

"调用o55时发生错误.getstate.跟踪:py4j.Py4JException:方法getstate([])在py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:318)py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine)中不存在.java:326)py4j.Gateway.invoke(Gateway.java:272)py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)at py4j.commands.CallCommand.execute(CallCommand.java:79)py4j .gatewayConnection.run(GatewayConnection.java:214)at java.lang.Thread.run(Thread.java:748)"

当我得到一个小例子来处理单个记录时,那是在pyspark shell中运行的,我假设它正在使用火花驱动器.但是在上面提到的map函数中,这是通过Livy和YARN在Spark中引入的工作者.这个问题/答案表明,在这种情况下,我可能无法使用jvm中的函数.

现在,该spark-xml-utils库提供了一些scala示例,正是我想要做的事情:

import com.elsevier.spark_xml_utils.xslt.XSLTProcessor

val xmlKeyPair = sc.sequenceFile[String, String]("s3n://spark-xml-utils/xml/part*")

val stylesheet = sc.textFile("s3n://spark-xml-utils/stylesheets/srctitle.xsl").collect.head

val srctitles = xmlKeyPair.mapPartitions(recsIter => { 
    val proc = XSLTProcessor.getInstance(stylesheet)
    recsIter.map(rec => proc.transform(rec._2))
}) …

Run Code Online (Sandbox Code Playgroud)

xslt scala apache-spark pyspark

ghu*_*ill

2018 08-29

9
推荐指数

0
解决办法

451
查看次数

SPARQL中的递归查询以浏览集合的集合

我试图从Mulgara RDF商店创建一个RDF图,使用Sparql查询返回结果.我刚开始对简单的查询感到满意,有效地问,"哪些对象是特定集合的成员？"

我的问题是,我会非常感谢任何建议,我是否可以从这个简单的查询中获取结果并将它们重新路由作为查询的对象？

例如,我有这个sparql查询:

SELECT ?x WHERE {?x  <fedora-rels-ext:isMemberOfCollection> <info:fedora/collection:ramsey>}

Run Code Online (Sandbox Code Playgroud)

有了这些结果:

"x"
info:fedora/ramsey:ThelifeandadventuresofRobinsonCrusoe 
info:fedora/ramsey:Jackanapes 
info:fedora/ramsey:SundayJournalvol01no0219951126 
info:fedora/ramsey:Ideologyandchange 
info:fedora/ramsey:theshepherdofthepyrenees 
info:fedora/ramsey:ScenesinAmerica
...

Run Code Online (Sandbox Code Playgroud)

我的目标是<info:fedora/collection:ramsey>,从原始查询中取出这些唯一标识符并替换对象,然后再次运行查询.

我正在想象一个场景,我会在初始查询中识别根元素,让结果返回所有成员对象,然后返回所有这些对象的成员对象,无限...

Sparql查询可以实现吗？具体来说,我相信我正在查询Mulgara RDF数据库.任何想法,即使它"不可行",也非常感激.

database rdf sparql

ghu*_*ill

2013 02-28

8
推荐指数

1
解决办法

3813
查看次数

在Github重新附加一个"Detached"分支？

我想知道是否有重新连接GitHub中的"独立"存储库？

活动顺序:

从我所属的组织分叉私有存储库
父,私人存储库上市
我也将我的分叉存储库公开(或者收费)
现在当我希望提交拉取请求并合并一些更改时,我注意到我的fork已从父存储库"分离"(请参阅此解释并确认原因)

有没有希望"重新连接"这个叉子？或者我是否重命名我的存储库,再次fork,并复制代码？

欢迎任何建议.

git github

ghu*_*ill

lucky-day

6
推荐指数

2
解决办法

1187
查看次数

根据字典中的“依赖项”对python列表进行排序

假设我有以下列表foo要排序：

foo = [63,64,65]

Run Code Online (Sandbox Code Playgroud)

为了通知排序，我有以下“依赖项”字典，其中如果某个值在key的列表中，则该值的排序必须高于list 中的键foo：

bar = {
    63: [64, 65],
    64: [65]
}

Run Code Online (Sandbox Code Playgroud)

例如，查看 list foo，我们看到63index 处的值0。但是，检查字典bar，我们看到63具有“依赖关系” 64and 65，因此这两个值必须在foo.

我相信我可以拼凑出一些东西，但我对算法和/或其他方法来解决这种排序场景感兴趣。谢谢。

更新： 评论中的许多人指出这可能是图形/拓扑问题。谢谢你，因为这实际上是对图中节点进行排序的更大任务的一部分。

更新： 建议查看toposort，这正好符合要求。

python sorting

ghu*_*ill

2018 10-12

6
推荐指数

1
解决办法

611
查看次数

使用GET参数重定向到路由

我想要一个解析并组合一系列GET参数的路由,以重定向到另一个需要GET参数的路由.

我希望这可以工作,我$search_params作为pathFor()方法的一部分传递:

// SEARCH VIEW
$app->get('/search', function ($request, $response, $args) {
    $api = $this->APIRequest->get($request->getAttribute('path'),$request->getQueryParams());
    $args['data'] = json_decode($api->getBody(), true);
    return $this->view->render($response, 'search.html.twig', $args);
})->setName('search');

// ADVANCED SEARCH VIEW
$app->get('/advanced_search', function ($request, $response, $args) {    
    return $this->view->render($response, 'advanced_search.html.twig', $args);
});

// ADVANCED SEARCH PROCESS
$app->post('/advanced_search', function ($request, $response, $args) {    

    // get settings
    $settings = $this->get('settings');

    // get post parameters
    $qp = $request->getParsedBody();

    // translate advanced search form parameters to Solr-ese
    $search_params = array(); …

Run Code Online (Sandbox Code Playgroud)

php redirect routes slim slim-3

ghu*_*ill

2018 07-02

1
推荐指数

1
解决办法

3768
查看次数

Python Celery 任务的状态

我想知道在将 celery 任务部署到工作人员后，有哪些选项可用于从浏览器监控 celery 任务？

我当前的应用程序堆栈是一个在扭曲内部运行的烧瓶应用程序，使用 celery 运行数十到数千个小型后台任务（更新存储库中的元数据，创建图像衍生品等）我设想使用 ajax 长轮询来监视状态由用户启动的 celery 任务。我将 redis 用于后端代理和结果。

我看到 celery 有一些命令行方法来监控任务，或者有一个 web 仪表板的花。但是，如果我想从发送到 celery 的特定任务中查看更详细的状态，那么该任务打印/写入日志文件，然后长轮询该文件以获取来自flask前端的更改是否更有意义？

此时用户可以说“更新这10,000个项目”，任务被发送到celery，前端很快就说，“作业已发送！”。而且任务确实完成了。但是我想让用户导航到“/status”并查看那 10,000 个小作业的状态 - 即使是滚动日志文件也可能会起作用。

任何建议将不胜感激。花了很多挠头，使这一步勾画出来的东西，但我纺纱我的车轮正好搞清楚什么从用户前端长查询。

python long-polling redis celery flask

ghu*_*ill

lucky-day

0
推荐指数

1
解决办法

2370
查看次数

os.walk Mac和Linux上的不同文件夹排序？

给定以下文件结构,

??? 0=ocfl_object_1.0
??? inventory.json
??? inventory.json.md5
??? v1
?   ??? content
?   ?   ??? foo.xml
?   ?   ??? level1
?   ?       ??? level2
?   ?           ??? bar.txt
?   ??? inventory.json
?   ??? inventory.json.md5
??? v2
    ??? content
    ?   ??? duck.txt
    ??? inventory.json
    ??? inventory.json.md5

Run Code Online (Sandbox Code Playgroud)

我想知道python的os.walk函数是否有可能在Mac和Linux上以不同的顺序返回文件夹？两者都使用python 3.5.

苹果电脑:

In [15]: for root,folders,files in os.walk('foo/bar'): 
    ...:     print(folders,files) 
    ...:                                                                                                                                                                                                                                                                                   
['v1', 'v2'] ['inventory.json', '0=ocfl_object_1.0', 'inventory.json.md5']
['content'] ['inventory.json', 'inventory.json.md5']
['level1'] ['foo.xml']
['level2'] []
[] ['bar.txt']
['content'] ['inventory.json', 'inventory.json.md5']
[] ['duck.txt']

Run Code Online (Sandbox Code Playgroud)

在Linux上: