小编tic*_*pix的帖子

HTML 到 RST 转换器

我有很多使用 docutils 转换为 HTML 的 RST（reStructuredText）文件。使用开发的小型 JS 应用程序（具有 HTML5 contenteditable 属性的基本 iframe），非技术人员可以轻松编辑生成的 HTML 页面。目标是将在 HTML 中所做的修改应用回原始 RST 文件。

我想知道是否有一种方法可以使用 original_RST -> output_HTML 转换的基本事实来训练算法，以便我们以后可以将 output_HTML+minor 修改反向回 RST ？会是什么样的算法？我应该从哪个方向开始挖掘？

为了简化问题，我还可以使用 docutils 的内部 XML AST 表示形式而不是 RST 作为文档输入（RST 到 XML-AST：http ://docutils.sourceforge.net/tools/quicktest.py ），然后修复xml2rst+xslt 项目 ( http://www.merten-home.de/FreeSoftware/xml2rst/ )

欢迎任何建议

html xml restructuredtext scikit-learn

tic*_*pix

2016 09-11

7
推荐指数

1
解决办法

3398
查看次数

爆炸功能的反作用

在带有spark-2.4的scala中，我想过滤列中数组内部的值。

从

+---+------------+
| id|      letter|
+---+------------+
|  1|[x, xxx, xx]|
|  2|[yy, y, yyy]|
+---+------------+

Run Code Online (Sandbox Code Playgroud)

至

+---+-------+
| id| letter|
+---+-------+
|  1|[x, xx]|
|  2|[yy, y]|
+---+-------+

Run Code Online (Sandbox Code Playgroud)

我想到了使用explode+filter

val res = Seq(("1", Array("x", "xxx", "xx")), ("2", Array("yy", "y", "yyy"))).toDF("id", "letter")
res.withColumn("tmp", explode(col("letter"))).filter(length(col("tmp")) < 3).drop(col("letter")).show()

Run Code Online (Sandbox Code Playgroud)

我正在

+---+---+
| id|tmp|
+---+---+
|  1|  x|
|  1| xx|
|  2| yy|
|  2|  y|
+---+---+

Run Code Online (Sandbox Code Playgroud)

如何按ID zip / groupBy返回？

还是有更好，更优化的解决方案？

scala apache-spark apache-spark-sql

tic*_*pix

2019 09-29

0
推荐指数

1
解决办法

90
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

html ×1

restructuredtext ×1

scala ×1

scikit-learn ×1

xml ×1

HTML 到 RST 转换器

爆炸功能的反作用

标签 统计

小编tic_pix的帖子

标签统计