我想比较几个字符串,找到最相似的字符串.我想知道是否有任何库,方法或最佳实践将返回我哪些字符串更类似于其他字符串.例如:
这种比较将返回第一个比第二个更相似.
我想我需要一些方法,例如:
double similarityIndex(String s1, String s2)
Run Code Online (Sandbox Code Playgroud)
某处有这样的事吗?
编辑:我为什么这样做?我正在编写一个脚本,将MS Project文件的输出与处理任务的某些遗留系统的输出进行比较.由于遗留系统的字段宽度非常有限,因此在添加值时,将缩写描述.我想要一些半自动的方式来查找MS Project中哪些条目与系统上的条目类似,这样我就可以获得生成的密钥.它有缺点,因为它必须仍然手动检查,但它会节省大量的工作
我想覆盖特定的分区而不是所有的火花.我正在尝试以下命令:
df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
Run Code Online (Sandbox Code Playgroud)
其中df是具有要覆盖的增量数据的数据帧.
hdfs-base-path包含主数据.
当我尝试上面的命令时,它会删除所有分区,并在hdfs路径中插入df中存在的分区.
我的要求是只覆盖指定hdfs路径中df中存在的那些分区.有人可以帮我吗?
现在我ResultScanner像这样实现行计数
for (Result rs = scanner.next(); rs != null; rs = scanner.next()) {
number++;
}
Run Code Online (Sandbox Code Playgroud)
如果数据达到数百万计算时间很大.我想实时计算我不想使用Mapreduce
如何快速计算行数.
我正在尝试解析从我的Android应用程序中的URL获取的JSON结果...
我在互联网上尝试了一些例子,但无法让它发挥作用.JSON数据如下所示:
[
{
"city_id": "1",
"city_name": "Noida"
},
{
"city_id": "2",
"city_name": "Delhi"
},
{
"city_id": "3",
"city_name": "Gaziyabad"
},
{
"city_id": "4",
"city_name": "Gurgaon"
},
{
"city_id": "5",
"city_name": "Gr. Noida"
}
]
Run Code Online (Sandbox Code Playgroud)
获取URL并解析JSON数据的最简单方法是在列表视图中显示它
我有一个火花数据框df.有没有办法使用这些列的列表选择几列?
scala> df.columns
res0: Array[String] = Array("a", "b", "c", "d")
Run Code Online (Sandbox Code Playgroud)
我知道我可以做点什么df.select("b", "c").但是假设我有一个包含几个列名的列表val cols = List("b", "c"),有没有办法将它传递给df.select?df.select(cols)抛出错误.像df.select(*cols)python中的东西
有人可以分享一下如何将一个转换dataframe成一个RDD?
我试图更改索引的映射,但收到错误.以下是我创建索引的步骤
使用以下代码设置映射:
PUT /myidx/orderrow/_mapping
{
"orderrow": {
"properties": {
"item_code": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
Run Code Online (Sandbox Code Playgroud)这是我收到的错误消息:
{
"error": "MergeMappingException[Merge failed with failures {[mapper [item_code] has different index values, mapper [item_code] has different `norms.enabled` values, mapper [item_code] has different tokenize values, mapper [item_code] has different index_analyzer]}]",
"status": 400
}
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
我使用以下代码将spark DataFrame保存到JSON文件
unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json")
Run Code Online (Sandbox Code Playgroud)
输出结果是:
part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00000-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8
.part-r-00001-704b5725-15ea-4705-b347-285a4b0e7fd8.crc
_SUCCESS
._SUCCESS.crc
Run Code Online (Sandbox Code Playgroud)
我知道这是一个微不足道的问题,但我在互联网上找不到答案.
我正在尝试使用main带有程序参数(String[] args)的函数运行Java类.
但是,当我提交作业spark-submit并使用程序参数时,就像我一样
java -cp <some jar>.jar <Some class name> <arg1> <arg2>
Run Code Online (Sandbox Code Playgroud)
它不读args.
我试过的命令是
bin/spark-submit analytics-package.jar --class full.package.name.ClassName 1234 someargument someArgument
Run Code Online (Sandbox Code Playgroud)
这给了
Error: No main class set in JAR; please specify one with --class
Run Code Online (Sandbox Code Playgroud)
当我尝试时:
bin/spark-submit --class full.package.name.ClassName 1234 someargument someArgument analytics-package.jar
Run Code Online (Sandbox Code Playgroud)
我明白了
Warning: Local jar /mnt/disk1/spark/1 does not exist, skipping.
java.lang.ClassNotFoundException: com.relcy.analytics.query.QueryAnalytics
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.spark.util.Utils$.classForName(Utils.scala:176)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:693)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:183)
at …Run Code Online (Sandbox Code Playgroud) 我在一个docker容器中运行Jenkins,Jenkins尝试运行我的maven构建.作为构建的一部分,docker maven插件指示它构建一个docker镜像.
POM的那部分在下面.
<plugin>
<groupId>com.spotify</groupId>
<artifactId>docker-maven-plugin</artifactId>
<version>0.3.8</version>
<configuration>
<imageName>example</imageName>
<baseImage>java:latest</baseImage>
<skipDockerBuild>false</skipDockerBuild>
<cmd>["java", "-jar", "myLogThread-jar-with-dependencies.jar"]</cmd>
<resources>
<resource>
<directory>target/</directory>
<include>config.properties</include>
</resource>
<resource>
<directory>${project.build.directory}</directory>
<include>myLogThread-jar-with-dependencies.jar</include>
</resource>
</resources>
</configuration>
</plugin>
Run Code Online (Sandbox Code Playgroud)
maven构建一直运行,直到它尝试构建映像,此时出现以下错误消息:
[INFO] Building image example
[INFO] I/O exception (java.io.IOException) caught when processing request to {}->unix://localhost:80: Permission denied
Run Code Online (Sandbox Code Playgroud)
我可以进入正确的目录,Dockerfile就在那里.
我也可以运行sudo docker build .,它将构建没有问题的图像.
为什么maven构建失败?对localhost有什么要求:80?我如何纠正这个,以便maven可以建立我的形象?
注意:我已将docker socket和binary安装在此容器中