小编zol*_*oth的帖子

VIM,增量搜索:如何跳转到下一个结果并突出显示？

当我使用VIM的增量搜索选项时,我经常搜索并在得到第一个结果后(它会突出显示)我使用该/键跳转到下一个结果.

但:

为此,我需要"取消"我的搜索并返回普通模式以跳转下一个结果.
按下/使VIM跳转到下一个结果,但不会突出显示它.

我想知道是否有更有效的方法使用增量搜索在结果之间跳转并突出显示它们.

vim search hotkeys

zol*_*oth

lucky-day

63
推荐指数

3
解决办法

4万
查看次数

如何检测Bash中符号链接是否被破坏？

我运行find并迭代结果,[ $ -L $F $ ]以收集某些符号链接.

我想知道在这种情况下是否有一种简单的方法来确定链接是否被破坏(指向一个不存在的文件).

这是我的代码:

FILES=`find /target/ | grep -v '\.disabled$' | sort`

for F in $FILES; do
    if [ -L $F ]; then
        DO THINGS
    fi
done

Run Code Online (Sandbox Code Playgroud)

bash symlink

zol*_*oth

2018 03-02

44
推荐指数

4
解决办法

3万
查看次数

检测R中的文本语言

在RI有一个推文列表,我想只保留那些英文.

我想知道你是否有人知道一个R包提供了一种识别字符串语言的简单方法.

干杯,z

r text-mining

zol*_*oth

lucky-day

30
推荐指数

6
解决办法

2万
查看次数

在Spark ML/pyspark中以编程方式创建特征向量

我想知道是否有简洁的方法在pyspark中的DataFrame上运行ML(例如KMeans),如果我有多个数字列中的功能.

即在Iris数据集中:

(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1)

Run Code Online (Sandbox Code Playgroud)

我想使用KMeans而不重新创建DataSet,并将功能向量手动添加为新列,并在代码中重复硬编码原始列.

我想改进的解决方案:

from pyspark.mllib.linalg import Vectors
from pyspark.sql.types import Row
from pyspark.ml.clustering import KMeans, KMeansModel

iris = sqlContext.read.parquet("/opt/data/iris.parquet")
iris.first()
# Row(a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1)

df = iris.map(lambda r: Row(
                    id = r.id,
                    a1 = r.a1,
                    a2 = r.a2,
                    a3 = r.a3,
                    a4 = r.a4,
                    label = r.label,
                    binomial_label=r.binomial_label,
                    features = Vectors.dense(r.a1, r.a2, r.a3, r.a4))
                    ).toDF()


kmeans_estimator = KMeans()\
    .setFeaturesCol("features")\
    .setPredictionCol("prediction")\
kmeans_transformer = kmeans_estimator.fit(df)

predicted_df = kmeans_transformer.transform(df).drop("features") …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark apache-spark-ml

zol*_*oth

2015 09-16

19
推荐指数

1
解决办法

1万
查看次数

在预先排序的列中合并R中的数据帧？

我通常使用大型数据帧,这些数据帧排序很好(或者可以很容易地排序).

给定两个数据帧,两者都按'用户'排序

some.data <user> <data_1> <data_2> 
user <user> <user_attr_1> <user_attr_2>

Run Code Online (Sandbox Code Playgroud)

我跑m = merge(some.data,user),我得到的结果如下:

m = <user> <data_1> <data_2> <user_attr_1> <user_attr_2>

Run Code Online (Sandbox Code Playgroud)

这很好.

但是merge没有利用这些数据帧在公共列上排序,使得合并相当漂亮的CPU /内存很重.但是,这个合并可以在O(n)中完成

我想知道在R中是否有办法对排序数据集进行有效合并？

merge r dataframe

zol*_*oth

2013 03-28

6
推荐指数

1
解决办法

653
查看次数

如何在引用带有IEEE的URL时在Bibtex文件中指示"已访问"属性？

根据IEEE引用风格参考,如果我们引用URL,也应该指示URL的访问时间.

有人在使用BibTeX时知道如何表明这一点吗？

url latex bibtex citations ieee

zol*_*oth

2014 05-04

4
推荐指数

1
解决办法

9636
查看次数

Hadoop Pig ISO日期到Unix时间戳

我有一个Pig项目列表,包含ISO 8601(YYYY-MM-DD)格式的日期字符串:

(2011-12-01)
(2011-12-01)
(2011-12-02)

Run Code Online (Sandbox Code Playgroud)

除了在Java中实现我自己的函数之外,有没有办法将这些项转换为UNIX时间戳？

hadoop apache-pig

zol*_*oth

lucky-day

4
推荐指数

1
解决办法

6692
查看次数

在SparkR中删除DataFrame的列

我想知道是否有一种简洁的方法可以在SparkR中删除DataFrame的列,例如df.drop("column_name")在pyspark中.

这是我能得到的最接近的:

df <- new("DataFrame",
          sdf=SparkR:::callJMethod(df@sdf, "drop", "column_name"),
          isCached=FALSE)

Run Code Online (Sandbox Code Playgroud)

r apache-spark apache-spark-sql sparkr

zol*_*oth

2019 01-12

1
推荐指数

1
解决办法

2144
查看次数

标签统计

r ×3

apache-spark ×2

apache-pig ×1

apache-spark-ml ×1

apache-spark-sql ×1

bash ×1

bibtex ×1

citations ×1

dataframe ×1

hadoop ×1

hotkeys ×1

ieee ×1

latex ×1

merge ×1

pyspark ×1

python ×1

search ×1

sparkr ×1

symlink ×1

text-mining ×1

url ×1

vim ×1

标签 统计

小编zol_oth的帖子

标签统计