我想从我的mac自动登录ssh.
它确实有一个简单的解决方案:
sshpass -p my_password ssh m_username@hostname
Run Code Online (Sandbox Code Playgroud)
但我的问题是在我的mac上安装sshpass.
任何帮助表示赞赏!
我正在使用python字典来保存大量对象,并且每个对象都有一个字符串名称.具体来说,这是我的代码:
from itertools import product
for (i,j,k) in product(range(N),range(M),range(K)):
var_name='x_'+'_'+str(i)+str(j)+'_'+str(k)
var_dict[var_name] = f(var_name,other_params)
print len(var_dict)
Run Code Online (Sandbox Code Playgroud)
f(...)返回一个对象.在我的代码中,N = 363,M = 500,K = 2.所以我希望词典中有363000个条目.但是当我检查var_dict的长度时,它是330860!
(Pdb)len(var_dict)330860
以下是我的问题:1)有没有解释?例如,python的内置哈希表可以解决的项目数量有限制吗?
2)我该怎么做才能解决这个问题?
谢谢!
我正在尝试使用"pickling"序列化是Scala,我看到同样的例子演示它:
import scala.pickling._
import json._
val pckl = List(1, 2, 3, 4).pickle
Run Code Online (Sandbox Code Playgroud)
Unpickling就像酸洗一样简单:
val lst = pckl.unpickle[List[Int]]
Run Code Online (Sandbox Code Playgroud)
这个例子提出了一些问题.首先,它跳过将对象转换为字符串.显然你需要调用pckl.value来获取json字符串表示.
Unpickling更令人困惑.反序列化是将字符串(或字节)转换为对象的行为.如果没有对象的字符串/ binry表示,这个"示例"如何演示反序列化?
那么,如何用酸洗库反序列化简单对象呢?
我有一个数据集,它是一些嵌套映射的形式,其Scala类型是:
Map[String, (LabelType,Map[Int, Double])]
Run Code Online (Sandbox Code Playgroud)
第一个String键是每个样本的唯一标识符,值是包含标签(-1或1)的元组,以及嵌套映射,它是与之关联的非零元素的稀疏表示.样品.
我想将这些数据加载到Spark(使用MUtil)并训练和测试一些机器学习算法.
使用LibSVM的稀疏编码将此数据写入文件很容易,然后将其加载到Spark中:
writeMapToLibSVMFile(data_map,"libsvm_data.txt") // Implemeneted some where else
val conf = new SparkConf().setAppName("DecisionTree").setMaster("local[4]")
val sc = new SparkContext(conf)
// Load and parse the data file.
val data = MLUtils.loadLibSVMFile(sc, "libsvm_data.txt")
// Split the data into training and test sets
val splits = data.randomSplit(Array(0.7, 0.3))
val (trainingData, testData) = (splits(0), splits(1))
// Train a DecisionTree model.
Run Code Online (Sandbox Code Playgroud)
我知道直接加载data变量应该很容易data_map,但我不知道如何.
任何帮助表示赞赏!
我正在尝试将哈希函数应用于 PySpark DataFrame(在 EMR 集群上运行)的列中的短字符串,并获取一个数值作为新列。例如,CRC3 就可以完成这项工作。我知道这个问题,但它是在 Scala 中,我需要一个 python 版本。
(顺便说一句,我知道 pyspark.sql.functions 中的 sha1 和 sha2,但我需要一个更快的哈希函数,它只返回一个数字,例如校验和(但冲突尽可能少)。)
我做了以下事情:
import zlib
crc32 = udf(zlib.crc32)
df2= df.withColumn("crc32", crc32(col("Col1")))
df2.show()
Run Code Online (Sandbox Code Playgroud)
而且,我收到此错误:
Py4JJavaError: An error occurred while calling o873.showString.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 37.0 failed 4 times, most recent failure: Lost task 0.3 in stage 37.0 (TID 45019, ip-172-31-58-134.ec2.internal, executor 181): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
File "/mnt1/yarn/usercache/zeppelin/appcache/application_1571175019959_0009/container_1571175019959_0009_01_000182/pyspark.zip/pyspark/worker.py", line 377, in main
process()
File …Run Code Online (Sandbox Code Playgroud) 我想计算Scala中正半正定矩阵的特征值和特征向量(使用Breeze),我被卡住了.
从Breeze线性代数库参考示例:
val A = DenseMatrix((9.0,0.0,0.0),(0.0,82.0,0.0),(0.0,0.0,25.0))
val EigSym(lambda, evs) = eigSym(A)
Run Code Online (Sandbox Code Playgroud)
首先,在我的程序A中是一个协方差矩阵:
val EigSym(lambda,evs)=EigSym(cov)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
Error:(120, 34) not enough arguments for method apply: (eigenvalues: V, eigenvectors: M)breeze.linalg.eigSym.EigSym[V,M] in object EigSym.
Unspecified value parameter eigenvectors.
val EigSym(lambda,evs)=EigSym(cov)
^
Run Code Online (Sandbox Code Playgroud)
另一个论点应该是什么?
其次,任何人都可以向我解释为什么我们需要左侧的"EigSym(lambda,evs)"(我是Scala的新手,并期待(lambda,evs)).
谢谢!
可以很容易地通过Python中的键或值对Map进行排序(例如,这个问题).
我想在Scala中做同样的事情,假设我有一个字典,如:
val A= Map(0 -> 1.0, 3 -> 5.0,2->7.0)
Run Code Online (Sandbox Code Playgroud)
我想通过键获得与排序的Map对应的元组列表:
val A_sorted= List((0,1.0),(2,7.0),(3,5.0))
Run Code Online (Sandbox Code Playgroud)
谢谢!
scala ×4
amazon-emr ×1
apache-spark ×1
breeze ×1
crc32 ×1
dictionary ×1
hashmap ×1
hashtable ×1
libsvm ×1
macos ×1
pyspark ×1
python ×1
python-2.7 ×1
sorting ×1
ssh ×1
sshpass ×1