我对熊猫很新,所以我猜我做错了 -
我有一个DataFrame:
a b
0 0.5 0.75
1 0.5 0.75
2 0.5 0.75
3 0.5 0.75
4 0.5 0.75
Run Code Online (Sandbox Code Playgroud)
df.corr() 给我:
a b
a NaN NaN
b NaN NaN
Run Code Online (Sandbox Code Playgroud)
但np.correlate(df["a"], df["b"])给出:1.875
这是为什么?我想拥有我的DataFrame的相关矩阵,并认为这样corr()做(至少根据文档).为什么会回来NaN?
什么是正确的计算方法?
非常感谢!
我正在尝试遵循scikit-learn(线性回归)教程.
我已经安装了scikit pip install -U scikit-learn,我使用的是python 2.7和Ubuntu 13.04
当我尝试运行第一行代码时,我得到一个错误,每当我尝试使用scikit-learn运行任何东西时都会发生错误.
import pylab as pl
import numpy as np
from sklearn import datasets, linear_model
# Load the diabetes dataset
diabetes = datasets.load_diabetes()
Run Code Online (Sandbox Code Playgroud)
我得到以下内容:
AttributeError: 'module' object has no attribute 'load_diabetes'
Run Code Online (Sandbox Code Playgroud)
当我尝试:
regr = linear_model.LinearRegression()
Run Code Online (Sandbox Code Playgroud)
我明白了:
AttributeError: 'module' object has no attribute 'LinearRegression'
Run Code Online (Sandbox Code Playgroud)
在我看来,我要么使用错误的包(但我已经从他们的教程中复制了),或者我安装了错误的东西(但是包装已成功加载).
有人可以帮忙吗?
我有一个使用该multiprocessing包的短代码,并在我的本地机器上正常工作.
当我上传到AWS Lambda那里并运行时,我收到以下错误(stacktrace trimmed):
[Errno 38] Function not implemented: OSError
Traceback (most recent call last):
File "/var/task/recorder.py", line 41, in record
pool = multiprocessing.Pool(10)
File "/usr/lib64/python2.7/multiprocessing/__init__.py", line 232, in Pool
return Pool(processes, initializer, initargs, maxtasksperchild)
File "/usr/lib64/python2.7/multiprocessing/pool.py", line 138, in __init__
self._setup_queues()
File "/usr/lib64/python2.7/multiprocessing/pool.py", line 234, in _setup_queues
self._inqueue = SimpleQueue()
File "/usr/lib64/python2.7/multiprocessing/queues.py", line 354, in __init__
self._rlock = Lock()
File "/usr/lib64/python2.7/multiprocessing/synchronize.py", line 147, in __init__
SemLock.__init__(self, SEMAPHORE, 1, 1)
File "/usr/lib64/python2.7/multiprocessing/synchronize.py", line 75, in __init__ …Run Code Online (Sandbox Code Playgroud) 我正在使用Ruby SDK(V2),但我想我的问题比具体实现更通用,因为我在任何SDK中都找不到答案.
如何获取我的会话当前所属的用户名(和/或IAM用户)?
我让SDK运行其默认行为来选择凭证(ENV vars,然后是'default'配置文件或其他如果指定,然后选择机器角色).然后我初始化我的客户端并运行命令.我想知道'谁在运行命令'.我希望获得AWS用户名,如果所选凭据是其中的IAM用户,那么此用户名也是如此.
有任何想法吗?到目前为止我得到的最好的是,在我构建一个Client对象之后,我可以查询它的实际情况config并得到它Credentials.但这只会给我选择的凭据(即SharedCredentials profile='default'vs. Credentials key=.. secret=..),而不会告诉我背后的用户名是谁.
非常感谢!
我正在使用一项服务,该服务将我需要的数据放在 S3 上,并为我提供要下载的预签名 URL 列表 (http://.s3.amazonaws.com/? AWSAccessKeyID=...& Signature=...& Expires=.. .)。
我想将这些文件复制到我的 S3 存储桶中,而无需下载并再次上传。
我正在使用 Ruby SDK(但如果它有效的话我愿意尝试其他东西......)并且无法编写这样的东西。
我能够使用我的凭据(access_key 和 Secret)初始化 S3 对象,从而授予我对存储桶的访问权限,access_key_id但是如何传递“源端”signature和expires参数?
为了使问题变得更简单 - 我什至无法使用预先签名的参数对对象执行 GET 请求。(不是使用常规 HTTP,我想通过 SDK API 来完成)。
我发现了很多关于如何创建预签名 URL 的示例,但没有关于如何使用已经给定的参数进行身份验证的示例(显然我没有secret_key数据提供者的参数)。
谢谢!
我在安装了Java7的MacOSX(10.9.2)上运行.我想将Gephi与Neo4J插件一起使用.
如果我使用Java7,Gephi将无法正常启动.我看到了一些讨论,建议的"修复"是降级到Java6.我不情愿地这样做了,但现在Neo4J插件不会安装,因为它需要Java7.
不知道如何摆脱这个循环?
谢谢!
我想加载一个大型数据集,对某些字段应用一些转换,从结果中采样一小部分并存储为文件,以便稍后可以从那里加载。
基本上是这样的:
ds = datasets.load_dataset("XYZ", name="ABC", split="train", streaming=True)
ds = ds.map(_transform_record)
ds.shuffle()[:N].save_to_disk(...)
Run Code Online (Sandbox Code Playgroud)
IterableDataset没有save_to_disk()方法。有意义,因为它由迭代器支持,但是我希望有某种方法将可迭代转换为常规数据集(通过迭代所有数据并将其存储在内存/磁盘中,没有什么太花哨的)。
我尝试使用Dataset.from_generator()并使用IterableDataset作为生成器(iter(ds)),但它不起作用,因为它试图序列化生成器对象。
有没有一种简单的方法,就像to_iterable_dataset()反之亦然?
我正在玩Android,并编写一个带有活动和服务的小应用程序.活动在按钮单击时启动服务,它应该从URI获取一些数据并将其作为结果返回.有时,数据不可用或不符合标准,然后即使活动在后台,服务也应该每隔X分钟重试一次.
我通过Intent和ResultReceiver(在包中传递)实现了活动和服务之间的通信.在实现服务时,我想使用新JobScheduler组件,但后来看到它只能接受一个PersistableBundle不能添加Parcelable对象(ResultReceiver)而只能添加基本类型的组件.
我希望服务能够安排在网络可用时运行的作业以及每隔X分钟检查一次的数据.一旦获得它,我希望将数据返回给服务,以便它可以决定它是否可接受或者我们需要再次重试.如果服务接受数据,它将通过该服务将其返回给活动ResultsReceiver.
我不能使用ResultsReceiver,JobService因为我不构造JobService实例(由完成JobInfo.Builder),我不能传递它对回调对象的引用.
如何在预定作业和调用它的服务之间进行通信?
对不起,如果它是微不足道的,我不熟悉Android ..
谢谢!
有没有办法使用KerasClassifier与fit_generator而不是常规的fit?
我有一个模型,可以随时增加训练集,并希望将其作为的一部分sklearn.Pipeline。我看到了那个KerasClassifier工具,fit但想知道是否可以以fit_generator某种方式使用?
我的生成器是一个对象,它接收几个我希望能够使用进行微调的参数GridSearchCV。不确定这些应该去哪里,因此Pipeline会将其视为估算器的参数。
任何未实现此功能的原因(因此,我不应该浪费时间尝试添加此功能)?如果有可能,是否有最佳做法?
谢谢!
这将起作用:
tf.keras.layers.Concatenate()([features['a'], features['b']])
Run Code Online (Sandbox Code Playgroud)
虽然这样:
tf.keras.layers.Concatenate()((features['a'], features['b']))
Run Code Online (Sandbox Code Playgroud)
结果是:
TypeError: int() argument must be a string or a number, not 'TensorShapeV1'
Run Code Online (Sandbox Code Playgroud)
那是预期的吗?如果是这样-为什么我通过什么顺序很重要?
谢谢,扎克
编辑(添加代码示例):
import pandas as pd
import numpy as np
data = {
'a': [1.0, 2.0, 3.0],
'b': [0.1, 0.3, 0.2],
}
with tf.Session() as sess:
ds = tf.data.Dataset.from_tensor_slices(data)
ds = ds.batch(1)
it = ds.make_one_shot_iterator()
features = it.get_next()
concat = tf.keras.layers.Concatenate()((features['a'], features['b']))
try:
while True:
print(sess.run(concat))
except tf.errors.OutOfRangeError:
pass
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-135-0e1a45017941> in <module>()
6 …Run Code Online (Sandbox Code Playgroud) keras ×2
scikit-learn ×2
amazon-iam ×1
amazon-s3 ×1
android ×1
aws-lambda ×1
aws-sdk ×1
java ×1
java-7 ×1
macos ×1
neo4j ×1
pandas ×1
python ×1
python-2.7 ×1
ruby ×1
tensorflow ×1