小编Zac*_*she的帖子

DataFrame中列之间的相关性

我对熊猫很新,所以我猜我做错了 -

我有一个DataFrame:

     a     b
0  0.5  0.75
1  0.5  0.75
2  0.5  0.75
3  0.5  0.75
4  0.5  0.75
Run Code Online (Sandbox Code Playgroud)

df.corr() 给我:

    a   b
a NaN NaN
b NaN NaN
Run Code Online (Sandbox Code Playgroud)

np.correlate(df["a"], df["b"])给出:1.875

这是为什么?我想拥有我的DataFrame的相关矩阵,并认为这样corr()做(至少根据文档).为什么会回来NaN

什么是正确的计算方法?

非常感谢!

python pandas

32
推荐指数
1
解决办法
6万
查看次数

不能使用scikit-learn - "AttributeError:'module'对象没有属性......"

我正在尝试遵循scikit-learn(线性回归)教程.

我已经安装了scikit pip install -U scikit-learn,我使用的是python 2.7和Ubuntu 13.04

当我尝试运行第一行代码时,我得到一个错误,每当我尝试使用scikit-learn运行任何东西时都会发生错误.

import pylab as pl
import numpy as np
from sklearn import datasets, linear_model

# Load the diabetes dataset
diabetes = datasets.load_diabetes()
Run Code Online (Sandbox Code Playgroud)

我得到以下内容:

AttributeError: 'module' object has no attribute 'load_diabetes'
Run Code Online (Sandbox Code Playgroud)

当我尝试:

regr = linear_model.LinearRegression()
Run Code Online (Sandbox Code Playgroud)

我明白了:

AttributeError: 'module' object has no attribute 'LinearRegression'
Run Code Online (Sandbox Code Playgroud)

在我看来,我要么使用错误的包(但我已经从他们的教程中复制了),或者我安装了错误的东西(但是包装已成功加载).

有人可以帮忙吗?

python-2.7 scikit-learn

16
推荐指数
3
解决办法
4万
查看次数

在AWS Lambda上运行时未实现_multiprocessing.SemLock

我有一个使用该multiprocessing包的短代码,并在我的本地机器上正常工作.

当我上传到AWS Lambda那里并运行时,我收到以下错误(stacktrace trimmed):

[Errno 38] Function not implemented: OSError
Traceback (most recent call last):
  File "/var/task/recorder.py", line 41, in record
    pool = multiprocessing.Pool(10)
  File "/usr/lib64/python2.7/multiprocessing/__init__.py", line 232, in Pool
    return Pool(processes, initializer, initargs, maxtasksperchild)
  File "/usr/lib64/python2.7/multiprocessing/pool.py", line 138, in __init__
    self._setup_queues()
  File "/usr/lib64/python2.7/multiprocessing/pool.py", line 234, in _setup_queues
    self._inqueue = SimpleQueue()
  File "/usr/lib64/python2.7/multiprocessing/queues.py", line 354, in __init__
    self._rlock = Lock()
  File "/usr/lib64/python2.7/multiprocessing/synchronize.py", line 147, in __init__
    SemLock.__init__(self, SEMAPHORE, 1, 1)
  File "/usr/lib64/python2.7/multiprocessing/synchronize.py", line 75, in __init__ …
Run Code Online (Sandbox Code Playgroud)

python-multiprocessing aws-lambda

15
推荐指数
3
解决办法
4700
查看次数

从AWS SDK,如何获取当前登录的用户名(或IAM用户)?

我正在使用Ruby SDK(V2),但我想我的问题比具体实现更通用,因为我在任何SDK中都找不到答案.

如何获取我的会话当前所属的用户名(和/或IAM用户)?

我让SDK运行其默认行为来选择凭证(ENV vars,然后是'default'配置文件或其他如果指定,然后选择机器角色).然后我初始化我的客户端并运行命令.我想知道'谁在运行命令'.我希望获得AWS用户名,如果所选凭据是其中的IAM用户,那么此用户名也是如此.

有任何想法吗?到目前为止我得到的最好的是,在我构建一个Client对象之后,我可以查询它的实际情况config并得到它Credentials.但这只会给我选择的凭据(即SharedCredentials profile='default'vs. Credentials key=.. secret=..),而不会告诉我背后的用户名是谁.

非常感谢!

amazon-web-services amazon-iam aws-sdk

12
推荐指数
2
解决办法
4357
查看次数

如何复制带有预签名 URL 的对象?

我正在使用一项服务,该服务将我需要的数据放在 S3 上,并为我提供要下载的预签名 URL 列表 (http://.s3.amazonaws.com/? AWSAccessKeyID=...& Signature=...& Expires=.. .)。
我想将这些文件复制到我的 S3 存储桶中,而无需下载并再次上传。

我正在使用 Ruby SDK(但如果它有效的话我愿意尝试其他东西......)并且无法编写这样的东西。

我能够使用我的凭据(access_key 和 Secret)初始化 S3 对象,从而授予我对存储桶的访问权限access_key_id但是如何传递“源端”signatureexpires参数?

为了使问题变得更简单 - 我什至无法使用预先签名的参数对对象执行 GET 请求。(不是使用常规 HTTP,我想通过 SDK API 来完成)。

我发现了很多关于如何创建预签名 URL 的示例,但没有关于如何使用已经给定的参数进行身份验证的示例(显然我没有secret_key数据提供者的参数)。

谢谢!

ruby amazon-s3 amazon-web-services

8
推荐指数
1
解决办法
6383
查看次数

Gephi + Neo4J插件+ Mac(Java7)

我在安装了Java7的MacOSX(10.9.2)上运行.我想将Gephi与Neo4J插件一起使用.

如果我使用Java7,Gephi将无法正常启动.我看到了一些讨论,建议的"修复"是降级到Java6.我不情愿地这样做了,但现在Neo4J插件不会安装,因为它需要Java7.

不知道如何摆脱这个循环?

谢谢!

java macos neo4j java-7

6
推荐指数
1
解决办法
557
查看次数

我可以将 `IterableDataset` 转换为 `Dataset` 吗?

我想加载一个大型数据集,对某些字段应用一些转换,从结果中采样一小部分并存储为文件,以便稍后可以从那里加载。

基本上是这样的:

ds = datasets.load_dataset("XYZ", name="ABC", split="train", streaming=True)
ds = ds.map(_transform_record)
ds.shuffle()[:N].save_to_disk(...)
Run Code Online (Sandbox Code Playgroud)

IterableDataset没有save_to_disk()方法。有意义,因为它由迭代器支持,但是我希望有某种方法将可迭代转换为常规数据集(通过迭代所有数据并将其存储在内存/磁盘中,没有什么太花哨的)。

我尝试使用Dataset.from_generator()并使用IterableDataset作为生成器(iter(ds)),但它不起作用,因为它试图序列化生成器对象。

有没有一种简单的方法,就像to_iterable_dataset()反之亦然?

huggingface-datasets

6
推荐指数
1
解决办法
1238
查看次数

如何从JobService返回结果?

我正在玩Android,并编写一个带有活动和服务的小应用程序.活动在按钮单击时启动服务,它应该从URI获取一些数据并将其作为结果返回.有时,数据不可用或不符合标准,然后即使活动在后台,服务也应该每隔X分钟重试一次.

我通过IntentResultReceiver(在包中传递)实现了活动和服务之间的通信.在实现服务时,我想使用新JobScheduler组件,但后来看到它只能接受一个PersistableBundle不能添加Parcelable对象(ResultReceiver)而只能添加基本类型的组件.

我希望服务能够安排在网络可用时运行的作业以及每隔X分钟检查一次的数据.一旦获得它,我希望将数据返回给服务,以便它可以决定它是否可接受或者我们需要再次重试.如果服务接受数据,它将通过该服务将其返回给活动ResultsReceiver.

我不能使用ResultsReceiver,JobService因为我不构造JobService实例(由完成JobInfo.Builder),我不能传递它对回调对象的引用.

如何在预定作业和调用它的服务之间进行通信?

对不起,如果它是微不足道的,我不熟悉Android ..

谢谢!

android android-jobscheduler

5
推荐指数
1
解决办法
2343
查看次数

将KerasClassifier与fit_generator一起使用

有没有办法使用KerasClassifierfit_generator而不是常规的fit

我有一个模型,可以随时增加训练集,并希望将其作为的一部分sklearn.Pipeline。我看到了那个KerasClassifier工具,fit但想知道是否可以以fit_generator某种方式使用?

我的生成器是一个对象,它接收几个我希望能够使用进行微调的参数GridSearchCV。不确定这些应该去哪里,因此Pipeline会将其视为估算器的参数。

任何未实现此功能的原因(因此,我不应该浪费时间尝试添加此功能)?如果有可能,是否有最佳做法?

谢谢!

scikit-learn keras

5
推荐指数
0
解决办法
532
查看次数

tf.keras.layers.Concatenate()使用列表,但对张量元组失败

这将起作用:

tf.keras.layers.Concatenate()([features['a'], features['b']])
Run Code Online (Sandbox Code Playgroud)

虽然这样:

tf.keras.layers.Concatenate()((features['a'], features['b']))
Run Code Online (Sandbox Code Playgroud)

结果是:

TypeError: int() argument must be a string or a number, not 'TensorShapeV1'
Run Code Online (Sandbox Code Playgroud)

那是预期的吗?如果是这样-为什么我通过什么顺序很重要?

谢谢,扎克

编辑(添加代码示例):

import pandas as pd
import numpy as np

data = {
    'a': [1.0, 2.0, 3.0],
    'b': [0.1, 0.3, 0.2],
}

with tf.Session() as sess: 
  ds = tf.data.Dataset.from_tensor_slices(data)
  ds = ds.batch(1)

  it = ds.make_one_shot_iterator()
  features = it.get_next()

  concat = tf.keras.layers.Concatenate()((features['a'], features['b']))


  try:
    while True:
      print(sess.run(concat))
  except tf.errors.OutOfRangeError:
    pass


---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-135-0e1a45017941> in <module>()
      6 …
Run Code Online (Sandbox Code Playgroud)

keras tensorflow

5
推荐指数
1
解决办法
928
查看次数