小编Ger*_*nuk的帖子

避免在PyYAML中引用

我使用YAML和PyYAML.在转储嵌套结构后,有没有办法避免*id002引用?为了便于阅读,我想在那里看到实际的(元组)值.

在尝试生成一个迷你示例时,我注意到它只在我使用相同的id对象时才会发生:

import yaml

t = ("b", "c")
x = {(1, t):1, (2, t):2, }
print(yaml.dump(x))
Run Code Online (Sandbox Code Playgroud)

所以我认为copy.copy()可以解决问题,但是对于元组它似乎不起作用:(我可以创建一个具有不同ID的新元组吗?

python yaml

8
推荐指数
2
解决办法
2798
查看次数

更快的Python MySQL

我使用mysql.connector(MySQLdb Python实现?)来访问MySQL.从游标中选择语句的传输速度并不快.

有没有办法加快代码?

也许另一个图书馆 哪一个?(我有Windows和Python 3.1)可能行检索不同于迭代游标?

python mysql performance

7
推荐指数
1
解决办法
7205
查看次数

防止Python中的编码错误

我有脚本通过日志记录系统打印消息或有时打印命令.在Windows控制台上,我收到错误消息

Traceback (most recent call last):
  File "C:\Python32\lib\logging\__init__.py", line 939, in emit
    stream.write(msg)
  File "C:\Python32\lib\encodings\cp850.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u2019' in position 4537:character maps to <undefined>
Run Code Online (Sandbox Code Playgroud)

是否有一般方法在记录系统,打印命令等中进行所有编码的故障安全(忽略错误)?

python windows console encoding

7
推荐指数
1
解决办法
8030
查看次数

在Pydev中设置Github仓库的正确方法?

设置Pydev项目的Github位置存储库的正确方法是什么?

我经常这样做:

  • 创建Pydev项目
  • 将Pydev项目共享到本地文件夹
  • 在Github上创建空项目
  • 推送到Github(使用EGit)

我遇到的问题是:

  • 为什么项目Git现在在某个目录中,而不是现在的Eclipse Workspace?
  • 为什么我得到双重嵌套的目录结构,如:Git\Project,Git\Project\.git,Git\Project\Project\.project?它是否正确?
  • 我应该检查.project.pydevproject提交文件吗?如果我不这样做,克隆新计算机时会弄得一团糟.如果我这样做,当我结账到新计算机时,我会抱怨路径配置不正确.
  • 对我来说,如何以及何时设法配置被跟踪的遥控器,而不是每次都指定目的地,这仍然是个谜.
  • 如何正确地将存储库克隆到新计算机并将其用作Eclipse中的Pydev项目?

git pydev

7
推荐指数
1
解决办法
6614
查看次数

读取压缩文件比未压缩文件快吗?

是否有可能使用一些简单的算法打包一个大文件使我能够比从未压缩文件中读取数据更快(由于硬盘驱动器比解压缩慢)?我需要什么样的压缩率?任何快速压缩算法都能做到吗?

compression

6
推荐指数
1
解决办法
857
查看次数

使用Python中的进度指示器迭代大文件?

我正在迭代一个大的csv文件,我想打印出一些进度指示器.据我所知,计算行数需要解析换行符的所有文件.所以我不能轻易估计行号的进度.

还有什么我可以做的,以便在阅读行时估计进度?也许我可以按尺寸去?

python

6
推荐指数
5
解决办法
6427
查看次数

加入 pandas 中的多重索引系列

我有多个带有 MultiIndex 的系列,我想将它们合并到一个 DataFrame 中,该 DataFrame 将它们连接到公共索引名称(和广播值)上。设置就像

import pandas as pd
a=pd.Series([12,13,14,15], index=pd.MultiIndex.from_tuples([(1,1),(1,2),(2,1),(2,2)], names=["i", "j"]))
b=pd.Series([21,22], index=pd.MultiIndex.from_tuples([(1,),(2,)], names=["i"]))
Run Code Online (Sandbox Code Playgroud)

我怎样才能得到结果

i  j  a  b
1  1  12 21 
1  2  13 21
2  1  14 22
2  2  15 22
Run Code Online (Sandbox Code Playgroud)

你能建议如何得到这个结果吗?理想情况下,这也应该适用于两个以上的系列。

python pandas

6
推荐指数
1
解决办法
8843
查看次数

调整pandas read_sql_query NULL值处理?

当我做

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('sqlite://')
conn = engine.connect()
conn.execute("create table test (a float)")
for _ in range(5):
    conn.execute("insert into test values (NULL)")

df = pd.read_sql_query("select * from test", engine)
#df = pd.read_sql_table("test", engine)
df.a
Run Code Online (Sandbox Code Playgroud)

结果是一列None值而不是float("nan").这是非常烦人的,特别是如果您读取具有块值的NULL值的浮点列.

read_sql_table版本工作正常,因为我认为它可以使用类型信息.

有没有一种简单的方法可以调整read_sql_query以将NULL值解释为float("nan")

python pandas

6
推荐指数
1
解决办法
2329
查看次数

如何使用 scikit-learn API 实现元估计器?

我想实现一个与所有 scikit-learn 兼容的简单包装器/元估计器。很难找到我到底需要什么的完整描述。

目标是让回归器也学习阈值以成为分类器。所以我想出了:

from sklearn.base import BaseEstimator, ClassifierMixin, clone

class Thresholder(BaseEstimator, ClassifierMixin):
    def __init__(self, regressor):
        self.regressor = regressor
        # threshold_ does not get initialized in __init__ ??

    def fit(self, X, y, optimal_threshold):
        self.regressor = clone(self.regressor)    # is this required my sklearn??
        self.regressor.fit(X, y)

        y_raw = self.regressor.predict()
        self.threshold_ = optimal_threshold(y_raw)

    def predict(self, X):
        y_raw = self.regressor.predict(X)

        y = np.digitize(y_raw, [self.threshold_])

        return y
Run Code Online (Sandbox Code Playgroud)

这是否实现了我需要的完整 API?

我的主要问题是将threshold. 我希望它只学习一次,并且可以在后续.fit调用中重新使用新数据而无需重新调整。但是对于当前版本,每次.fit调用都必须重新调整- 我不想要?

另一方面,如果我self.threshold将其设为固定参数并将其传递给__init__,那么我不应该用数据更改它?

如何制作一个threshold …

python scikit-learn

6
推荐指数
1
解决办法
454
查看次数

如何获得 PyTorch Lightning 的总体测试精度?

如何trainer.test使用该方法获得所有批次的总准确度?

我知道我可以实施,model.test_step但这只是针对单个批次。我需要整个数据集的准确性。我可以用来torchmetrics.Accuracy积累准确性。但是将其结合起来并获得总准确度的正确方法是什么?model.test_step由于批量测试分数不是很有用,无论如何应该返回什么?我可以以某种方式破解它,但令我惊讶的是,我在互联网上找不到任何示例来演示如何使用 pytorch-lightning 原生方式获得准确性。

pytorch-lightning

6
推荐指数
1
解决办法
4768
查看次数