小编Boo*_*oom的帖子

为什么我在使用 Keras 与随机森林或 knn 时得到了糟糕的结果？

我正在学习深度学习，keras并试图将结果（准确性）与机器学习算法 ( sklearn) （即random forest，k_neighbors）进行比较

看来keras我得到了最糟糕的结果。我正在处理简单的分类问题：iris dataset 我的 keras 代码如下：

samples = datasets.load_iris()
X = samples.data
y = samples.target
df = pd.DataFrame(data=X)
df.columns = samples.feature_names
df['Target'] = y

# prepare data
X = df[df.columns[:-1]]
y = df[df.columns[-1]]

# hot encoding
encoder = LabelEncoder()
y1 = encoder.fit_transform(y)
y = pd.get_dummies(y1).values

# split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

# build model
model = Sequential()
model.add(Dense(1000, activation='tanh', input_shape …

Run Code Online (Sandbox Code Playgroud)

machine-learning neural-network scikit-learn keras tensorflow

Boo*_*oom

2020 04-16

5
推荐指数

1
解决办法

2460
查看次数

max_parallel_workers 与 max_parallel_workers_per_gather

我已经用简单的查询测试了并行性，但我不明白结果。

我检查了以下参数pg_settings：

max_parallel_workers = 8
max_parallel_workers_per_gather = 2

Run Code Online (Sandbox Code Playgroud)

我运行以下查询（该表包含约 16M 行）：

explain analyze
select *
from tbl
where value<>-1

Run Code Online (Sandbox Code Playgroud)

结果：

Gather (cost=1000.00 .. 1136714.86 rows=580941 width=78 actual time=0.495..3057.813 rows = 587886 loops=1)
workers planned: 2
workers launched: 2
 -> parallel seq scan on tbl (cost=0.00..10776.76 rows=242059 width=718) (actual time=0.095..2968.77 rows=195962 loops=3)  
    filter: (value<>-1::integer)
    rows removed by filter: 5389091
plain time: 0.175ms
exection time: 3086.243ms

Run Code Online (Sandbox Code Playgroud)

为什么查询只用 2 个工作线程而不是 8 个工作线程运行？
max_parallel_workers和和有什么不一样max_parallel_workers_per_gather？何时使用每个值？

postgresql parallel-processing

Boo*_*oom

2020 08-20

4
推荐指数

1
解决办法

4134
查看次数

为什么 max_parallel_workers_per_gather != max_parallel_workers

我看到很多帖子和论文都设置了以下值：

max_parallel_workers - 将数字设置为核心数。

max_parallel_workers_per_gather - 默认设置为 2 或设置为 max_parallel_workers / 2

使用并行查询时，收益和速度改进基于 max_parallel_workers_per_gather

为什么我找不到推荐设置的帖子max_parallel_workers_per_gather = max_parallel_workers？
如果设置max_parallel_workers_per_gather = max_parallel_workers什么陷阱可以？

postgresql parallel-processing

Boo*_*oom

lucky-day

3
推荐指数

1
解决办法

388
查看次数

client_backend 与parallel_worker？

我在跑：

select *
from pg_stat_activity

Run Code Online (Sandbox Code Playgroud)

它显示了 2 行具有相同的查询内容（在query字段下），并且在active状态下，

但一行显示client_backed( backend_type)，另一行显示parallel_worker( backend_type)

为什么我有 2 个相同查询的实例？（我在我的应用程序中只运行了一个查询）
client_backed和和有什么不一样parallel_worker？

postgresql

Boo*_*oom

lucky-day

3
推荐指数

1
解决办法

2601
查看次数

如何在Elasticsearch中批量插入而忽略过程中可能出现的所有错误？

我用的是Elasticsearch6.8版本。

我需要将大约 10000 个文档（来自 csv 文件）插入到现有索引和映射索引中。

我正在使用python（版本 3.7）代码：

    import csv  
    es = Elasticsearch();
    from elasticsearch import helpers
    with open(file_path) as f:
        reader = csv.DictReader(f)
        helpers.bulk(es, reader, index=index_name, doc_type=doc_type)

Run Code Online (Sandbox Code Playgroud)

但我收到错误：

raise BulkIndexError("%i document(s) failed to index." % len(errors), errors)
elasticsearch.helpers.errors.BulkIndexError: ('3 document(s) failed to index.'

Run Code Online (Sandbox Code Playgroud)

发生错误的原因是 csv 文件中的某些值具有字符串值而不是浮点值。

499 个文档后批量停止，应用程序崩溃。

有没有办法批量批量处理所有文档（~10000），如果出现错误（由于映射或错误的值），请告诉python/elastic忽略这些文档并继续批量操作？

python csv elasticsearch

Boo*_*oom

2020 01-02

2
推荐指数

1
解决办法

9090
查看次数

输入几何体具有未知（0）几何体（尽管使用了 st_transform ）

我有 2 张桌子：

一个包含 3 个字段的表：

id (text)
geom (geometry)

select ST_SRID(geom)
from A
where geom is not null

result: 32636

Run Code Online (Sandbox Code Playgroud)

B 表有 2 个字段：

name (text)
geom (geometry)

select ST_SRID(geom)
from B
where geom is not null

result: 0

Run Code Online (Sandbox Code Playgroud)

A.geom包含多边形

B.geom包含点

我想获得 A.id、A.geom 和 B.geom 之间的所有距离。我尝试过：

select id, st_distance(a.geom, ST_Transform(b.geom, 32636)) as dist
from A as a, B as b
where a.geom is not null
group by id, a.geom, b.geom
order by dist desc

Run Code Online (Sandbox Code Playgroud)

但我收到错误：

"input geom has unkown(0) …

Run Code Online (Sandbox Code Playgroud)

postgresql postgis

Boo*_*oom

lucky-day

2
推荐指数

1
解决办法

4594
查看次数

奇怪的sizeof（std :: map）

我正在使用std :: map，无法理解它消耗了多少内存。

我有以下地图定义：

CKey {
 long x;
 int y;
 int z;
 bool operator<(const CKey& l) const;
};

CValue {
 int data1;
 int data2;
}

std::map<CKey, CValue> map;
std::cout << "sizeof() = " << sizeof(map) << " Max #Elms = " << map.max_size();

Run Code Online (Sandbox Code Playgroud)

（在地图中插入元素之前或之后都没有问题）

sizeof() = 48
Max_Size = 329406144173384850

Run Code Online (Sandbox Code Playgroud)

如果sizeof（map）= 48，它如何包含329406144173384850个元素？
地图是否将储存在其他内存中（堆？）

c++ stdmap

Boo*_*oom

lucky-day

0
推荐指数

1
解决办法

2759
查看次数

如何绘制np.array的散点图？

假设我有以下数组：

X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])

Run Code Online (Sandbox Code Playgroud)

如何绘制 ( matplotlib) 的散点图X？

分散需要 2 个参数 (x, y)

python

Boo*_*oom

lucky-day

0
推荐指数

1
解决办法

2752
查看次数

如何将句子转换为类别？

我正在研究 NLP 问题。目标列包含 5 种类型的句子：

"Extremely Positive", "Positive", "Neutral", "Negative", "Extremely Negative"

Run Code Online (Sandbox Code Playgroud)

我想将这些句子转换为数字 [5,4,3,2,1]。

是否有内置keras或python功能可以这样做？或者我需要使用字典自己转换它？

python keras tensorflow

Boo*_*oom

lucky-day

0
推荐指数

1
解决办法

48
查看次数

标签统计

postgresql ×4

python ×3

keras ×2

parallel-processing ×2

tensorflow ×2

c++ ×1

csv ×1

elasticsearch ×1

machine-learning ×1

neural-network ×1

postgis ×1

scikit-learn ×1

stdmap ×1

标签 统计

小编Boo_oom的帖子

标签统计