小编Boo*_*oom的帖子

为什么我在使用 Keras 与随机森林或 knn 时得到了糟糕的结果?

我正在学习深度学习,keras并试图将结果(准确性)与机器学习算法 ( sklearn) (即random forestk_neighbors)进行比较

看来keras我得到了最糟糕的结果。我正在处理简单的分类问题:iris dataset 我的 keras 代码如下:

samples = datasets.load_iris()
X = samples.data
y = samples.target
df = pd.DataFrame(data=X)
df.columns = samples.feature_names
df['Target'] = y

# prepare data
X = df[df.columns[:-1]]
y = df[df.columns[-1]]

# hot encoding
encoder = LabelEncoder()
y1 = encoder.fit_transform(y)
y = pd.get_dummies(y1).values

# split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

# build model
model = Sequential()
model.add(Dense(1000, activation='tanh', input_shape …
Run Code Online (Sandbox Code Playgroud)

machine-learning neural-network scikit-learn keras tensorflow

5
推荐指数
1
解决办法
2460
查看次数

max_parallel_workers 与 max_parallel_workers_per_gather

我已经用简单的查询测试了并行性,但我不明白结果。

我检查了以下参数pg_settings

max_parallel_workers = 8
max_parallel_workers_per_gather = 2
Run Code Online (Sandbox Code Playgroud)

我运行以下查询(该表包含约 16M 行):

explain analyze
select *
from tbl
where value<>-1
Run Code Online (Sandbox Code Playgroud)

结果:

Gather (cost=1000.00 .. 1136714.86 rows=580941 width=78 actual time=0.495..3057.813 rows = 587886 loops=1)
workers planned: 2
workers launched: 2
 -> parallel seq scan on tbl (cost=0.00..10776.76 rows=242059 width=718) (actual time=0.095..2968.77 rows=195962 loops=3)  
    filter: (value<>-1::integer)
    rows removed by filter: 5389091
plain time: 0.175ms
exection time: 3086.243ms
Run Code Online (Sandbox Code Playgroud)
  1. 为什么查询只用 2 个工作线程而不是 8 个工作线程运行?
  2. max_parallel_workers和 和有什么不一样max_parallel_workers_per_gather?何时使用每个值?

postgresql parallel-processing

4
推荐指数
1
解决办法
4134
查看次数

为什么 max_parallel_workers_per_gather != max_parallel_workers

我看到很多帖子和论文都设置了以下值:

max_parallel_workers - 将数字设置为核心数。

max_parallel_workers_per_gather - 默认设置为 2 或设置为 max_parallel_workers / 2

使用并行查询时,收益和速度改进基于 max_parallel_workers_per_gather

  • 为什么我找不到推荐设置的帖子max_parallel_workers_per_gather = max_parallel_workers
  • 如果设置max_parallel_workers_per_gather = max_parallel_workers什么陷阱可以?

postgresql parallel-processing

3
推荐指数
1
解决办法
388
查看次数

client_backend 与parallel_worker?

我在跑:

select *
from pg_stat_activity
Run Code Online (Sandbox Code Playgroud)

它显示了 2 行具有相同的查询内容(在query字段下),并且在active状态下,

但一行显示client_backed( backend_type),另一行显示parallel_worker( backend_type)

  1. 为什么我有 2 个相同查询的实例?(我在我的应用程序中只运行了一个查询)
  2. client_backed和 和有什么不一样parallel_worker

postgresql

3
推荐指数
1
解决办法
2601
查看次数

如何在Elasticsearch中批量插入而忽略过程中可能出现的所有错误?

我用的是Elasticsearch6.8版本。

我需要将大约 10000 个文档(来自 csv 文件)插入到现有索引和映射索引中。

我正在使用python(版本 3.7)代码:

    import csv  
    es = Elasticsearch();
    from elasticsearch import helpers
    with open(file_path) as f:
        reader = csv.DictReader(f)
        helpers.bulk(es, reader, index=index_name, doc_type=doc_type)
Run Code Online (Sandbox Code Playgroud)

但我收到错误:

raise BulkIndexError("%i document(s) failed to index." % len(errors), errors)
elasticsearch.helpers.errors.BulkIndexError: ('3 document(s) failed to index.'
Run Code Online (Sandbox Code Playgroud)

发生错误的原因是 csv 文件中的某些值具有字符串值而不是浮点值。

499 个文档后批量停止,应用程序崩溃。

有没有办法批量批量处理所有文档(~10000),如果出现错误(由于映射或错误的值),请告诉python/elastic忽略这些文档并继续批量操作?

python csv elasticsearch

2
推荐指数
1
解决办法
9090
查看次数

输入几何体具有未知(0)几何体(尽管使用了 st_transform )

我有 2 张桌子:

一个包含 3 个字段的表:

id (text)
geom (geometry)

select ST_SRID(geom)
from A
where geom is not null

result: 32636
Run Code Online (Sandbox Code Playgroud)

B 表有 2 个字段:

name (text)
geom (geometry)

select ST_SRID(geom)
from B
where geom is not null

result: 0
Run Code Online (Sandbox Code Playgroud)

A.geom包含多边形

B.geom包含点

我想获得 A.id、A.geom 和 B.geom 之间的所有距离。我尝试过:

select id, st_distance(a.geom, ST_Transform(b.geom, 32636)) as dist
from A as a, B as b
where a.geom is not null
group by id, a.geom, b.geom
order by dist desc
Run Code Online (Sandbox Code Playgroud)

但我收到错误:

"input geom has unkown(0) …
Run Code Online (Sandbox Code Playgroud)

postgresql postgis

2
推荐指数
1
解决办法
4594
查看次数

奇怪的sizeof(std :: map)

我正在使用std :: map,无法理解它消耗了多少内存。

我有以下地图定义:

CKey {
 long x;
 int y;
 int z;
 bool operator<(const CKey& l) const;
};

CValue {
 int data1;
 int data2;
}

std::map<CKey, CValue> map;
std::cout << "sizeof() = " << sizeof(map) << " Max #Elms = " << map.max_size();
Run Code Online (Sandbox Code Playgroud)

(在地图中插入元素之前或之后都没有问题)

sizeof() = 48
Max_Size = 329406144173384850
Run Code Online (Sandbox Code Playgroud)
  1. 如果sizeof(map)= 48,它如何包含329406144173384850个元素?
  2. 地图是否将储存在其他内存中(堆?)

c++ stdmap

0
推荐指数
1
解决办法
2759
查看次数

如何绘制np.array的散点图?

假设我有以下数组:

X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])
Run Code Online (Sandbox Code Playgroud)

如何绘制 ( matplotlib) 的散点图X

分散需要 2 个参数 (x, y)

python

0
推荐指数
1
解决办法
2752
查看次数

如何将句子转换为类别?

我正在研究 NLP 问题。目标列包含 5 种类型的句子:

"Extremely Positive", "Positive", "Neutral", "Negative", "Extremely Negative"
Run Code Online (Sandbox Code Playgroud)

我想将这些句子转换为数字 [5,4,3,2,1]。

是否有内置keraspython功能可以这样做?或者我需要使用字典自己转换它?

python keras tensorflow

0
推荐指数
1
解决办法
48
查看次数