我正在学习深度学习,keras并试图将结果(准确性)与机器学习算法 ( sklearn) (即random forest,k_neighbors)进行比较
看来keras我得到了最糟糕的结果。我正在处理简单的分类问题:iris dataset
我的 keras 代码如下:
samples = datasets.load_iris()
X = samples.data
y = samples.target
df = pd.DataFrame(data=X)
df.columns = samples.feature_names
df['Target'] = y
# prepare data
X = df[df.columns[:-1]]
y = df[df.columns[-1]]
# hot encoding
encoder = LabelEncoder()
y1 = encoder.fit_transform(y)
y = pd.get_dummies(y1).values
# split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)
# build model
model = Sequential()
model.add(Dense(1000, activation='tanh', input_shape …Run Code Online (Sandbox Code Playgroud) machine-learning neural-network scikit-learn keras tensorflow
我已经用简单的查询测试了并行性,但我不明白结果。
我检查了以下参数pg_settings:
max_parallel_workers = 8
max_parallel_workers_per_gather = 2
Run Code Online (Sandbox Code Playgroud)
我运行以下查询(该表包含约 16M 行):
explain analyze
select *
from tbl
where value<>-1
Run Code Online (Sandbox Code Playgroud)
结果:
Gather (cost=1000.00 .. 1136714.86 rows=580941 width=78 actual time=0.495..3057.813 rows = 587886 loops=1)
workers planned: 2
workers launched: 2
-> parallel seq scan on tbl (cost=0.00..10776.76 rows=242059 width=718) (actual time=0.095..2968.77 rows=195962 loops=3)
filter: (value<>-1::integer)
rows removed by filter: 5389091
plain time: 0.175ms
exection time: 3086.243ms
Run Code Online (Sandbox Code Playgroud)
max_parallel_workers和 和有什么不一样max_parallel_workers_per_gather?何时使用每个值?我看到很多帖子和论文都设置了以下值:
max_parallel_workers - 将数字设置为核心数。
max_parallel_workers_per_gather - 默认设置为 2 或设置为 max_parallel_workers / 2
使用并行查询时,收益和速度改进基于 max_parallel_workers_per_gather
max_parallel_workers_per_gather = max_parallel_workers?max_parallel_workers_per_gather = max_parallel_workers什么陷阱可以?我在跑:
select *
from pg_stat_activity
Run Code Online (Sandbox Code Playgroud)
它显示了 2 行具有相同的查询内容(在query字段下),并且在active状态下,
但一行显示client_backed( backend_type),另一行显示parallel_worker( backend_type)
client_backed和 和有什么不一样parallel_worker?我用的是Elasticsearch6.8版本。
我需要将大约 10000 个文档(来自 csv 文件)插入到现有索引和映射索引中。
我正在使用python(版本 3.7)代码:
import csv
es = Elasticsearch();
from elasticsearch import helpers
with open(file_path) as f:
reader = csv.DictReader(f)
helpers.bulk(es, reader, index=index_name, doc_type=doc_type)
Run Code Online (Sandbox Code Playgroud)
但我收到错误:
raise BulkIndexError("%i document(s) failed to index." % len(errors), errors)
elasticsearch.helpers.errors.BulkIndexError: ('3 document(s) failed to index.'
Run Code Online (Sandbox Code Playgroud)
发生错误的原因是 csv 文件中的某些值具有字符串值而不是浮点值。
499 个文档后批量停止,应用程序崩溃。
有没有办法批量批量处理所有文档(~10000),如果出现错误(由于映射或错误的值),请告诉python/elastic忽略这些文档并继续批量操作?
我有 2 张桌子:
一个包含 3 个字段的表:
id (text)
geom (geometry)
select ST_SRID(geom)
from A
where geom is not null
result: 32636
Run Code Online (Sandbox Code Playgroud)
B 表有 2 个字段:
name (text)
geom (geometry)
select ST_SRID(geom)
from B
where geom is not null
result: 0
Run Code Online (Sandbox Code Playgroud)
A.geom包含多边形
B.geom包含点
我想获得 A.id、A.geom 和 B.geom 之间的所有距离。我尝试过:
select id, st_distance(a.geom, ST_Transform(b.geom, 32636)) as dist
from A as a, B as b
where a.geom is not null
group by id, a.geom, b.geom
order by dist desc
Run Code Online (Sandbox Code Playgroud)
但我收到错误:
"input geom has unkown(0) …Run Code Online (Sandbox Code Playgroud) 我正在使用std :: map,无法理解它消耗了多少内存。
我有以下地图定义:
CKey {
long x;
int y;
int z;
bool operator<(const CKey& l) const;
};
CValue {
int data1;
int data2;
}
std::map<CKey, CValue> map;
std::cout << "sizeof() = " << sizeof(map) << " Max #Elms = " << map.max_size();
Run Code Online (Sandbox Code Playgroud)
(在地图中插入元素之前或之后都没有问题)
sizeof() = 48
Max_Size = 329406144173384850
Run Code Online (Sandbox Code Playgroud)
假设我有以下数组:
X = np.array([[1, 2], [2, 2], [2, 3], [8, 7], [8, 8], [25, 80]])
Run Code Online (Sandbox Code Playgroud)
如何绘制 ( matplotlib) 的散点图X?
分散需要 2 个参数 (x, y)
我正在研究 NLP 问题。目标列包含 5 种类型的句子:
"Extremely Positive", "Positive", "Neutral", "Negative", "Extremely Negative"
Run Code Online (Sandbox Code Playgroud)
我想将这些句子转换为数字 [5,4,3,2,1]。
是否有内置keras或python功能可以这样做?或者我需要使用字典自己转换它?
postgresql ×4
python ×3
keras ×2
tensorflow ×2
c++ ×1
csv ×1
postgis ×1
scikit-learn ×1
stdmap ×1