标签: data-science

检测时间序列的快速增长

我有一个时间序列，我想检测值何时快速增加，并查明（可能是颜色）增加的时间范围。例如，在下图中，我想精确定位 x 轴中特定时间窗口的峰值（例如 2018-05-22）

我能够找到 20% 的最大值，但这对我没有帮助。我想把重点放在快速增长上。

d = pd.Series(df['TS'].values[1:] - df['TS].values[:-1], index=df['TS'].index[:-1]).abs()
threshold = 0.8
m = d.max()
print(d > m * threshold)

Run Code Online (Sandbox Code Playgroud)

例如，破裂在视觉上做了类似的事情。有一个示例，其生成的图中包含随机数据：

import matplotlib.pyplot as plt
import ruptures as rpt

# generate signal
n_samples, dim, sigma = 1000, 3, 4
n_bkps = 4  # number of breakpoints
#signal, bkps = rpt.pw_constant(n_samples, dim, n_bkps, noise_std=sigma)


# detection
algo = rpt.Pelt(model="rbf").fit(signal)
result = algo.predict(pen=10)

# display
rpt.display(signal, bkps, result)
plt.show()

Run Code Online (Sandbox Code Playgroud)

python time-series data-science

met*_*211

2020 01-10

2
推荐指数

1
解决办法

3819
查看次数

如何在 PyCharm 中获得与 RStudio 类似的功能

我通常使用RStudio进行数据科学工作。我加载数据集，然后逐行编写并尝试新代码，更改参数，探索数据，并一次执行小块。我目前正在使用PyCharm进行 Python 项目，它似乎适合软件开发，从头到尾运行和调试整个脚本，当使用 RStudio 模式时，这非常慢且令人沮丧。

是否有可能拥有与 RStudio 类似的数据科学环境，是否最好将工具更改为其他工具？

python ide pycharm data-science

Str*_*nio

lucky-day

2
推荐指数

1
解决办法

2736
查看次数

如何在 Dash 中处理上传的 zip 文件？

使用dcc.Upload，您可以在 Dash Plotly 仪表板中构建拖放或基于按钮的上传功能。但是，文档中对处理特定文件类型（例如.zip. 这是上传 html 的片段：

\n\n

dcc.Upload(\n    id=\'upload_prediction\',\n    children=html.Div([\n        \'Drag and Drop or \',\n        html.A(\'Select Files\'),\n        \' New Predictions (*.zip)\'\n    ]),\n    style={\n        \'width\': \'100%\',\n        \'height\': \'60px\',\n        \'lineHeight\': \'60px\',\n        \'borderWidth\': \'1px\',\n        \'borderStyle\': \'dashed\',\n        \'borderRadius\': \'5px\',\n        \'textAlign\': \'center\',\n        \'margin\': \'10px\'\n    },\n    accept=".zip",\n    multiple=True\n)\n

Run Code Online (Sandbox Code Playgroud)\n\n

然后，当我尝试使用以下代码片段检查上传的文件时：

\n\n

@app.callback(Output(\'output_uploaded\', \'children\'),\n              [Input(\'upload_prediction\', \'contents\')],\n              [State(\'upload_prediction\', \'filename\'),\n               State(\'upload_prediction\', \'last_modified\')])\ndef test_callback(list_of_contents, list_of_names, list_of_dates):\n    for content in list_of_contents:\n        print(content)\n

Run Code Online (Sandbox Code Playgroud)\n\n

上传后的content-type为\xe2\x80\x98data:application/x-zip-compressed;base64\xe2\x80\x99。如何在 Dash Plotly 中处理这种类型的文件（例如将其提取到某个地方）？

\n\n

在plotly论坛中提出了类似的问题，但没有答案：\n https://community.plot.ly/t/dcc-upload-zip-file/33976

python plotly data-science plotly-dash

Ary*_*ema

lucky-day

2
推荐指数

1
解决办法

2252
查看次数

ImportError：无法从“contractions”导入名称“CONTRACTION_MAP”

ImportError                               Traceback (most recent call last)
<ipython-input-13-74c9bc9e3e4a> in <module>
      8 from nltk.tokenize.toktok import ToktokTokenizer
      9 #import contractions
---> 10 from contractions import CONTRACTION_MAP
     11 import unicodedata
     12 

ImportError: cannot import name 'CONTRACTION_MAP' from 'contractions' (c:\users\nikita\appdata\local\programs\python\python37-32\lib\site-packages\contractions\__init__.py)

Run Code Online (Sandbox Code Playgroud)

一个问题是：该CONTRACTION_MAP变量是否已从包中弃用contractions？

python nlp machine-learning data-science contractions

Nik*_*ani

2020 03-29

2
推荐指数

1
解决办法

6100
查看次数

无论聚类中心如何初始化，Kmeans 算法是否都能保证收敛？为什么？

K-means 是一种随机初始化聚类中心的迭代算法。无论聚类中心如何初始化，Kmeans 算法是否都能保证收敛？为什么？

artificial-intelligence machine-learning k-means unsupervised-learning data-science

bha*_*dra

2020 05-07

2
推荐指数

1
解决办法

3653
查看次数

如何在 PyCharm 中下载文件而不是 Colab 中的 !wget？

当我在pandas中尝试一些代码时，bash代码wget在colab中使用如下：

import pandas as pd

!wget abc.com/sales.csv

Run Code Online (Sandbox Code Playgroud)

如果我想使用 PyCharm 下载上述互联网文件，wget 无法识别。那么我应该使用哪个命令来下载这个文件呢？

python pandas data-science

Blu*_*Sea

2022 04-30

2
推荐指数

1
解决办法

4009
查看次数

如何卸载并重新安装 anaconda naviator

不幸的是 anaconda 已损坏，我需要卸载并重新安装 anaconda 来解决该问题（Anconda 导航器应用程序未打开，因此我必须卸载它）。我卸载了安康达。当我重新安装它时，它没有正确安装。当我尝试运行 conda 时，它在命令提示符中显示错误。它显示错误消息“conda 未被识别为内部或外部命令”

python anaconda data-science anaconda3

des*_*opp

2020 11-02

2
推荐指数

1
解决办法

2707
查看次数

下载 conda 数据科学库而不解压包

我想使用数据科学库 NumPy、Pandas、Pytorch 和 Hugging Face 转换器创建一个 Python 环境。我用来miniconda创建环境并下载和安装库。中有一个标志conda install，--download-only用于下载所需的软件包而不安装它们，然后从本地目录安装它们。即使只是conda下载软件包而不安装它们，它也会提取它们。

是否可以下载软件包而不解压它们并在安装前解压它们？

download conda data-science

jsq*_*sqs

2021 02-15

2
推荐指数

1
解决办法

1782
查看次数

DBT 暴露

我对 DBT 相当陌生，正在尝试探索如何暴露。我已经阅读了文档（https://docs.getdbt.com/docs/building-a-dbt-project/exposures），但我不觉得我得到了问题的答案。

我很清楚您在模型文件夹中创建曝光文件的概念，然后声明表名称及其依赖的其他表/源。

Q1 - 我应该说明表的整个下游还是仅说明它所依赖的直接表？

Q2 - 它有什么具体好处？你能想出一个具体的场景吗？

Q3 - dbt run -m Exposure:name 和 dbt test -m Exposure:name 的目的是什么？是测试模型还是曝光？

我已经完全按照文档中的说明进行操作，只是不知道如何使用它。

先感谢您：-）

testing command-line-interface command-line-tool data-science dbt

Kri*_*ian

2021 06-10

2
推荐指数

1
解决办法

1358
查看次数

如何加速 Keras model.predict？

我训练了一个 LSTM 模型，并尝试对所有测试观察结果进行预测。然而，keras 需要很长时间model.predict才能计算所有预测。有没有办法加快这个过程？假设每个预测有两个特征（x1 和 x2）。每个特征的长度（x1 & x2）都是33。如[32,1,17,.......,0]。我需要进行 100 万次预测。我的代码是

predictions = np.argmax(make.predict([x1, x2]), axis = -1)

Run Code Online (Sandbox Code Playgroud)

有什么想法可以加快速度吗？非常感谢

python keras data-science tensorflow

cts*_*tat

lucky-day

2
推荐指数

1
解决办法

7540
查看次数

标签统计

data-science ×10

python ×7

machine-learning ×2

anaconda ×1

anaconda3 ×1

artificial-intelligence ×1

command-line-interface ×1

command-line-tool ×1

conda ×1

contractions ×1

dbt ×1

download ×1

ide ×1

k-means ×1

keras ×1

nlp ×1

pandas ×1

plotly ×1

plotly-dash ×1

pycharm ×1

tensorflow ×1

testing ×1

time-series ×1

unsupervised-learning ×1

标签 统计

标签统计