小编tkt*_*711的帖子

Python Pandas:如果数据是NaN,则更改为0,否则在数据框中更改为1

我有一个DataFrame:df如下:

 row  id  name    age   url           
  1   e1   tom    NaN   http1   
  2   e2   john   25    NaN
  3   e3   lucy   NaN  http3 
  4   e4   tick   29    NaN

Run Code Online (Sandbox Code Playgroud)

我想将NaN更改为0,否则在列中更改为1:age,url.我的代码如下,但这是错误的.

  import Pandas as pd

  df[['age', 'url']].applymap(lambda x: 0 if x=='NaN' else x)

Run Code Online (Sandbox Code Playgroud)

我想得到以下结果:

  row  id  name    age   url           
  1   e1   tom     0     1
  2   e2   john    1     0
  3   e3   lucy    0     1 
  4   e4   tick    1     0

Run Code Online (Sandbox Code Playgroud)

谢谢你的帮助!

dataframe pandas python-3.5

tkt*_*711

lucky-day

8
推荐指数

2
解决办法

9092
查看次数

statespace.SARIMAX模型:为什么模型使用所有数据来训练模式,并预测一系列列车模型

我按照教程学习SARIMAX模型:https://www.digitalocean.com/community/tutorials/a-guide-to-time-series-forecasting-with-arima-in-python-3 .数据的日期范围是1958-2001.

mod = sm.tsa.statespace.SARIMAX(y,
                                order=(1, 1, 1),
                                seasonal_order=(1, 1, 1, 12),
                                enforce_stationarity=False,
                                enforce_invertibility=False)

results = mod.fit()

Run Code Online (Sandbox Code Playgroud)

当拟合ARIMA时间序列模型时,我发现作者所有日期范围数据都适合模型参数.但在验证预测时,作者使用从1998-01-01开始的日期作为拟合模型的数据日期范围的一部分.

pred = results.get_prediction(start=pd.to_datetime('1998-01-01'), dynamic=False)

Run Code Online (Sandbox Code Playgroud)

我知道在机器学习模型中,训练数据和验证(测试)数据不同,我的意思是不同的范围.我的意思是作者是对的？为什么这样(我的意思是所有列车数据的原因),我是一个新的SARIMAX模型.

你能告诉我更多关于这个模型的信息吗,例如如何预测几天或几周而不仅仅是一个月,我的意思是如何设置order =(1,1,1),seasonal_order =(1,1,1,12)的参数).谢谢!

python time-series statsmodels

tkt*_*711

2017 06-01

8
推荐指数

1
解决办法

9418
查看次数

ARIMA 模型：plot_diagnostics，我们模型的残差是什么意思

我正在通过以下教程研究 ARIMA 模型：https : //www.digitalocean.com/community/tutorials/a-guide-to-time-series-forecasting-with-arima-in-python-3#step-5 - --fitting-AN-华宇时间序列模型

在我使用第 5 步拟合模型后 — 使用以下代码拟合 ARIMA 时间序列模型：

mod = sm.tsa.statespace.SARIMAX(y,
                                order=(1, 1, 1),
                                seasonal_order=(1, 1, 1, 12),
                                enforce_stationarity=False,
                                enforce_invertibility=False)

results = mod.fit()

print(results.summary().tables[1])

Run Code Online (Sandbox Code Playgroud)

和情节

results.plot_diagnostics(figsize=(15, 12))
plt.show()

Run Code Online (Sandbox Code Playgroud)

我不知道含义：我们模型的残差不相关且正态分布为零均值。我想知道模型中的残差是什么，残差是真实值和预测值之间的差值的意思。

为什么作者将enforce_stationarity设置为False，因为ARIMA模式需要数据平稳性，enforce_stationarity和enforce_invertibility是什么意思？

 enforce_stationarity=False,
 enforce_invertibility=False

Run Code Online (Sandbox Code Playgroud)

如果可以的话，能不能详细解释一下。谢谢！

python time-series statsmodels

tkt*_*711

2017 05-31

6
推荐指数

1
解决办法

7246
查看次数

Octave：在索引表达式中无效使用脚本

我想plot.m在 Octave 中使用一个简单的代码 ( ) 来绘制图形。我的代码如下：

printf('Plotting Data...\n');
x = -10:0.1:10;
plot(x, sin(x));

Run Code Online (Sandbox Code Playgroud)

但我收到错误消息：

错误：在索引表达式中无效使用脚本 ex1/plot.m 错误：从第 3 行第 1 列的绘图中调用

你能告诉我如何解决吗？谢谢！

plot octave

tkt*_*711

2016 12-20

5
推荐指数

2
解决办法

1万
查看次数

Python：如何更快地计算 Jaccard 相似度

中大约有 98,000 个句子（长度从 5 - 100 个单词）lst_train，而中大约有 1000 个句子（长度从 5 - 100 个单词）lst_test。对于中的每个句子，lst_test我想查找它是否抄袭了中的句子lst_train。如果这个句子是抄袭的，我应该返回 lst_train 中的 id，否则返回 null。

现在我想计算中每个句子相lst_test对于中每个句子的杰卡德相似度lst_train。这是我的代码，b.JaccardSim 计算两个句子的 jaccard 相似度：

lst_all_p = []
for i in range(len(lst_test)):
    print('i:', i)
    lst_p = []
    for j in range(len(lst_train)):
        b = textSimilarity.TextSimilarity(lst_test[i], lst_train[j])
        lst_p.append(b.JaccardSim(b.str_a,b.str_b))
    lst_all_p.append(lst_p)

Run Code Online (Sandbox Code Playgroud)

但我发现lst_train中每一句话计算一次的时间都超过1分钟。由于大约有1000个句子，所以可能需要大约1000分钟才能完成。太长了。

你们知道如何使计算速度更快或更好的方法来解决检测 lst_train 中句子抄袭的问题吗？

nlp python-3.x

tkt*_*711

2021 03-08

5
推荐指数

1
解决办法

3441
查看次数

python3：在 python 文件中导入另一个函数：没有名为 load 的模块

在 PyCharm 编辑器中，我有一个名为project3以下目录结构的 python 应用程序。该文件load.py只有一个函数（不是类py文件）def read():，mip.py是一个py类文件，并且有自己的函数方法。

 Project
  |
  +---- project1
  |
  +---- project2
  |
  +---- project3
          |
          +---- cnn.py
          +---- load.py
          +---- mip.py

Run Code Online (Sandbox Code Playgroud)

在中cnn.py，我想导入我打算使用的load和文件。mip我的导入代码如下；

import load
from mip import f1

Run Code Online (Sandbox Code Playgroud)

但我收到错误：

No module named load
Unresolved reference 'mip'

Run Code Online (Sandbox Code Playgroud)

python python-import pycharm python-3.x

tkt*_*711

2017 01-17

4
推荐指数

1
解决办法

8498
查看次数

烧瓶运行错误：导入“项目”时，引发了导入错误

我有一个名为Project的项目目录，项目目录中包含python文件和html文件等，并且想部署在AWS ec2 ubuntu服务器中。当我在本地运行时就可以了。

在Project目录下运行“flask run”时，ubuntu终端出现错误。

flask run
 * Serving Flask app 'project' (lazy loading)
 * Environment: development
 * Debug mode: on
Usage: flask run [OPTIONS]
Try 'flask run --help' for help.

Error: While importing 'project', an ImportError was raised

Run Code Online (Sandbox Code Playgroud)

我设置了一个 .flaskenv 文件，如下所示：

FLASK_APP=project
FLASK_ENV=development

Run Code Online (Sandbox Code Playgroud)

amazon-web-services flask python-3.x ubuntu-18.04

tkt*_*711

2021 10-18

4
推荐指数

1
解决办法

1万
查看次数

dpkg: docker-ce: 依赖问题，但仍按您的要求删除：nvidia-docker

我按照本网站（https://www.digitalocean.com/community/tutorials/how-to-install-and-use-docker-on-ubuntu-16-04）的说明在 Ubuntu 16.04 上安装了 docker 。运行以下命令安装docker-engine后：

 sudo apt-get install -y docker-engine

Run Code Online (Sandbox Code Playgroud)

有以下错误，希望你们给我提示来解决它。谢谢！

Building dependency tree
Reading state information... Done
The following packages will be REMOVED:
  docker-ce
The following NEW packages will be installed:
  docker-engine
0 upgraded, 1 newly installed, 1 to remove and 2 not upgraded.
2 not fully installed or removed.
Need to get 0 B/18.0 MB of archives.
After this operation, 4,214 kB disk space will be freed.
dpkg: docker-ce: dependency problems, but removing anyway as …

Run Code Online (Sandbox Code Playgroud)

docker caffe ubuntu-16.04

tkt*_*711

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

BLEU 分数？我可以使用 nltk.translate.bleu_score.sentence_bleu 来计算中文的 bleu 分数吗？

如果我有中文单词表：like reference = ['?'? '?', '?' ,'?']? 假设 = ['?', '?', '???'?'?] 。我可以使用：nltk.translate.bleu_score.sentence_bleu(references,假设)进行中文翻译吗？它和英语一样吗？日语怎么说？我的意思是如果我有像英语这样的单词表（中文和日文）。谢谢！

nltk python-2.7 bleu

tkt*_*711

lucky-day

3
推荐指数

1
解决办法

6952
查看次数

Python使用正则表达式提取twitter文本数据中的@user和url链接

有一个列表字符串twitter文本数据,例如,以下数据(实际上,有大量文本,而不仅仅是这些数据),我想在Twitter文本中提取@和url链接后的所有用户名,例如:galaxy5univ和url链接.

   tweet_text = ['@galaxy5univ I like you',
    'RT @BestOfGalaxies: Let's sit under the stars ...',
    '@jonghyun__bot .........((thanks)',
    'RT @yosizo: thanks.ddddd <https://yahoo.com>',
    'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']

Run Code Online (Sandbox Code Playgroud)

我的代码:

import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
   text = pu.findall(row)
   name = (pn.findall(row))
   print("url: ", text)
   print("name: ", name)

Run Code Online (Sandbox Code Playgroud)

通过测试大量twitter数据中的代码,我得到了我的两个url和name模式都是错误的(尽管在一些twitter文本数据中是正确的).在大型Twitter数据的情况下,你们是否有一些关于提取名称和url的文件或链接来自twitter文本.

如果您有关于从Twitter数据中提取名称和URL的建议,请告诉我,谢谢!

python regex twitter text

tkt*_*711

2016 06-14

2
推荐指数

1
解决办法

2213
查看次数