小编tkt*_*711的帖子

Python Pandas:如果数据是NaN,则更改为0,否则在数据框中更改为1

我有一个DataFrame:df如下:

 row  id  name    age   url           
  1   e1   tom    NaN   http1   
  2   e2   john   25    NaN
  3   e3   lucy   NaN  http3 
  4   e4   tick   29    NaN
Run Code Online (Sandbox Code Playgroud)

我想将NaN更改为0,否则在列中更改为1:age,url.我的代码如下,但这是错误的.

  import Pandas as pd

  df[['age', 'url']].applymap(lambda x: 0 if x=='NaN' else x)
Run Code Online (Sandbox Code Playgroud)

我想得到以下结果:

  row  id  name    age   url           
  1   e1   tom     0     1
  2   e2   john    1     0
  3   e3   lucy    0     1 
  4   e4   tick    1     0
Run Code Online (Sandbox Code Playgroud)

谢谢你的帮助!

dataframe pandas python-3.5

8
推荐指数
2
解决办法
9092
查看次数

statespace.SARIMAX模型:为什么模型使用所有数据来训练模式,并预测一系列列车模型

我按照教程学习SARIMAX模型:https://www.digitalocean.com/community/tutorials/a-guide-to-time-series-forecasting-with-arima-in-python-3 .数据的日期范围是1958-2001.

mod = sm.tsa.statespace.SARIMAX(y,
                                order=(1, 1, 1),
                                seasonal_order=(1, 1, 1, 12),
                                enforce_stationarity=False,
                                enforce_invertibility=False)

results = mod.fit()
Run Code Online (Sandbox Code Playgroud)

当拟合ARIMA时间序列模型时,我发现作者所有日期范围数据都适合模型参数.但在验证预测时,作者使用从1998-01-01开始的日期作为拟合模型的数据日期范围的一部分.

pred = results.get_prediction(start=pd.to_datetime('1998-01-01'), dynamic=False)
Run Code Online (Sandbox Code Playgroud)

我知道在机器学习模型中,训练数据和验证(测试)数据不同,我的意思是不同的范围.我的意思是作者是对的?为什么这样(我的意思是所有列车数据的原因),我是一个新的SARIMAX模型.

你能告诉我更多关于这个模型的信息吗,例如如何预测几天或几周而不仅仅是一个月,我的意思是如何设置order =(1,1,1),seasonal_order =(1,1,1,12)的参数).谢谢!

python time-series statsmodels

8
推荐指数
1
解决办法
9418
查看次数

ARIMA 模型:plot_diagnostics,我们模型的残差是什么意思

我正在通过以下教程研究 ARIMA 模型:https : //www.digitalocean.com/community/tutorials/a-guide-to-time-series-forecasting-with-arima-in-python-3#step-5 - --fitting-AN-华宇时间序列模型

在我使用第 5 步拟合模型后 — 使用以下代码拟合 ARIMA 时间序列模型:

mod = sm.tsa.statespace.SARIMAX(y,
                                order=(1, 1, 1),
                                seasonal_order=(1, 1, 1, 12),
                                enforce_stationarity=False,
                                enforce_invertibility=False)

results = mod.fit()

print(results.summary().tables[1])
Run Code Online (Sandbox Code Playgroud)

和情节

results.plot_diagnostics(figsize=(15, 12))
plt.show()
Run Code Online (Sandbox Code Playgroud)

我不知道含义:我们模型的残差不相关且正态分布为零均值。我想知道模型中的残差是什么,残差是真实值和预测值之间的差值的意思。

为什么作者将enforce_stationarity设置为False,因为ARIMA模式需要数据平稳性,enforce_stationarity和enforce_invertibility是什么意思?

 enforce_stationarity=False,
 enforce_invertibility=False
Run Code Online (Sandbox Code Playgroud)

如果可以的话,能不能详细解释一下。谢谢!

python time-series statsmodels

6
推荐指数
1
解决办法
7246
查看次数

Octave:在索引表达式中无效使用脚本

我想plot.m在 Octave 中使用一个简单的代码 ( ) 来绘制图形。我的代码如下:

printf('Plotting Data...\n');
x = -10:0.1:10;
plot(x, sin(x));
Run Code Online (Sandbox Code Playgroud)

但我收到错误消息:

错误:在索引表达式中无效使用脚本 ex1/plot.m 错误:从第 3 行第 1 列的绘图中调用

你能告诉我如何解决吗?谢谢!

plot octave

5
推荐指数
2
解决办法
1万
查看次数

Python:如何更快地计算 Jaccard 相似度

中大约有 98,000 个句子(长度从 5 - 100 个单词)lst_train,而 中大约有 1000 个句子(长度从 5 - 100 个单词)lst_test。对于 中的每个句子,lst_test我想查找它是否抄袭了 中的句子lst_train。如果这个句子是抄袭的,我应该返回 lst_train 中的 id,否则返回 null。

现在我想计算 中每个句子相lst_test对于 中每个句子的杰卡德相似度lst_train。这是我的代码,b.JaccardSim 计算两个句子的 jaccard 相似度:

lst_all_p = []
for i in range(len(lst_test)):
    print('i:', i)
    lst_p = []
    for j in range(len(lst_train)):
        b = textSimilarity.TextSimilarity(lst_test[i], lst_train[j])
        lst_p.append(b.JaccardSim(b.str_a,b.str_b))
    lst_all_p.append(lst_p)
Run Code Online (Sandbox Code Playgroud)

但我发现lst_train中每一句话计算一次的时间都超过1分钟。由于大约有1000个句子,所以可能需要大约1000分钟才能完成。太长了。

你们知道如何使计算速度更快或更好的方法来解决检测 lst_train 中句子抄袭的问题吗?

nlp python-3.x

5
推荐指数
1
解决办法
3441
查看次数

python3:在 python 文件中导入另一个函数:没有名为 load 的模块

在 PyCharm 编辑器中,我有一个名为project3以下目录结构的 python 应用程序。该文件load.py只有一个函数(不是类py文件)def read():mip.py是一个py类文件,并且有自己的函数方法。

 Project
  |
  +---- project1
  |
  +---- project2
  |
  +---- project3
          |
          +---- cnn.py
          +---- load.py
          +---- mip.py
Run Code Online (Sandbox Code Playgroud)

在 中cnn.py,我想导入我打算使用的load和文件。mip我的导入代码如下;

import load
from mip import f1
Run Code Online (Sandbox Code Playgroud)

但我收到错误:

No module named load
Unresolved reference 'mip'
Run Code Online (Sandbox Code Playgroud)

python python-import pycharm python-3.x

4
推荐指数
1
解决办法
8498
查看次数

烧瓶运行错误:导入“项目”时,引发了导入错误

我有一个名为Project的项目目录,项目目录中包含python文件和html文件等,并且想部署在AWS ec2 ubuntu服务器中。当我在本地运行时就可以了。

在Project目录下运行“flask run”时,ubuntu终端出现错误。

flask run
 * Serving Flask app 'project' (lazy loading)
 * Environment: development
 * Debug mode: on
Usage: flask run [OPTIONS]
Try 'flask run --help' for help.

Error: While importing 'project', an ImportError was raised
Run Code Online (Sandbox Code Playgroud)

我设置了一个 .flaskenv 文件,如下所示:

FLASK_APP=project
FLASK_ENV=development 
Run Code Online (Sandbox Code Playgroud)

amazon-web-services flask python-3.x ubuntu-18.04

4
推荐指数
1
解决办法
1万
查看次数

dpkg: docker-ce: 依赖问题,但仍按您的要求删除:nvidia-docker

我按照本网站(https://www.digitalocean.com/community/tutorials/how-to-install-and-use-docker-on-ubuntu-16-04)的说明在 Ubuntu 16.04 上安装了 docker 。运行以下命令安装docker-engine后:

 sudo apt-get install -y docker-engine
Run Code Online (Sandbox Code Playgroud)

有以下错误,希望你们给我提示来解决它。谢谢!

Building dependency tree
Reading state information... Done
The following packages will be REMOVED:
  docker-ce
The following NEW packages will be installed:
  docker-engine
0 upgraded, 1 newly installed, 1 to remove and 2 not upgraded.
2 not fully installed or removed.
Need to get 0 B/18.0 MB of archives.
After this operation, 4,214 kB disk space will be freed.
dpkg: docker-ce: dependency problems, but removing anyway as …
Run Code Online (Sandbox Code Playgroud)

docker caffe ubuntu-16.04

3
推荐指数
1
解决办法
1万
查看次数

BLEU 分数?我可以使用 nltk.translate.bleu_score.sentence_bleu 来计算中文的 bleu 分数吗?

如果我有中文单词表:like reference = ['?'? '?', '?' ,'?']? 假设 = ['?', '?', '???'?'?] 。我可以使用:nltk.translate.bleu_score.sentence_bleu(references,假设)进行中文翻译吗?它和英语一样吗?日语怎么说?我的意思是如果我有像英语这样的单词表(中文和日文)。谢谢!

nltk python-2.7 bleu

3
推荐指数
1
解决办法
6952
查看次数

Python使用正则表达式提取twitter文本数据中的@user和url链接

有一个列表字符串twitter文本数据,例如,以下数据(实际上,有大量文本,而不仅仅是这些数据),我想在Twitter文本中提取@和url链接后的所有用户名,例如:galaxy5univ和url链接.

   tweet_text = ['@galaxy5univ I like you',
    'RT @BestOfGalaxies: Let's sit under the stars ...',
    '@jonghyun__bot .........((thanks)',
    'RT @yosizo: thanks.ddddd <https://yahoo.com>',
    'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']
Run Code Online (Sandbox Code Playgroud)

我的代码:

import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
   text = pu.findall(row)
   name = (pn.findall(row))
   print("url: ", text)
   print("name: ", name)
Run Code Online (Sandbox Code Playgroud)

通过测试大量twitter数据中的代码,我得到了我的两个url和name模式都是错误的(尽管在一些twitter文本数据中是正确的).在大型Twitter数据的情况下,你们是否有一些关于提取名称和url的文件或链接来自twitter文本.

如果您有关于从Twitter数据中提取名称和URL的建议,请告诉我,谢谢!

python regex twitter text

2
推荐指数
1
解决办法
2213
查看次数