我有一个DataFrame:df如下:
row id name age url
1 e1 tom NaN http1
2 e2 john 25 NaN
3 e3 lucy NaN http3
4 e4 tick 29 NaN
Run Code Online (Sandbox Code Playgroud)
我想将NaN更改为0,否则在列中更改为1:age,url.我的代码如下,但这是错误的.
import Pandas as pd
df[['age', 'url']].applymap(lambda x: 0 if x=='NaN' else x)
Run Code Online (Sandbox Code Playgroud)
我想得到以下结果:
row id name age url
1 e1 tom 0 1
2 e2 john 1 0
3 e3 lucy 0 1
4 e4 tick 1 0
Run Code Online (Sandbox Code Playgroud)
谢谢你的帮助!
我按照教程学习SARIMAX模型:https://www.digitalocean.com/community/tutorials/a-guide-to-time-series-forecasting-with-arima-in-python-3 .数据的日期范围是1958-2001.
mod = sm.tsa.statespace.SARIMAX(y,
order=(1, 1, 1),
seasonal_order=(1, 1, 1, 12),
enforce_stationarity=False,
enforce_invertibility=False)
results = mod.fit()
Run Code Online (Sandbox Code Playgroud)
当拟合ARIMA时间序列模型时,我发现作者所有日期范围数据都适合模型参数.但在验证预测时,作者使用从1998-01-01开始的日期作为拟合模型的数据日期范围的一部分.
pred = results.get_prediction(start=pd.to_datetime('1998-01-01'), dynamic=False)
Run Code Online (Sandbox Code Playgroud)
我知道在机器学习模型中,训练数据和验证(测试)数据不同,我的意思是不同的范围.我的意思是作者是对的?为什么这样(我的意思是所有列车数据的原因),我是一个新的SARIMAX模型.
你能告诉我更多关于这个模型的信息吗,例如如何预测几天或几周而不仅仅是一个月,我的意思是如何设置order =(1,1,1),seasonal_order =(1,1,1,12)的参数).谢谢!
我正在通过以下教程研究 ARIMA 模型:https : //www.digitalocean.com/community/tutorials/a-guide-to-time-series-forecasting-with-arima-in-python-3#step-5 - --fitting-AN-华宇时间序列模型
在我使用第 5 步拟合模型后 — 使用以下代码拟合 ARIMA 时间序列模型:
mod = sm.tsa.statespace.SARIMAX(y,
order=(1, 1, 1),
seasonal_order=(1, 1, 1, 12),
enforce_stationarity=False,
enforce_invertibility=False)
results = mod.fit()
print(results.summary().tables[1])
Run Code Online (Sandbox Code Playgroud)
和情节
results.plot_diagnostics(figsize=(15, 12))
plt.show()
Run Code Online (Sandbox Code Playgroud)
我不知道含义:我们模型的残差不相关且正态分布为零均值。我想知道模型中的残差是什么,残差是真实值和预测值之间的差值的意思。
为什么作者将enforce_stationarity设置为False,因为ARIMA模式需要数据平稳性,enforce_stationarity和enforce_invertibility是什么意思?
enforce_stationarity=False,
enforce_invertibility=False
Run Code Online (Sandbox Code Playgroud)
如果可以的话,能不能详细解释一下。谢谢!
我想plot.m在 Octave 中使用一个简单的代码 ( ) 来绘制图形。我的代码如下:
printf('Plotting Data...\n');
x = -10:0.1:10;
plot(x, sin(x));
Run Code Online (Sandbox Code Playgroud)
但我收到错误消息:
错误:在索引表达式中无效使用脚本 ex1/plot.m 错误:从第 3 行第 1 列的绘图中调用
你能告诉我如何解决吗?谢谢!
中大约有 98,000 个句子(长度从 5 - 100 个单词)lst_train,而 中大约有 1000 个句子(长度从 5 - 100 个单词)lst_test。对于 中的每个句子,lst_test我想查找它是否抄袭了 中的句子lst_train。如果这个句子是抄袭的,我应该返回 lst_train 中的 id,否则返回 null。
现在我想计算 中每个句子相lst_test对于 中每个句子的杰卡德相似度lst_train。这是我的代码,b.JaccardSim 计算两个句子的 jaccard 相似度:
lst_all_p = []
for i in range(len(lst_test)):
print('i:', i)
lst_p = []
for j in range(len(lst_train)):
b = textSimilarity.TextSimilarity(lst_test[i], lst_train[j])
lst_p.append(b.JaccardSim(b.str_a,b.str_b))
lst_all_p.append(lst_p)
Run Code Online (Sandbox Code Playgroud)
但我发现lst_train中每一句话计算一次的时间都超过1分钟。由于大约有1000个句子,所以可能需要大约1000分钟才能完成。太长了。
你们知道如何使计算速度更快或更好的方法来解决检测 lst_train 中句子抄袭的问题吗?
在 PyCharm 编辑器中,我有一个名为project3以下目录结构的 python 应用程序。该文件load.py只有一个函数(不是类py文件)def read():,mip.py是一个py类文件,并且有自己的函数方法。
Project
|
+---- project1
|
+---- project2
|
+---- project3
|
+---- cnn.py
+---- load.py
+---- mip.py
Run Code Online (Sandbox Code Playgroud)
在 中cnn.py,我想导入我打算使用的load和文件。mip我的导入代码如下;
import load
from mip import f1
Run Code Online (Sandbox Code Playgroud)
但我收到错误:
No module named load
Unresolved reference 'mip'
Run Code Online (Sandbox Code Playgroud) 我有一个名为Project的项目目录,项目目录中包含python文件和html文件等,并且想部署在AWS ec2 ubuntu服务器中。当我在本地运行时就可以了。
在Project目录下运行“flask run”时,ubuntu终端出现错误。
flask run
* Serving Flask app 'project' (lazy loading)
* Environment: development
* Debug mode: on
Usage: flask run [OPTIONS]
Try 'flask run --help' for help.
Error: While importing 'project', an ImportError was raised
Run Code Online (Sandbox Code Playgroud)
我设置了一个 .flaskenv 文件,如下所示:
FLASK_APP=project
FLASK_ENV=development
Run Code Online (Sandbox Code Playgroud) 我按照本网站(https://www.digitalocean.com/community/tutorials/how-to-install-and-use-docker-on-ubuntu-16-04)的说明在 Ubuntu 16.04 上安装了 docker 。运行以下命令安装docker-engine后:
sudo apt-get install -y docker-engine
Run Code Online (Sandbox Code Playgroud)
有以下错误,希望你们给我提示来解决它。谢谢!
Building dependency tree
Reading state information... Done
The following packages will be REMOVED:
docker-ce
The following NEW packages will be installed:
docker-engine
0 upgraded, 1 newly installed, 1 to remove and 2 not upgraded.
2 not fully installed or removed.
Need to get 0 B/18.0 MB of archives.
After this operation, 4,214 kB disk space will be freed.
dpkg: docker-ce: dependency problems, but removing anyway as …Run Code Online (Sandbox Code Playgroud) 如果我有中文单词表:like reference = ['?'? '?', '?' ,'?']? 假设 = ['?', '?', '???'?'?] 。我可以使用:nltk.translate.bleu_score.sentence_bleu(references,假设)进行中文翻译吗?它和英语一样吗?日语怎么说?我的意思是如果我有像英语这样的单词表(中文和日文)。谢谢!
有一个列表字符串twitter文本数据,例如,以下数据(实际上,有大量文本,而不仅仅是这些数据),我想在Twitter文本中提取@和url链接后的所有用户名,例如:galaxy5univ和url链接.
tweet_text = ['@galaxy5univ I like you',
'RT @BestOfGalaxies: Let's sit under the stars ...',
'@jonghyun__bot .........((thanks)',
'RT @yosizo: thanks.ddddd <https://yahoo.com>',
'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']
Run Code Online (Sandbox Code Playgroud)
我的代码:
import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
text = pu.findall(row)
name = (pn.findall(row))
print("url: ", text)
print("name: ", name)
Run Code Online (Sandbox Code Playgroud)
通过测试大量twitter数据中的代码,我得到了我的两个url和name模式都是错误的(尽管在一些twitter文本数据中是正确的).在大型Twitter数据的情况下,你们是否有一些关于提取名称和url的文件或链接来自twitter文本.
如果您有关于从Twitter数据中提取名称和URL的建议,请告诉我,谢谢!
python ×4
python-3.x ×3
statsmodels ×2
time-series ×2
bleu ×1
caffe ×1
dataframe ×1
docker ×1
flask ×1
nlp ×1
nltk ×1
octave ×1
pandas ×1
plot ×1
pycharm ×1
python-2.7 ×1
python-3.5 ×1
regex ×1
text ×1
twitter ×1
ubuntu-16.04 ×1
ubuntu-18.04 ×1