我正在尝试计算之间的天数failures
。我想知道系列中每一天从最后一个failure
位置过去的天数failure = 1
。可能有1到1500个设备。
例如,我希望我的数据框看起来像这样(请从第二个代码块的url中提取数据。这只是较大数据框的简短示例。):
date device failure elapsed
10/01/2015 S1F0KYCR 1 0
10/07/2015 S1F0KYCR 1 7
10/08/2015 S1F0KYCR 0 0
10/09/2015 S1F0KYCR 0 0
10/17/2015 S1F0KYCR 1 11
10/31/2015 S1F0KYCR 0 0
10/01/2015 S8KLM011 1 0
10/02/2015 S8KLM011 1 2
10/07/2015 S8KLM011 0 0
10/09/2015 S8KLM011 0 0
10/11/2015 S8KLM011 0 0
10/21/2015 S8KLM011 1 20
Run Code Online (Sandbox Code Playgroud)
样例代码:
编辑:请从下面的代码块中提取实际数据。以上示例数据是一个简短的示例。谢谢。
url = "https://raw.githubusercontent.com/dsdaveh/device-failure-analysis/master/device_failure.csv"
df = pd.read_csv(url, encoding = "ISO-8859-1")
df = df.sort_values(by = ['date', 'device'], ascending …
Run Code Online (Sandbox Code Playgroud) 如何在假设检验中专门测试变量的偏度和/或峰度的零和替代假设?我是否必须在t.test中使用公式?
t.test(data$variable, y = Null)
Run Code Online (Sandbox Code Playgroud)
任何帮助表示赞赏.谢谢!
我正在尝试从数据框中的所有列中删除后缀,但是我收到错误消息。任何建议,将不胜感激。
df = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('ABCD'))
df.add_suffix('_x')
def strip_right(df.columns, _x):
if not text.endswith("_x"):
return text
# else
return text[:len(df.columns)-len("_x")]
Run Code Online (Sandbox Code Playgroud)
错误:
def strip_right(tmp, "_x"):
^
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud)
我也试过删除引号。
def strip_right(df.columns, _x):
if not text.endswith(_x):
return text
# else
return text[:len(df.columns)-len(_x)]
Run Code Online (Sandbox Code Playgroud)
错误:
def strip_right(df.columns, _x):
^
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud) 我尝试在 Python 中使用 AWSGlue 模块,但无法在终端中安装该模块。
sh-4.2$ pip install awsglue
Collecting awsglue
Could not find a version that satisfies the requirement awsglue (from versions: )
No matching distribution found for awsglue
Run Code Online (Sandbox Code Playgroud)
有没有办法解决这个问题,或者我可以从第三方下载它?
有人可以使用这个 AWSGlue 模块吗?
任何帮助,将不胜感激。
我正在尝试在 SQL Server 中透视表(52M+ 观测值),但是我没有得到我需要的结果。有 15 个描述,每个描述都有一个我需要调整的值。
原始数据框:
ID | Date | Description| Value
-------------------------------------------------
P1 | 2016-12-31 | ABC | 900
P2 | 2016-11-30 | XYZ | 800
P3 | 2016-10-31 | MNO | 700
Run Code Online (Sandbox Code Playgroud)
期望的结果
ID | Date | ABC | XYZ | MNO
-------------------------------------------------
P1 | 2016-12-31 | 900 | |
P2 | 2016-11-30 | | 800 |
P3 | 2016-10-31 | | | 700
Run Code Online (Sandbox Code Playgroud)
我已经尝试在 PySpark 和 SQL 中对此进行转换,但尚未得到有效结果。
SQL 尝试:
SELECT [Date]
,[ID]
,[Description]
,[Value] …
Run Code Online (Sandbox Code Playgroud) 我收到这个错误。
数据截断:日期值不正确:第 1 行“dateFrom”列的“18-JUN-13”
这个错误的原因可能是什么?
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('01', '01', '18-JUN-13', '26-NOV-13', '01');
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('02', '01', '18-JUN-85', '26-JUN-85', '02');
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('02', '03', '18-JUN-66', '26-JUN-66', '01');
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('04', '02', '18-OCT-13', '23-OCT-13', '01');
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('02', '03', '18-JUL-87', '26-AUG-87', '01');
INSERT INTO Booking (hotelNo, guestNo, …
Run Code Online (Sandbox Code Playgroud) 我试图找到三个数据帧的交集,但是pd.intersect1d
不喜欢使用三个数据帧。
import numpy as np
import pandas as pd
df1 = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('ABCD'))
df2 = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('BCDE'))
df3 = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('CDEF'))
inclusive_list = np.intersect1d(df1.columns, df2.columns, df3.columns)
Run Code Online (Sandbox Code Playgroud)
错误:
ValueError: The truth value of a Index is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
Run Code Online (Sandbox Code Playgroud)
本inclusive_list
应只包括列名C&D.任何帮助,将不胜感激。谢谢你。
我在下面的示例中使用 PDFMiner 生成单词 x,y 坐标,但是结果是一行一行的。如何将每个单词与另一个单词分开,而不是逐行拆分单词组(请参见下面的示例)。我已经尝试了PDFMiner 教程中的几个参数。LTTextBox
并且LTText
都被试过了。此外,我不能使用文本分析中通常使用的开始和结束偏移量。
这个 PDF 是一个很好的例子,它在下面的代码中使用。
http://www.africau.edu/images/default/sample.pdf
from pdfminer.layout import LAParams, LTTextBox, LTText
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import PDFPageAggregator
#Imports Searchable PDFs and prints x,y coordinates
fp = open('C:\sample.pdf', 'rb')
manager = PDFResourceManager()
laparams = LAParams()
dev = PDFPageAggregator(manager, laparams=laparams)
interpreter = PDFPageInterpreter(manager, dev)
pages = PDFPage.get_pages(fp)
for page in pages:
print('--- Processing ---')
interpreter.process_page(page)
layout = dev.get_result()
for lobj in layout:
if isinstance(lobj, …
Run Code Online (Sandbox Code Playgroud) 我试图在组的初始值之前删除所有行。例如,如果 my max_value = 250
,则应删除该值之前的组的所有行。如果该组再次出现 250 或更少的结果值,则不会将其删除。
import pandas as pd
df = pd.DataFrame({
'date': ['2019-01-01','2019-02-01','2019-03-01', '2019-04-01',
'2019-01-01','2019-02-01','2019-03-01', '2019-04-01',
'2019-01-01','2019-02-01','2019-03-01', '2019-04-01'],
'Asset': ['Asset A', 'Asset A', 'Asset A', 'Asset A', 'Asset A', 'Asset A', 'Asset B', 'Asset B',
'Asset B', 'Asset B', 'Asset B', 'Asset B'],
'Monthly Value': [100, 200, 300, 400, 500, 600, 100, 200, 300, 200, 300, 200]
})
unique_list = list(df['Asset'].unique())
max_value = 250
print(df)
date Asset Monthly Value
0 2019-01-01 Asset A 100
1 2019-02-01 …
Run Code Online (Sandbox Code Playgroud) 如何在保留行的同时用 NaN 替换每个组的重复项?
我需要保留行而不删除并且可能保留第一个原始值首先出现的位置。
import pandas as pd
from datetime import timedelta
df = pd.DataFrame({
'date': ['2019-01-01 00:00:00','2019-01-01 01:00:00','2019-01-01 02:00:00', '2019-01-01 03:00:00',
'2019-09-01 02:00:00','2019-09-01 03:00:00','2019-09-01 04:00:00', '2019-09-01 05:00:00'],
'value': [10,10,10,10,12,12,12,12],
'ID': ['Jackie','Jackie','Jackie','Jackie','Zoop','Zoop','Zoop','Zoop',]
})
df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)
date value ID
0 2019-01-01 00:00:00 10 Jackie
1 2019-01-01 01:00:00 10 Jackie
2 2019-01-01 02:00:00 10 Jackie
3 2019-01-01 03:00:00 10 Jackie
4 2019-09-01 02:00:00 12 Zoop
5 2019-09-01 03:00:00 12 Zoop
6 2019-09-01 04:00:00 12 Zoop
7 2019-09-01 05:00:00 12 Zoop …
Run Code Online (Sandbox Code Playgroud)