小编Sta_cks的帖子

两个设备故障之间的日期差异

我正在尝试计算之间的天数failures。我想知道系列中每一天从最后一个failure位置过去的天数failure = 1。可能有1到1500个设备。

例如，我希望我的数据框看起来像这样（请从第二个代码块的url中提取数据。这只是较大数据框的简短示例。）：

date        device      failure      elapsed    
10/01/2015  S1F0KYCR    1            0           
10/07/2015  S1F0KYCR    1            7           
10/08/2015  S1F0KYCR    0            0           
10/09/2015  S1F0KYCR    0            0           
10/17/2015  S1F0KYCR    1            11          
10/31/2015  S1F0KYCR    0            0           
10/01/2015  S8KLM011    1            0           
10/02/2015  S8KLM011    1            2           
10/07/2015  S8KLM011    0            0
10/09/2015  S8KLM011    0            0
10/11/2015  S8KLM011    0            0
10/21/2015  S8KLM011    1            20

Run Code Online (Sandbox Code Playgroud)

样例代码：

编辑：请从下面的代码块中提取实际数据。以上示例数据是一个简短的示例。谢谢。

url = "https://raw.githubusercontent.com/dsdaveh/device-failure-analysis/master/device_failure.csv"

df = pd.read_csv(url, encoding = "ISO-8859-1")

df = df.sort_values(by = ['date', 'device'], ascending …

Run Code Online (Sandbox Code Playgroud)

python datediff date pandas

7
推荐指数

1
解决办法

144
查看次数

假设检验R中的偏度和/或峰度

如何在假设检验中专门测试变量的偏度和/或峰度的零和替代假设？我是否必须在t.test中使用公式？

    t.test(data$variable, y = Null)

Run Code Online (Sandbox Code Playgroud)

任何帮助表示赞赏.谢谢!

r hypothesis-test

5
推荐指数

1
解决办法

6785
查看次数

从数据框列名中删除后缀 - Python

我正在尝试从数据框中的所有列中删除后缀，但是我收到错误消息。任何建议，将不胜感激。

df = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('ABCD'))
df.add_suffix('_x')

def strip_right(df.columns, _x):
    if not text.endswith("_x"):
        return text
    # else
    return text[:len(df.columns)-len("_x")]

Run Code Online (Sandbox Code Playgroud)

错误：

def strip_right(tmp, "_x"):
                            ^
SyntaxError: invalid syntax

Run Code Online (Sandbox Code Playgroud)

我也试过删除引号。

def strip_right(df.columns, _x):
    if not text.endswith(_x):
        return text
    # else
    return text[:len(df.columns)-len(_x)]

Run Code Online (Sandbox Code Playgroud)

错误：

def strip_right(df.columns, _x):
                      ^
SyntaxError: invalid syntax

Run Code Online (Sandbox Code Playgroud)

python-3.x pandas

4
推荐指数

1
解决办法

2754
查看次数

AWS Glue python 安装 - 找不到版本

我尝试在 Python 中使用 AWSGlue 模块，但无法在终端中安装该模块。

sh-4.2$ pip install awsglue
Collecting awsglue
Could not find a version that satisfies the requirement awsglue (from versions: )
No matching distribution found for awsglue

Run Code Online (Sandbox Code Playgroud)

有没有办法解决这个问题，或者我可以从第三方下载它？

有人可以使用这个 AWSGlue 模块吗？

任何帮助，将不胜感激。

python amazon-web-services aws-glue

4
推荐指数

1
解决办法

3120
查看次数

SQL Server 透视一列并保留其他列

我正在尝试在 SQL Server 中透视表（52M+ 观测值），但是我没有得到我需要的结果。有 15 个描述，每个描述都有一个我需要调整的值。

原始数据框：

ID         |  Date      | Description| Value 
-------------------------------------------------
P1         | 2016-12-31 |       ABC  |         900
P2         | 2016-11-30 |       XYZ  |         800
P3         | 2016-10-31 |       MNO  |         700

Run Code Online (Sandbox Code Playgroud)

期望的结果

ID         |  Date      | ABC | XYZ  | MNO 
-------------------------------------------------
P1         | 2016-12-31 | 900  |     | 
P2         | 2016-11-30 |      | 800 |     
P3         | 2016-10-31 |      |     | 700

Run Code Online (Sandbox Code Playgroud)

我已经尝试在 PySpark 和 SQL 中对此进行转换，但尚未得到有效结果。

SQL 尝试：

SELECT [Date]
      ,[ID]
      ,[Description]
      ,[Value] …

Run Code Online (Sandbox Code Playgroud)

python sql sql-server pivot pyspark

4
推荐指数

1
解决办法

2541
查看次数

SQL 数据截断：日期值不正确

我收到这个错误。

数据截断：日期值不正确：第 1 行“dateFrom”列的“18-JUN-13”

这个错误的原因可能是什么？

INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('01', '01', '18-JUN-13', '26-NOV-13', '01'); 
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('02', '01', '18-JUN-85', '26-JUN-85', '02'); 
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('02', '03', '18-JUN-66', '26-JUN-66', '01'); 
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('04', '02', '18-OCT-13', '23-OCT-13', '01'); 
INSERT INTO Booking (hotelNo, guestNo, dateFrom, dateTo, roomNo) VALUES ('02', '03', '18-JUL-87', '26-AUG-87', '01'); 
INSERT INTO Booking (hotelNo, guestNo, …

Run Code Online (Sandbox Code Playgroud)

sql error-handling truncation oracle11g

3
推荐指数

1
解决办法

1万
查看次数

两个或多个 DataFrame 列的交集

我试图找到三个数据帧的交集，但是pd.intersect1d不喜欢使用三个数据帧。

import numpy as np
import pandas as pd
df1 = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('ABCD'))
df2 = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('BCDE'))
df3 = pd.DataFrame(np.random.randint(0,10,size=(10, 4)), columns=list('CDEF'))

inclusive_list = np.intersect1d(df1.columns, df2.columns, df3.columns)

Run Code Online (Sandbox Code Playgroud)

错误：

ValueError: The truth value of a Index is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Run Code Online (Sandbox Code Playgroud)

本inclusive_list应只包括列名C＆D.任何帮助，将不胜感激。谢谢你。

python numpy python-3.x pandas

3
推荐指数

1
解决办法

3697
查看次数

PDFMiner 提取单个单词 - LTText LTTextBox

我在下面的示例中使用 PDFMiner 生成单词 x,y 坐标，但是结果是一行一行的。如何将每个单词与另一个单词分开，而不是逐行拆分单词组（请参见下面的示例）。我已经尝试了PDFMiner 教程中的几个参数。LTTextBox并且LTText都被试过了。此外，我不能使用文本分析中通常使用的开始和结束偏移量。

这个 PDF 是一个很好的例子，它在下面的代码中使用。

http://www.africau.edu/images/default/sample.pdf

from pdfminer.layout import LAParams, LTTextBox, LTText
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import PDFPageAggregator

#Imports Searchable PDFs and prints x,y coordinates
fp = open('C:\sample.pdf', 'rb')
manager = PDFResourceManager()
laparams = LAParams()
dev = PDFPageAggregator(manager, laparams=laparams)
interpreter = PDFPageInterpreter(manager, dev)
pages = PDFPage.get_pages(fp)

for page in pages:
    print('--- Processing ---')
    interpreter.process_page(page)
    layout = dev.get_result()
    for lobj in layout:
        if isinstance(lobj, …

Run Code Online (Sandbox Code Playgroud)

python nlp pdfminer

3
推荐指数

1
解决办法

1484
查看次数

删除特定值之前的第一行 - 熊猫

我试图在组的初始值之前删除所有行。例如，如果 my max_value = 250，则应删除该值之前的组的所有行。如果该组再次出现 250 或更少的结果值，则不会将其删除。

import pandas as pd
df = pd.DataFrame({
    'date': ['2019-01-01','2019-02-01','2019-03-01', '2019-04-01',
             '2019-01-01','2019-02-01','2019-03-01', '2019-04-01',
             '2019-01-01','2019-02-01','2019-03-01', '2019-04-01'],
    'Asset': ['Asset A', 'Asset A', 'Asset A', 'Asset A', 'Asset A', 'Asset A', 'Asset B', 'Asset B',
             'Asset B', 'Asset B', 'Asset B', 'Asset B'],
    'Monthly Value': [100, 200, 300, 400, 500, 600, 100, 200, 300, 200, 300, 200]
})

unique_list = list(df['Asset'].unique())
max_value = 250
print(df)

          date    Asset  Monthly Value
0   2019-01-01  Asset A            100
1   2019-02-01 …

Run Code Online (Sandbox Code Playgroud)

3
推荐指数

1
解决办法

424
查看次数

Pandas - 用 Nan 替换重复项并保持行

如何在保留行的同时用 NaN 替换每个组的重复项？

我需要保留行而不删除并且可能保留第一个原始值首先出现的位置。

import pandas as pd
from datetime import timedelta

df = pd.DataFrame({
    'date': ['2019-01-01 00:00:00','2019-01-01 01:00:00','2019-01-01 02:00:00', '2019-01-01 03:00:00',
             '2019-09-01 02:00:00','2019-09-01 03:00:00','2019-09-01 04:00:00', '2019-09-01 05:00:00'],
    'value': [10,10,10,10,12,12,12,12],
    'ID': ['Jackie','Jackie','Jackie','Jackie','Zoop','Zoop','Zoop','Zoop',]
})

df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)


date    value   ID
0   2019-01-01 00:00:00 10  Jackie
1   2019-01-01 01:00:00 10  Jackie
2   2019-01-01 02:00:00 10  Jackie
3   2019-01-01 03:00:00 10  Jackie
4   2019-09-01 02:00:00 12  Zoop
5   2019-09-01 03:00:00 12  Zoop
6   2019-09-01 04:00:00 12  Zoop
7   2019-09-01 05:00:00 12  Zoop …

Run Code Online (Sandbox Code Playgroud)

3
推荐指数

1
解决办法

1401
查看次数

标签统计

sql ×2

amazon-web-services ×1

date ×1

error-handling ×1

hypothesis-test ×1

nlp ×1

r ×1

«
1
2
»