标签: data-analysis

如果变量包含的只是数字，如何知道变量是分类变量还是数值变量？

我有一个数据集，其中有几个Variables.

我想确定，除了唯一值计数方法之外，我们如何判断变量是分类变量还是数值变量，例如我的一个变量疾病类型有 31 个唯一值，而其他变量Variable Distance有Office25 个唯一值，两者都在数字的形式。

python statistics data-analysis dataframe pandas

Sau*_*shi

2019 02-21

2
推荐指数

1
解决办法

3165
查看次数

列出数据框列中存在的所有数据类型

如何列出数据框df的Name列中存在的所有数据类型？

Name 1.0 XCY
Run Code Online (Sandbox Code Playgroud)
有些可能是字符串，有些可能是浮点数等。

python types data-analysis dataframe pandas

x89*_*x89

2021 09-15

2
推荐指数

1
解决办法

261
查看次数

每次行程的距离

我想计算两个 GPS 坐标（每个 tripId 的第一个和最后一个）之间的距离，以获得每次旅行的距离，我的数据框看起来像这样

tripId latitude longitude timestamp 0 1817603 53.155273 8.207176 2021-05-24 00:29:22 1 1817603 53.155271 8.206898 2021-05-24 00:29:38 2 1817603 53.155213 8.206314 2021-05-24 00:29:44 3 1817603 53.155135 8.206429 2021-05-24 00:29:50 4 1817603 53.154950 8.206565 2021-05-24 00:29:56 ... ... ... ... ... 195 1817888 53.092805 8.212095 2021-05-24 08:27:54 196 1817888 53.093024 8.211756 2021-05-24 08:27:59 197 1817888 53.093305 8.211383 2021-05-24 08:28:05 198 1817888 53.093594 8.211026 2021-05-24 08:28:10 199 1817888 53.093853 8.210708 2021-05-24 08:28:15
Run Code Online (Sandbox Code Playgroud)
我使用每个步骤都这样做了，s = pd.Series(haversine_vector(df, df.shift(),Unit.KILOMETERS), index=df.index, …

python data-analysis pandas

Her*_*ine

2021 11-05

2
推荐指数

1
解决办法

104
查看次数

使用 ggplot 与使用基本 R 函数时的图形结果不同？

我正在为 R 中的一个项目创建一些简单的图表。使用 ggplot2 包时，我得到了意想不到的结果，因此我默认回到基本 R。在基本 R 中重新创建绘图时，我得到了正确的结果。现在我只是想知道为什么会产生不同的结果？
\n
最初，这是使用 ggplot 的代码和结果（这是不正确的）：
\n
ggplot(KBUF, aes(x = TEMP, y = HGHT)) +\ngeom_line(aes(color = "Temperature"), size = 1) +\ngeom_line(aes(x = DEWP, color = "Dew Point"), size = 1) +\nscale_color_manual(values = c("blue", "red")) +\nlabs(x = "Temperature (\xc2\xb0C)", y = "Height")\n
Run Code Online (Sandbox Code Playgroud)\n
\n
我在 R 基础上绘制的正确图
\n
\n
有以下代码：
\n
plot(KNKX$TEMP, KNKX$HGHT, type = "l", col = "blue", xlab = "Temperature (\xc2\xb0C)", ylab = "Height")\n\nlines(KNKX$DEWP, KNKX$HGHT, col = "red")\n\nlegend("topright", legend = c("Temperature", "Dew Point"), …
Run Code Online (Sandbox Code Playgroud)

graphing plot r data-analysis ggplot2

dav*_*ave

2023 06-05

2
推荐指数

1
解决办法

60
查看次数

在Perl中解析多行数据

我有一些我需要分析的数据.数据是多行的,每个块由换行符分隔.所以,它是这样的

Property 1: 1234 Property 2: 34546 Property 3: ACBGD Property 1: 1234 Property 4: 4567 Property 1: just Property 3: an Property 5: simple Property 6: example
Run Code Online (Sandbox Code Playgroud)
我需要过滤掉那些存在某些特定属性的数据块.例如,只有具有属性4的那些,只有具有属性3和6的那些等等.我可能还需要根据这些属性的值进行选择,例如,只有具有属性3及其值的那些块是'一个'.

我将如何在Perl中执行此操作.我尝试用"\n"拆分它,但似乎没有正常工作.我错过了什么吗？

perl split multiline text-parsing data-analysis

sfa*_*tor

2010 11-04

1
推荐指数

1
解决办法

7905
查看次数

如何从原始事件的SQL表中计算渠道分析？

如何从原始事件的SQL表中计算渠道分析？

例如，如果渠道为事件1->事件2->事件3，则数据为：

user1, event1, time1 user1, event2, time2 user1, eventOther, time3 user2, event2, time4 user2, event1, time5 user3, event1, time6 user3, event2, time7 user4, event1, time8 user5, event1, time9 user6, event3, time10 user1, event3, time11 user1, event1, time12 user1, event3, time13
Run Code Online (Sandbox Code Playgroud)
然后，该渠道将是：

event1: 5 (users 1, 2, 3, 4, 5) event2: 2 (users 1 and 3) event3: 1 (user 1 only)
Run Code Online (Sandbox Code Playgroud)
类似于以下问题：用于渠道分析的SQL或OLAP模式设计

就像这样：

Query 1: select distinct user ids where event1 Query 2: select distinct user ids where event1 …
Run Code Online (Sandbox Code Playgroud)

sql data-analysis

use*_*794

2017 05-23

1
推荐指数

1
解决办法

876
查看次数

如果切片无法解决内存错误，如何合并两个大型numpy数组？

我有两个numpy数组container1以及container2where container1.shape = (900,4000)和container2.shape = (5000,4000)。使用合并它们会vstack导致MemoryError。搜索了此处发布的旧问题之后，我尝试使用slicing以下方法将它们合并：

mergedContainer = numpy.vstack((container1, container2[:1000])) mergedContainer = numpy.vstack((mergedContainer, container[1000:2500])) mergedContainer = numpy.vstack((mergedContainer, container[2500:3000]))
Run Code Online (Sandbox Code Playgroud)
但是之后即使我这样做：

mergedContainer = numpy.vstack((mergedContainer, container[3000:3100]))
Run Code Online (Sandbox Code Playgroud)
它导致MemoryError。

我正在使用Python 3.4.3 (32-Bit)并且想解决而无需转移到64-Bit。

python numpy data-analysis

Teh*_*mas

lucky-day

1
推荐指数

1
解决办法

2684
查看次数

如何使用Ruby以CSV格式排除以A,B或C开头的行

我写了以下代码:

dataexc = data.select do |element| element[:cz_name] || element[:tor_other_cz_name] false if [0] == “A” || [0] == “B” || [0] == “C” end end
Run Code Online (Sandbox Code Playgroud)
这将返回NameError:undefined局部变量或main:Object的方法"A"

我试图排除所有以A,B或C开头的位置,这些位置存在于我的电子表格中的两列中.我已经将CSV文件放入"数据"中的数组中,现在我正在使用"dataexc"来尝试缩小条件以排除具有这些位置的行.任何人都可以帮我写这个有效吗？

我也试图弄清楚如何解决一个编码错误(？)导致我的一个CSV用irb中的错误数量的值打开.如果您认为您可以帮助我(任何和所有帮助都表示赞赏!),有更多关于我在这里做什么的信息.

更新:

如果其他人试图找到初学者可以理解的解决方案,-ABC代码的当前工作状态是:

cleaned_data = data.reject do |e| letters = ["A", "B", "C"] if e[:cz_name] letters.include?(e[:cz_name][0]) end end cleaned_data = cleaned_data.reject do |e| letters = ["A", "B", "C"] if e[:tor_other_cz_name] letters.include?(e[:tor_other_cz_name][0]) end end
Run Code Online (Sandbox Code Playgroud)
如果你要居高临下,请不要在这里发帖.

也就是说,如果有其他人想要帮助这个项目,我会非常感激,我会在Github上为你提供的.

ruby csv string boolean data-analysis

len*_*hok

2016 08-26

1
推荐指数

1
解决办法

88
查看次数

有没有办法使用Pandas或Matplotlib来绘制Pandas时间序列密度？

我很难绘制熊猫时间序列的密度.

我有一个数据框,其中包含完美组织的时间戳,如下所示:

这是一个网络日志,我想显示时间戳的密度,它表示在特定时间段内有多少访问者.

我的解决方案atm是提取每个时间戳的年,月,周和日,并对它们进行分组.如下所示:

但我不认为这是处理时间的有效方式.我找不到任何关于此的好信息,更多的是关于在日期或某事上绘制计算值的信息.

那么,有人对如何绘制熊猫时间序列有任何建议吗？

非常感激!

data-visualization machine-learning matplotlib data-analysis pandas

Ada*_*Liu

lucky-day

1
推荐指数

1
解决办法

311
查看次数

如何使用sed或awk在开始子字符串和结束子字符串的基础上提取行部分

我有一个文本没有空格的多行文件.

Thereisacat;whichisverycute.Thereisadog;whichisverycute. Thereisacat;whichisverycute.Thereisadog;whichisverycute.
Run Code Online (Sandbox Code Playgroud)
我想提取猫和可爱之间的字符串(第一次出现不是第二次),即输出

;whichisvery ;whichisvery
Run Code Online (Sandbox Code Playgroud)
我接近得到它,但我最终得到了从猫到最后可爱的字符串从这里的命令.

sed -e 's/.*cat$.*$cute.*/\1/'
Run Code Online (Sandbox Code Playgroud)
我正进入(状态

;whichisverycute.Thereisadog;whichisvery ;whichisverycute.Thereisadog;whichisvery
Run Code Online (Sandbox Code Playgroud)
我如何从cat到第一次出现可爱的文字而不是最后？

linux awk sed data-analysis

Mia*_*mad

2018 06-27

1
推荐指数

1
解决办法

651
查看次数

标签统计

data-analysis ×10

pandas ×4

python ×4

dataframe ×2

awk ×1

boolean ×1

csv ×1

data-visualization ×1

ggplot2 ×1

graphing ×1

linux ×1

machine-learning ×1

matplotlib ×1

multiline ×1

numpy ×1

perl ×1

plot ×1

r ×1

ruby ×1

sed ×1

split ×1

sql ×1

statistics ×1

string ×1

text-parsing ×1

types ×1

标签 统计

标签统计