标签: data-science

使用python pandas的大型csv文件的摘要统计信息

假设我有10gb的csv文件,我想使用DataFrame describe方法获取文件的摘要统计信息.

在这种情况下,首先我需要为所有10gb csv数据创建一个DataFrame.

text_csv=Pandas.read_csv("target.csv")
df=Pandas.DataFrame(text_csv)
df.describe()
Run Code Online (Sandbox Code Playgroud)

这是否意味着所有10gb都会被加载到内存中并计算统计数据?

python csv dataframe pandas data-science

5
推荐指数
1
解决办法
4584
查看次数

如何让我的神经网络强调某些数据比其他数据更重要?

我在网上环顾四周但找不到任何东西,但我可能错过了一篇关于此的文献.我在289分量矢量上运行基本神经网络以产生285分量矢量.在我的输入中,最后4个数据对于将输入的其余部分更改为输出的结果285至关重要.也就是说,输入是285 + 4,这样4将输入的其余部分变形为输出.

但是当对此运行神经网络时,我不确定如何反映这一点.我是否需要对其余输入使用卷积?我希望我的系统能够强调影响其他285的4个数据点.我仍然是所有这些的新手,所以一些指针会很棒!

再说一次,如果已经写了一些东西,那么那也是很棒的.

python neural-network data-science tensorflow

5
推荐指数
1
解决办法
989
查看次数

下载Graphlab依赖项的问题get_dependencies()

当我尝试下载运行所需的依赖项时,我遇到了麻烦graphlab.我import graphlab得到以下内容:

ACTION REQUIRED: Dependencies libstdc++-6.dll and libgcc_s_seh-1.dll not found.

1. Ensure user account has write permission to C:\Users\DANISUAR\AppData\Local\Continuum\Miniconda2\envs\gl-env\lib\site-packages\graphlab
2. Run graphlab.get_dependencies() to download and install them.
3. Restart Python and import graphlab again.

By running the above function, you agree to the following licenses.

* libstdc++: https://gcc.gnu.org/onlinedocs/libstdc++/manual/license.html
* xz: http://git.tukaani.org/?p=xz.git;a=blob;f=COPYING
Run Code Online (Sandbox Code Playgroud)

所以我尝试运行graphlab.get_dependencies(),我收到以下错误:

In [2]: gl.get_dependencies()

By running this function, you agree to the following licenses.

* libstdc++: https://gcc.gnu.org/onlinedocs/libstdc++/manual/license.html
* xz: http://git.tukaani.org/?p=xz.git;a=blob;f=COPYING

Downloading xz.
Extracting …
Run Code Online (Sandbox Code Playgroud)

python graphlab data-science

5
推荐指数
1
解决办法
6021
查看次数

如何计算推荐系统评估的AUC(曲线下面积)

我对计算AUC(曲线下的面积)以评估推荐系统结果感到困惑。

如果我们有交叉验证数据,例如(用户,产品,等级)。如何为每个用户选择正样本和负样本来计算AUC?

选择在数据集中为每个用户出现的产品作为正样本,而在数据集中没有出现其余的作为负样本,是否很好?我认为这种方法无法找出那些“真实”的负样本,因为用户有机会喜欢这些在负样本中的产品。

machine-learning data-science

5
推荐指数
1
解决办法
2464
查看次数

如何从pandas DataSeries中提取独特的排列?

使用Pandas DataSeries在Jupyter中工作我有一个包含如下行的数据集:

color: white
engineType: diesel
make: Ford
manufacturingYear: 2004
accidentCount: 123
Run Code Online (Sandbox Code Playgroud)

我需要做的是绘制颜色/ engineType/make的所有排列的制造年份(x轴)的事故计数图表(y轴).任何想法如何处理这个?

为了加快速度,我有了这个初始设置:

import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import random


colors = ['white', 'black','silver']
engineTypes = ['diesel', 'petrol']
makes = ['ford', 'mazda', 'subaru']
years = range(2000,2005)

rowCount = 100

def randomEl(data):
    rand_items = [data[random.randrange(len(data))] for item in range(rowCount)]
    return rand_items


df = DataFrame({
    'color': Series(randomEl(colors)),
    'engineType': Series(randomEl(engineTypes)),
    'make': Series(randomEl(makes)),
    'year': Series(randomEl(years)),
    'accidents': Series([int(1000*random.random()) for i in range(rowCount)])
})
Run Code Online (Sandbox Code Playgroud)

python pandas jupyter data-science

5
推荐指数
1
解决办法
275
查看次数

sklearn中的等级分类

我想知道scikit-learn包或任何其他python包中是否存在分层分类的实现。

提前非常感谢您。

nlp machine-learning scikit-learn data-science

5
推荐指数
1
解决办法
1776
查看次数

在python中一起附加多个Excel文件(xlsx)

import pandas as pd
import os
import glob


all_data = pd.DataFrame()
for f in glob.glob("output/test*.xlsx")
    df = pd.read_excel(f)
    all_data = all_data.append(df, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)

我想将多个xlsx文件放入一个xlsx中.excel文件位于输出/测试文件夹中.列是相同的,但我希望连续行.上面的代码似乎不起作用

python excel merge pandas data-science

5
推荐指数
2
解决办法
6188
查看次数

数据科学项目的Python文件命名约定

数据科学和机器学习项目中文件的正确命名约定是什么?

我相信Python类的文件名应该是一个名词。但是,我想明确指出是将类命名为主语还是宾语。

我应该使用哪个?

1)输出图的类。

visualization.pyvisualizer.pyvis.py,或...

2)分析数据集并输出包含结果的文件的类。

analysis.pyanalyzer.py或...

3)将数据集隐藏为pickle文件的类

preprocessor.pypreprocessing.pyprepare.py,或...

(我检查了PEP8,但找不到文件名的明确命名转换)

python naming-conventions data-science

5
推荐指数
1
解决办法
386
查看次数

如何将2D点划分为间隔(仅使用垂直线)?

所以我有一个充满点的2D散点图(x,y)。我想绘制k条垂直线(x_1 = a, x_2 = b, ..., x_k = k),以便将点划分为k组。

最佳解决方案将使每个组的平均方差最小y_value

什么是合适的算法?听起来像k均值,但我的约束是线条必须垂直。

algorithm cluster-analysis k-means data-science

5
推荐指数
1
解决办法
50
查看次数

PixelLib 无法正确检测对象

我正在使用的库

import pixellib
from pixellib.instance import instance_segmentation
import cv2
import matplotlib.pyplot as plt
Run Code Online (Sandbox Code Playgroud)

剧本:

segment_image = instance_segmentation()
segment_image.load_model('mask_rcnn_coco.h5')
segmask, output = segment_image.segmentImage("images\example2.jpeg", show_bboxes = True)
cv2.imwrite("exampleoutput.jpeg", output)
print(output.shape)
Run Code Online (Sandbox Code Playgroud)

我不明白为什么它不能突出显示图像的不同部分。

这是我的输出:

这是我的输出

我研究了其他人如何使用 Pixellib,它与他们的完美配合。

我期待的输出:

我期待的输出

image-processing feature-extraction image-segmentation data-science pixellib

5
推荐指数
1
解决办法
765
查看次数