假设我有10gb的csv文件,我想使用DataFrame describe方法获取文件的摘要统计信息.
在这种情况下,首先我需要为所有10gb csv数据创建一个DataFrame.
text_csv=Pandas.read_csv("target.csv")
df=Pandas.DataFrame(text_csv)
df.describe()
Run Code Online (Sandbox Code Playgroud)
这是否意味着所有10gb都会被加载到内存中并计算统计数据?
我在网上环顾四周但找不到任何东西,但我可能错过了一篇关于此的文献.我在289分量矢量上运行基本神经网络以产生285分量矢量.在我的输入中,最后4个数据对于将输入的其余部分更改为输出的结果285至关重要.也就是说,输入是285 + 4,这样4将输入的其余部分变形为输出.
但是当对此运行神经网络时,我不确定如何反映这一点.我是否需要对其余输入使用卷积?我希望我的系统能够强调影响其他285的4个数据点.我仍然是所有这些的新手,所以一些指针会很棒!
再说一次,如果已经写了一些东西,那么那也是很棒的.
当我尝试下载运行所需的依赖项时,我遇到了麻烦graphlab.我import graphlab得到以下内容:
ACTION REQUIRED: Dependencies libstdc++-6.dll and libgcc_s_seh-1.dll not found.
1. Ensure user account has write permission to C:\Users\DANISUAR\AppData\Local\Continuum\Miniconda2\envs\gl-env\lib\site-packages\graphlab
2. Run graphlab.get_dependencies() to download and install them.
3. Restart Python and import graphlab again.
By running the above function, you agree to the following licenses.
* libstdc++: https://gcc.gnu.org/onlinedocs/libstdc++/manual/license.html
* xz: http://git.tukaani.org/?p=xz.git;a=blob;f=COPYING
Run Code Online (Sandbox Code Playgroud)
所以我尝试运行graphlab.get_dependencies(),我收到以下错误:
In [2]: gl.get_dependencies()
By running this function, you agree to the following licenses.
* libstdc++: https://gcc.gnu.org/onlinedocs/libstdc++/manual/license.html
* xz: http://git.tukaani.org/?p=xz.git;a=blob;f=COPYING
Downloading xz.
Extracting …Run Code Online (Sandbox Code Playgroud) 我对计算AUC(曲线下的面积)以评估推荐系统结果感到困惑。
如果我们有交叉验证数据,例如(用户,产品,等级)。如何为每个用户选择正样本和负样本来计算AUC?
选择在数据集中为每个用户出现的产品作为正样本,而在数据集中没有出现其余的作为负样本,是否很好?我认为这种方法无法找出那些“真实”的负样本,因为用户有机会喜欢这些在负样本中的产品。
使用Pandas DataSeries在Jupyter中工作我有一个包含如下行的数据集:
color: white
engineType: diesel
make: Ford
manufacturingYear: 2004
accidentCount: 123
Run Code Online (Sandbox Code Playgroud)
我需要做的是绘制颜色/ engineType/make的所有排列的制造年份(x轴)的事故计数图表(y轴).任何想法如何处理这个?
为了加快速度,我有了这个初始设置:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import random
colors = ['white', 'black','silver']
engineTypes = ['diesel', 'petrol']
makes = ['ford', 'mazda', 'subaru']
years = range(2000,2005)
rowCount = 100
def randomEl(data):
rand_items = [data[random.randrange(len(data))] for item in range(rowCount)]
return rand_items
df = DataFrame({
'color': Series(randomEl(colors)),
'engineType': Series(randomEl(engineTypes)),
'make': Series(randomEl(makes)),
'year': Series(randomEl(years)),
'accidents': Series([int(1000*random.random()) for i in range(rowCount)])
})
Run Code Online (Sandbox Code Playgroud) 我想知道scikit-learn包或任何其他python包中是否存在分层分类的实现。
提前非常感谢您。
import pandas as pd
import os
import glob
all_data = pd.DataFrame()
for f in glob.glob("output/test*.xlsx")
df = pd.read_excel(f)
all_data = all_data.append(df, ignore_index=True)
Run Code Online (Sandbox Code Playgroud)
我想将多个xlsx文件放入一个xlsx中.excel文件位于输出/测试文件夹中.列是相同的,但我希望连续行.上面的代码似乎不起作用
数据科学和机器学习项目中文件的正确命名约定是什么?
我相信Python类的文件名应该是一个名词。但是,我想明确指出是将类命名为主语还是宾语。
我应该使用哪个?
1)输出图的类。
visualization.py,visualizer.py,vis.py,或...
2)分析数据集并输出包含结果的文件的类。
analysis.py,analyzer.py或...
3)将数据集隐藏为pickle文件的类。
preprocessor.py,preprocessing.py,prepare.py,或...
(我检查了PEP8,但找不到文件名的明确命名转换)
所以我有一个充满点的2D散点图(x,y)。我想绘制k条垂直线(x_1 = a, x_2 = b, ..., x_k = k),以便将点划分为k组。
最佳解决方案将使每个组的平均方差最小y_value。
什么是合适的算法?听起来像k均值,但我的约束是线条必须垂直。
我正在使用的库
import pixellib
from pixellib.instance import instance_segmentation
import cv2
import matplotlib.pyplot as plt
Run Code Online (Sandbox Code Playgroud)
剧本:
segment_image = instance_segmentation()
segment_image.load_model('mask_rcnn_coco.h5')
segmask, output = segment_image.segmentImage("images\example2.jpeg", show_bboxes = True)
cv2.imwrite("exampleoutput.jpeg", output)
print(output.shape)
Run Code Online (Sandbox Code Playgroud)
我不明白为什么它不能突出显示图像的不同部分。
这是我的输出:
我研究了其他人如何使用 Pixellib,它与他们的完美配合。
我期待的输出:
image-processing feature-extraction image-segmentation data-science pixellib
data-science ×10
python ×6
pandas ×3
algorithm ×1
csv ×1
dataframe ×1
excel ×1
graphlab ×1
jupyter ×1
k-means ×1
merge ×1
nlp ×1
pixellib ×1
scikit-learn ×1
tensorflow ×1