这是对数刻度中的网络IP频率等级图.完成此部分后,我试图使用Python 2.7在log-log标度上绘制最佳拟合线.我必须使用matplotlib的"symlog"轴刻度,否则一些值不能正确显示,一些值会被隐藏.
我正在绘制的数据的X值是URL,Y值是URL的相应频率.
我的数据看起来像这样:
'http://www.bing.com/search?q=d2l&src=IE-TopResult&FORM=IETR02&conversationid= 123 0.00052210688591'
`http://library.uc.ca/ 118 4.57782298326e-05`
`http://www.bing.com/search?q=d2l+uofc&src=IE-TopResult&FORM=IETR02&conversationid= 114 4.30271029472e-06`
`http://www.nature.com/scitable/topicpage/genetics-and-statistical-analysis-34592 109 1.9483268261e-06`
Run Code Online (Sandbox Code Playgroud)
数据包含第一列中的URL,第二列中的相应频率(相同URL存在的次数),最后是第3列中传输的字节.首先,我只使用第1列和第2列进行此分析.共有2,465个x值或唯一网址.
以下是我的代码
import os
import matplotlib.pyplot as plt
import numpy as np
import math
from numpy import *
import scipy
from scipy.interpolate import *
from scipy.stats import linregress
from scipy.optimize import curve_fit
file = open(filename1, 'r')
lines = file.readlines()
result = {}
x=[]
y=[]
for line in lines:
course,count,size = line.lstrip().rstrip('\n').split('\t')
if course not in result:
result[course] = int(count)
else:
result[course] += …Run Code Online (Sandbox Code Playgroud) python中的.split(' ')vs之间有根本区别.split()吗?我相信.split()的默认值是空格,因此两者应该相同,但我在hackerrank 上得到不同的结果。
这是我的名为 df 的数据框
University Subject Colour
Melb Math Red
English Blue
Sydney Math Green
Arts Yellow
English Green
Ottawa Med Blue
Math Yellow
Run Code Online (Sandbox Code Playgroud)
University 和 Subject 都是此数据框的索引键
当我这样做时
print(df.to_dict('index'))
Run Code Online (Sandbox Code Playgroud)
我得到
{(Melb, Math): {'Colour': Red}, (Melb, English): {'Colour': Blue}, ...
Run Code Online (Sandbox Code Playgroud)
当我这样做时
print(df["Colour"])
Run Code Online (Sandbox Code Playgroud)
我明白了
University Subject Colour
Melb Math Red
English Blue
Sydney Math Green
Arts Yellow
English Green
Ottawa Med Blue
Math Yellow
Run Code Online (Sandbox Code Playgroud)
当我做
print(df["University"])
Run Code Online (Sandbox Code Playgroud)
我收到一个错误
KeyError: 'University'
Run Code Online (Sandbox Code Playgroud)
我想要的是一种分别读取每个值的方法
我想读大学,再读一次主题,第三次读颜色
怎么做?