R中是否有等效的dir函数(python)?
当我在R中加载一个库时 -
库(vrtest)
我想知道该库中的所有函数.
在Python中,dir(vrtest)将是vrtest的所有属性的列表.
我想一般来说,我正在寻找最好的方法来获得R的帮助,同时在Linux上的ESS中运行它.我看到我安装的软件包的所有这些手册页,但我不确定如何访问它们.
谢谢
我有50 000多家公司的数据库,不断更新(每月200多个).
重复内容是一个巨大的问题,因为名称并不总是严格/正确:
"超级1商店"
"超级一店"
"超级1商店"
编辑:另一个例子......可能需要不同的方法:
"Amy's Pizza"<--->"Amy and Company的有机比萨"
我们需要工具来扫描数据以寻找相似的名称.我对Levenshtein Distance和LCS有一些经验,但如果2个字符串相似,它们可以很好地进行比较...
在这里我需要扫描50 000个名字,每个可以分别对应并计算...总体相似度等级...
我需要建议如何攻击这个问题,预期的结果是有一个列表与10-20组非常相似的名称,并可能进一步调整灵敏度以获得更多结果.
这是我的情况 -
In[1]: data
Out[1]:
Item Type
0 Orange Edible, Fruit
1 Banana Edible, Fruit
2 Tomato Edible, Vegetable
3 Laptop Non Edible, Electronic
In[2]: type(data)
Out[2]: pandas.core.frame.DataFrame
Run Code Online (Sandbox Code Playgroud)
我想要做的只是创建一个数据框Fruits,所以我需要groupby这样的方式Fruit存在于Type.
我试过这样做:
grouped = data.groupby(lambda x: "Fruit" in x, axis=1)
我不知道这是不是这样做,我有点难以理解groupby.我如何才能获得新DataFrame的Fruits?
大家下午好,我有这个新问题,希望你能再次帮助我:
我有一个矢量,您可以在下一个链接中找到:
https://drive.google.com/file/d/0B4WGV21GqSL5Y09GU240N3F1YkU/edit?usp=sharing
绘制的矢量看起来像这样:

如您所见,图中的某些部分数据的行为几乎是线性的.这就是我在说的:

我需要的是根据数据中某些部分的线性来找到那些断点.你可能会问自己,当数据的一部分不是线性的时候会发生什么,好吧,算法不会采用那个部分.
我希望你能帮助我,谢谢.
我正在尝试在Pandas DataFrame的matplotlib图上设置x轴的刻度(时间步长).我的目标是使用DataFrame的第一列作为刻度,但到目前为止我还没有成功.
我到目前为止的尝试包括:
尝试1:
#See 'xticks'
data_df[header_names[1]].plot(ax=ax, title="Roehrig Shock Data", style="-o", legend=True, xticks=data_df[header_names[0]])
Run Code Online (Sandbox Code Playgroud)
尝试2:
ax.xaxis.set_ticks(data_df[header_names[0]])
Run Code Online (Sandbox Code Playgroud)
header_names 只是列标题名称的列表,数据帧如下:
Compression Velocity Compression Force
1 0.000213 6.810879
2 0.025055 140.693200
3 0.050146 158.401500
4 0.075816 171.050200
5 0.101011 178.639500
6 0.126681 186.228800
7 0.150925 191.288300
8 0.176597 198.877500
9 0.202269 203.937000
10 0.227466 208.996500
11 0.252663 214.056000
Run Code Online (Sandbox Code Playgroud)
以下是CSV格式的数据:
Compression Velocity,Compression Force
0.0002126891606,6.810879
0.025055073079999997,140.6932
0.050145696,158.4015
0.07581600279999999,171.0502
0.1010109232,178.6395
0.12668120459999999,186.2288
0.1509253776,191.2883
0.1765969798,198.8775
0.2022691662,203.937
0.2274659662,208.9965
0.2526627408,214.056
Run Code Online (Sandbox Code Playgroud)
这是一个阅读和绘制图表的实现:
data_df = pd.read_csv(file).astype(float)
fig = Figure()
ax = fig.add_subplot(111)
ax.set_xlabel("Velocity …Run Code Online (Sandbox Code Playgroud) 我有一个像这样的pandas数据框:
+-----------+------------------+---------------+------------+
| AccountID | RegistrationWeek | Weekly_Visits | Visit_Week |
+-----------+------------------+---------------+------------+
| ACC1 | 2015-01-25 | 0 | NaT |
| ACC2 | 2015-01-11 | 0 | NaT |
| ACC3 | 2015-01-18 | 0 | NaT |
| ACC4 | 2014-12-21 | 14 | 2015-02-12 |
| ACC5 | 2014-12-21 | 5 | 2015-02-15 |
| ACC6 | 2014-12-21 | 0 | 2015-02-22 |
+-----------+------------------+---------------+------------+
Run Code Online (Sandbox Code Playgroud)
它本质上是一种各种访问日志,因为它包含创建队列分析所需的所有数据.
每个注册周都是一个队列.要知道我可以使用的人群中有多少人:
visit_log.groupby('RegistrationWeek').AccountID.nunique()
Run Code Online (Sandbox Code Playgroud)
我想要做的是创建一个数据透视表,其中注册周作为键.列应为visit_weeks,值应为每周访问次数超过0次的唯一帐户ID的计数.
连同每个队列中的总帐户,我将能够显示百分比而不是绝对值.
最终产品看起来像这样:
+-------------------+-------------+-------------+-------------+
| Registration Week | Visit_week1 | …Run Code Online (Sandbox Code Playgroud) 我一直在使用numpy/scipy进行数据分析.我最近开始学习熊猫.
我已经完成了一些教程,我试图了解Pandas在Numpy/Scipy上的主要改进是什么.
在我看来,Pandas的关键思想是在数据框中包含不同的numpy数组,其中包含一些实用函数.
有什么关于熊猫的革命性的东西,我只是愚蠢地错过了吗?
这是一个例子,我有这个数据;
datetime keyword COUNT
0 2016-01-05 a_click 100
1 2016-01-05 a_pv 200
2 2016-01-05 b_pv 150
3 2016-01-05 b_click 90
4 2016-01-05 c_pv 120
5 2016-01-05 c_click 90
Run Code Online (Sandbox Code Playgroud)
我想将其转换为这些数据
datetime keyword ctr
0 2016-01-05 a 0.5
1 2016-01-05 b 0.6
2 2016-01-05 c 0.75
Run Code Online (Sandbox Code Playgroud)
我可以用脏代码转换数据,但我想以优雅的方式做到这一点.
我想将我的json数据转换为R中的数据框.这是我到目前为止所做的:
library("rjson")
result <- fromJSON(file ="mypath/data.json")
json_data_frame <- as.data.frame(result)
Run Code Online (Sandbox Code Playgroud)
但是,它会出现这样的错误:
data.frame中的错误(company_id ="12345678",country_name ="China",:参数意味着行数不同:1,2,0
我也尝试了以下代码:
library("rjson")
result <- fromJSON(file ="mypath/data.json")
final_data <- do.call(rbind, result)
Run Code Online (Sandbox Code Playgroud)
这个错误出现了:
警告消息:在(function(...,deparse.level = 1)中:结果列数不是向量长度的倍数(arg 3)
我不知道这里发生了什么,我怎么解决它.如果我能得到一些帮助,我将不胜感激.
以下是我的json数据的一些部分:
{"business_id":"1234567","Country_name":"中国","小时":{"星期一":{"关闭":"02:00","开放":"11:00"},"星期二":{"close":"02:00","open":"11:00"},"星期五":{"关闭":"02:00","打开":"11:00"}, "星期三":{"关闭":"02:00","打开":"11:00"},"星期四":{"关闭":"02:00","打开":"11:00" },"星期日":{"关闭":"02:00","打开":"12:00"},"星期六":{"关闭":"02:00","打开":"12: 00"}},"open":true,"categories":["Bars","Nightlife","Restaurants"],"city":"Beijing","review_count":5,"name":"陈氏酒吧","邻里":["West End"],"attributes":{"Take-out":true,"Wi-Fi":"free","Good For":{"dessert":false,"latenight" ":false,"午餐":假,"吃饭":假,"早餐":假,"早午餐":假,"好跳舞":虚假,"噪音等级":"响亮","需要预约" :false,"Delivery":false,"Ambience":{"romantic":false,"intimate":false,"classy":false,"hipster":false,"divey":false,"touristy":false, "时髦":虚假,"高档":虚假,"随意":虚假},"欢乐时光":真实,"停车":{"车库":虚假,"街道":虚假,"验证":虚假,"很多":虚假,"代客":虚假},"有电视":是的, "户外座位":虚假,"服装":"休闲","酒精":"full_bar","服务员服务":真实,"接受信用卡":真实,"对孩子有益":虚假,"适合团体":true,"Caters":true,"Price Range":1},"type":"business"}
最好在进行任何探索性数据分析之前将数据分为训练集和测试集,还是仅根据训练数据进行所有探索?
我正在做我的第一个完整的机器学习项目(课程顶点项目的推荐系统),并且正在寻找操作顺序的说明。我的粗略概述是导入和清理,进行探索性分析,训练我的模型,然后在测试集上进行评估。
我现在正在进行探索性数据分析-最初没有什么特别的,仅从变量分布开始。但是我不确定:在探索性分析之前或之后,我应该将数据分为训练集和测试集吗?
我不想通过检查测试集来潜在地污染算法训练。但是,我也不想错过视觉趋势,因为视觉趋势可能反映了我的不良人眼在过滤后可能看不到的真实信号,因此潜在地错过了在设计算法时研究重要且相关的方向的机会。
我像这样检查了其他线程,但是发现的线程似乎在询问更多有关正则化或原始数据实际操作的问题。我发现的答案很复杂,但优先考虑的是拆分。但是,我不打算在拆分数据之前对数据进行任何实际的操作(除了检查分布并可能进行某些因子转换外)。
您在自己的工作中做什么工作,为什么?
感谢您帮助新程序员!
艾米
data-analysis ×10
pandas ×5
python ×5
r ×3
numpy ×2
adjustment ×1
ess ×1
grouping ×1
json ×1
matlab ×1
matplotlib ×1
mysql ×1
php ×1
retention ×1
scipy ×1
statistics ×1