我正在努力寻找看似非常简单的事情.我有一个包含很长字符串的pandas数据框.
df = pd.DataFrame({'one' : ['one', 'two',
'This is very long string very long string very long string veryvery long string']})
Run Code Online (Sandbox Code Playgroud)
现在,当我尝试打印相同的内容时,我看不到完整的字符串,而是只看到字符串的一部分.
我尝试了以下选项
print(df.iloc[2]) to_htmlto_stringset_printoptions帮助我.任何想法都赞赏.看起来很简单,但无法得到它!
我有一个数据框df,看起来像这样.日期和时间是2个多级索引
observation1 observation2
date Time
2012-11-02 9:15:00 79.373668 224
9:16:00 130.841316 477
2012-11-03 9:15:00 45.312814 835
9:16:00 123.776946 623
9:17:00 153.76646 624
9:18:00 463.276946 626
9:19:00 663.176934 622
9:20:00 763.77333 621
2012-11-04 9:15:00 115.449437 122
9:16:00 123.776946 555
9:17:00 153.76646 344
9:18:00 463.276946 212
Run Code Online (Sandbox Code Playgroud)
我想在每日数据块上做一些复杂的过程.
Psuedo代码看起来像
for count in df(level 0 index) :
new_df = get only chunk for count
complex_process(new_df)
Run Code Online (Sandbox Code Playgroud)
所以,首先,我找不到只访问日期块的方法
2012-11-03 9:15:00 45.312814 835
9:16:00 123.776946 623
9:17:00 153.76646 624
9:18:00 463.276946 626
9:19:00 663.176934 622
9:20:00 763.77333 …Run Code Online (Sandbox Code Playgroud) 我正在使用示例数据集来学习聚类。此数据集包含关键字的出现次数。
由于所有都是不同关键字的出现次数,是否可以不缩放值并按原样使用它们?
我在互联网上阅读了几篇文章,其中强调缩放很重要,因为它会调整频率的相对性。由于大多数频率为 0 (95%+),z 分数缩放会改变分布的形状,我觉得这可能是个问题,因为我正在改变数据的性质。
我正在考虑根本不改变价值观以避免这种情况。这会影响我从聚类中得到的结果的质量吗?