小编Yan*_*uru的帖子

在pandas数据帧中完全打印非常长的字符串

我正在努力寻找看似非常简单的事情.我有一个包含很长字符串的pandas数据框.

df = pd.DataFrame({'one' : ['one', 'two', 
      'This is very long string very long string very long string veryvery long string']})
Run Code Online (Sandbox Code Playgroud)

现在,当我尝试打印相同的内容时,我看不到完整的字符串,而是只看到字符串的一部分.

我尝试了以下选项

  • 运用 print(df.iloc[2])
  • 运用 to_html
  • 运用 to_string
  • 其中一个stackoverflow答案建议通过使用pandas显示选项来增加列宽,这也不起作用.
  • 我也没有得到如何set_printoptions帮助我.

任何想法都赞赏.看起来很简单,但无法得到它!

python string options pandas

91
推荐指数
7
解决办法
7万
查看次数

如何使用索引迭代pandas multiindex数据帧

我有一个数据框df,看起来像这样.日期和时间是2个多级索引

                           observation1   observation2
date          Time                             
2012-11-02    9:15:00      79.373668      224
              9:16:00      130.841316     477
2012-11-03    9:15:00      45.312814      835
              9:16:00      123.776946     623
              9:17:00      153.76646      624
              9:18:00      463.276946     626
              9:19:00      663.176934     622
              9:20:00      763.77333      621
2012-11-04    9:15:00      115.449437     122
              9:16:00      123.776946     555
              9:17:00      153.76646      344
              9:18:00      463.276946     212
Run Code Online (Sandbox Code Playgroud)

我想在每日数据块上做一些复杂的过程.

Psuedo代码看起来像

 for count in df(level 0 index) :
     new_df = get only chunk for count
     complex_process(new_df)
Run Code Online (Sandbox Code Playgroud)

所以,首先,我找不到只访问日期块的方法

2012-11-03    9:15:00      45.312814      835
              9:16:00      123.776946     623
              9:17:00      153.76646      624
              9:18:00      463.276946     626
              9:19:00      663.176934     622
              9:20:00      763.77333 …
Run Code Online (Sandbox Code Playgroud)

python pandas

50
推荐指数
3
解决办法
4万
查看次数

是否需要特征缩放

我正在使用示例数据集来学习聚类。此数据集包含关键字的出现次数。

由于所有都是不同关键字的出现次数,是否可以不缩放值并按原样使用它们?

我在互联网上阅读了几篇文章,其中强调缩放很重要,因为它会调整频率的相对性。由于大多数频率为 0 (95%+),z 分数缩放会改变分布的形状,我觉得这可能是个问题,因为我正在改变数据的性质。

我正在考虑根本不改变价值观以避免这种情况。这会影响我从聚类中得到的结果的质量吗?

algorithm machine-learning

5
推荐指数
1
解决办法
7558
查看次数

标签 统计

pandas ×2

python ×2

algorithm ×1

machine-learning ×1

options ×1

string ×1