我有一个 pyspark 数据框,如下图所示:
即我有四列:年份、单词、计数、频率。年份为2000年至2015年。
我想对(pyspark)数据框进行一些操作,以便我得到如下图所示格式的结果:
新的数据框列应为:word、Frequency_2000、Frequency_2001、Frequency_2002、...、Frequency_2015。
每年每个单词的频率都来自以前的数据帧。
有什么建议我如何编写高效的代码吗?
另外,如果您能提供更多信息,请重命名标题。
我正在 git bash 中运行一些命令,但 git bash 现在不响应这些命令。可能的原因是之前有过一次git commit,注释是单引号的;注释应该用双引号。
现在,似乎唯一的方法是关闭 git bash 并重新启动。
有什么方法可以在不关闭 git bash 的情况下继续吗?
我使用的是戴尔 Windows 10 64 位。
