我有一个numpy数组的浮点数/整数,并希望将其元素映射到他们的行列.
如果数组没有重复项,则可以通过以下代码解决该问题
In [49]: a1
Out[49]: array([ 0.1, 5.1, 2.1, 3.1, 4.1, 1.1, 6.1, 8.1, 7.1, 9.1])
In [50]: a1.argsort().argsort()
Out[50]: array([0, 5, 2, 3, 4, 1, 6, 8, 7, 9])
Run Code Online (Sandbox Code Playgroud)
现在我想将此方法扩展到具有可能重复的数组,以便将重复项映射到相同的值.例如,我想要数组a
a2 = np.array([0.1, 1.1, 2.1, 3.1, 4.1, 1.1, 6.1, 7.1, 7.1, 1.1])
Run Code Online (Sandbox Code Playgroud)
要映射到任何一个
0 1 4 5 6 1 7 8 8 1
Run Code Online (Sandbox Code Playgroud)
或者
0 3 4 5 6 3 7 9 9 3
Run Code Online (Sandbox Code Playgroud)
或者
0 2 4 5 6 2 7 8.5 8.5 2
Run Code Online (Sandbox Code Playgroud)
在第一个/第二个案例中,如果我们只应用a2.argsort().argsort(),我们将重复项映射到它们中的最小/最大等级.第三种情况只是前两种情况的平均值.
有什么建议?
编辑(效率要求) …
在为我当前的一个项目构建基础架构时,我遇到了替换现有HDFS文件的问题.更准确地说,我想做以下事情:
我们有一些机器(日志服务器)不断生成日志.我们有一个专用的机器(日志预处理器)负责从日志服务器接收日志块(每个块长约30分钟,大小为500-800 mb),预处理它们并上传到我们的Hadoop集群的HDFS .
预处理分3个步骤完成:
最终的日志文件将用作在HADOOP集群上运行的几个periodoc HADOOP应用程序的输入.在HDFS中,日志文件存储如下:
hdfs:/spool/.../logs/YYYY-MM-DD.HH.MM.log
Run Code Online (Sandbox Code Playgroud)
步骤3中使用的映射随时间而变化,我们需要通过重新计算step3并用新的HDFS文件替换旧的HDFS文件来反映这些变化.此更新至少在过去12小时内以一定的周期(例如每10-15分钟)执行.请注意,如果映射已经改变,相同的输入文件将步骤3的结果可能是显著不同(它不会只是一个结果的超集/子集).所以我们需要覆盖 HDFS中的现有文件.
但是,我们不能只执行hadoop fs -rm然后执行hadoop fs -copyToLocal,因为如果某些HADOOP应用程序正在使用临时删除的文件,则应用程序可能会失败.我使用的解决方案 - 在旧文件附近放置一个新文件,这些文件具有相同的名称,但不同的后缀表示文件版本.现在布局如下:
hdfs:/spool/.../logs/2012-09-26.09.00.log.v1
hdfs:/spool/.../logs/2012-09-26.09.00.log.v2
hdfs:/spool/.../logs/2012-09-26.09.00.log.v3
hdfs:/spool/.../logs/2012-09-26.10.00.log.v1
hdfs:/spool/.../logs/2012-09-26.10.00.log.v2
Run Code Online (Sandbox Code Playgroud)
任何Hadoop应用程序在启动(设置)时都会选择具有最新版本的文件并使用它们.因此,即使正在进行某些更新,应用程序也不会遇到任何问题,因为没有删除任何输入文件.
你知道一些更容易解决这个问题的方法,它不使用这种复杂/丑陋的文件版本控制吗?
某些应用程序可能会开始使用当前正在上载但尚未上传的HDFS文件(应用程序在HDFS中看到此文件但不知道它是否一致).如果是gzip文件,这可能会导致映射器失败.能否请您建议我如何处理这个问题?我知道对于本地文件系统,我可以这样做:
cp infile /finaldir/outfile.tmp&& mv /finaldir/output.tmp/finaldir/output
这是有效的,因为mv是一个原子操作,但是我不确定HDFS的情况.如果HDFS 在传统的本地文件系统中有像mv这样的原子操作,请问一下吗?
提前致谢!
JupyterLab 是否支持跳转到先前选择或活动单元格的功能?
用例#1:有时我在命令模式下不小心按了“Home”或“End”(认为我处于编辑模式),然后跳到笔记本的最顶部。然后我需要找到我进行编辑的地方。
用例#2:有时故意执行上述操作很方便。跳到底部,运行辅助计算,然后返回到之前的活动单元格继续我的主线编码。
如果该命令存在的话,最好为其指定一个快捷方式。我浏览过这个github 线程,但没有找到合适的命令。