我对使用Google Cloud Dataflow非常陌生.我想获得两个PCollections的笛卡尔积.举例来说,如果我有两个PCollections (1, 2)和("hello", "world"),它们的笛卡尔乘积是((1, "hello"), (1, "world"), (2, "hello"), (2, "world")).
任何想法我怎么能这样做?此外,由于笛卡尔积可能很大,我希望解决方案可以懒得创建产品,从而避免大量内存消耗.
谢谢!
我想直接在Google云端存储上保存一个大文件(大约50 GB).我试过gsutil cp https://archive.org/download/archiveteam-twitter-stream-2015-08/archiveteam-twitter-stream-2015-08.tar gs://my/folder,但那不起作用(InvalidUrlError: Unrecognized scheme "https").
有没有办法做到这一点,而不必先将文件下载到我的本地存储?
谢谢!