小编Han*_*ans的帖子

Conda环境和.BAT文件

我正在设置通过BAT文件和Windows任务调度程序调用python(Anaconda发行版).

我现在第一次使用环境,并尝试设置.bat如下文件:

activate [my_env]
python my_script.py
deactivate

Run Code Online (Sandbox Code Playgroud)

不幸的是,似乎第二个命令没有被执行.

python anaconda conda

Han*_*ans

lucky-day

27
推荐指数

1
解决办法

2万
查看次数

我可以告诉 spark.read.json 我的文件是 gzip 压缩的吗？

我有一个 s3 存储桶，其中包含近 10 万个 gzipped JSON 文件。

这些文件被调用[timestamp].json而不是更合理的[timestamp].json.gz.

我有其他使用它们的进程，因此重命名不是一种选择，复制它们更不理想。

我正在使用spark.read.json([pattern])读取这些文件。如果我重命名文件名以包含.gz这可以正常工作，但是扩展名只是.json它们无法读取。

有什么办法可以告诉 spark 这些文件是 gzip 压缩的？

apache-spark pyspark

Han*_*ans

lucky-day

9
推荐指数

1
解决办法

9746
查看次数

Perl New Line分隔符问题

我有一个使用CR/LF分隔记录的文件,但个别记录有时包含LF.

while (<$in>)
{ 
    #extract record data
}

Run Code Online (Sandbox Code Playgroud)

我试图阅读上面的代码,这(正如我所料)分割只包含LF的记录.但是我希望重新分配$/可以解决这个问题,但它确实会导致我在一次迭代中读取完整的文件.

$/ = "\r\n";
while (<$in>)
{ 
    #extract record data
}

Run Code Online (Sandbox Code Playgroud)

这里的任何人都可以提出有效的解决方案

我在Windows上使用Activestate Perl.

perl newline

Han*_*ans

2012 07-09

8
推荐指数

3
解决办法

4690
查看次数

在 WSL2 上运行 Puppeteer 控制 Windows 上的 Chrome

我正在尝试在 WSL2 上运行 puppeteer。我尝试过通过 VcXsvr 使用远程显示，但我的防火墙设置和主机进行了自定义更改，坦率地说我已经放弃看到https://learn.microsoft.com/en-us/windows/wsl/tutorials/gui-应用程序正在开发中。

因此，与此同时，我尝试使用以下测试代码直接连接到 Windows Chrome 安装：

const puppeteer = require('puppeteer');

const EXECUTABLE_PATH = '/mnt/c/Users/[username]/AppData/Local/Google/Chrome/Application/chrome.exe';
const USER_DATA_DIR = 'C:\\Users\\[username]\\AppData\\Local\\Google\\Chrome\\User Data';


const url = process.argv[2];
console.log(url);
if (!url) {
    throw "Please provide URL as a first argument";
}
async function run () {
    try {
        const browser = await puppeteer.launch({
            executablePath: EXECUTABLE_PATH,
            userDataDir: USER_DATA_DIR,  
            headless: false,
            ignoreDefaultArgs: ['--disable-extensions'],

        });
        const page = await browser.newPage();
        await page.goto(url);
        await page.screenshot({path: 'screenshot.png'});
        browser.close();
    } catch(err){
        console.log(err)
    }
}
run(); …

Run Code Online (Sandbox Code Playgroud)

javascript google-chrome windows-subsystem-for-linux puppeteer wsl-2

Han*_*ans

lucky-day

8
推荐指数

1
解决办法

4633
查看次数

node.js多个http请求

我是node和js的新手,并尝试在express中创建一个网站,在呈现页面之前进行三次Rest API调用.目前我有下面的,它返回一些我转换成对象列表的json.

其中一些属性只返回id值,我想再运行三个API请求,返回这些Id的查找,这样我就可以将这些数据作为有意义的值呈现给用户.

我可以通过运行下一个API调用来同步执行此操作,我当前正在呈现索引页面,但这看起来非常混乱.我看到的所有异步教程都让我的新手思维方式混淆了.有人可以发布一个易于遵循的异步示例,这有点反映了以下结构吗？

var issues_json = "";
var request = http.request(options, function(response) {
    console.log("statusCode: ", res.statusCode);
    console.log("headers: ", res.headers);

    response.on("data", function(data) {
        issues_json += data;
    });

    response.on("end", function() {
        console.log(issues_json);
        var column_obj = JSON.parse(issues_json);
        res.render('index', {
            title: 'List of Issues',
            response: issues_json,
            objects: column_obj
        });
    });

    response.on("error", function(e) {
        console.log(e.Message);
        res.render('index', {
            title: 'error',
            e: e.Message
        });
    });
});
request.end();

Run Code Online (Sandbox Code Playgroud)

asynchronous node.js

Han*_*ans

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

CouchDB Erlang View

昨天在昨天发布了一个相当缓慢的couchdb design-doc/view之后: CouchDB延迟构建索引(Windows Server 2008 R2上的CouchDB 1.5.0),我试图调查一下如果我要重写慢视图我是否可以获得显着的性能在Erlang.

作为Erlang的新手,我发现特定的erlang/couch教程的基础非常薄.我在这里可以找到的最新查询已经陈旧且非常简短: Couch DB中的Erlang Views和将CouchDB javascript视图转换为erlang.它们指的是版本0.10.0.

我真的很惊讶似乎没有更新的文档或教程.如果您正在使用Erlang视图,您使用了哪些资源来自学？如果我错过了关于Erlang和观点的任何好资源,请指出这些.

最后,我想弄清楚是否还需要安装其他任何东西来运行这些如erlang本身.

我在Windows上运行couchdb 1.5,但在Ubuntu上进行原型设计,因此必须考虑两个系统.

erlang couchdb

Han*_*ans

2017 05-23

5
推荐指数

1
解决办法

1585
查看次数

Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表，我想将其存储在 Spark 的数据帧中，并作为镶木地板文件保存到磁盘。

我的 Parquet 文件的大小现在超过 2TB，我想确保我已经优化了它。

这些列中的很大一部分是字符串值，它们可能很长，但通常只有很少的值。例如，我有一列只有两个不同的值（一个 20 字符和一个 30 个字符的字符串），而我有另一列的字符串平均长度为 400 个字符，但所有条目中只有大约 400 个不同的值。

在关系数据库中，我通常会将这些值标准化为带有引用的不同表，或者至少使用某种枚举类型定义我的表。

我在 DF 或镶木地板文件中看不到与该模式匹配的任何内容。列式存储是否有效地处理了这个问题？或者我应该研究一些东西来进一步优化吗？

apache-spark parquet

Han*_*ans

lucky-day

5
推荐指数

1
解决办法

3271
查看次数

MySQL 分区一个 VARCHAR(60)

我有一个非常大的 5 亿行表，其中包含以下列：

id- Bigint- 自动增加主索引。
date- Datetime- 每个日期大约 150 万行，删除 1 年之前的数据。
uid- VARCHAR(60)- 一个用户ID
sessionNumber —— INT
start- INT- 开始时间的纪元。
end- INT- 结束时间的时代。
更多与此查询无关的列。

的组合uid和sessionNumber形成uinque索引。我也有一个日期索引。

由于规模庞大，我想对表进行分区。

我的大多数访问都是按日期进行的，因此按日期范围分区似乎很直观，但由于日期不是唯一索引的一部分，因此这不是一个选项。

选项 1：RANGE PARTITION在日期和BEFORE INSERT TRIGGER

我真的没有经常遇到违反uid和sessionNumber唯一性的问题。源数据是一致的，但可以连续两天插入跨越两天的会话，午夜是第一天的结束时间和第二天的开始时间。

我试图了解是否可以删除唯一键并使用触发器

检查前一天是否有具有相同标识符的会话，如果有，
更新结束日期。
取消实际插入。

但是，我不确定是否可以 1) 在同一张表上触发更新。或 2) 防止实际插入。

选项 2：LINEAR HASH PARTITION开UID

我的第二个选择是在 UID 上使用线性哈希分区。但是，我看不到任何使用 VARCHAR 并将其转换为用于HASH分区的 INTEGER …

mysql database-partitioning

Han*_*ans

2017 11-22

5
推荐指数

1
解决办法

4768
查看次数

data.frame中的唯一单词列表

我对R很新,所以请耐心等待我.

我有一个字符向量,其中的列以不一致的格式描述疾病和诊断关键字.样品是:

flu
fever/feverish
fever cold

Run Code Online (Sandbox Code Playgroud)

我正在寻找从中提取所有独特单词的最佳方法.我能想到的最好的过程是给我一个向量的向量:

[[1]]
[[1]][[1]]
[1] "flu"

[[2]]
[[2]][[1]]
[1] "fever" "feverish"
...

Run Code Online (Sandbox Code Playgroud)

我通过使用:

split_words <- function(x){ strsplit(x, "[^[:alpha:]]+") }
lapply(diagnoses, split_words)

Run Code Online (Sandbox Code Playgroud)

将此转换为单个向量或单列数据帧的最佳方法是什么,以便我可以unique在此向量上运行并删除重复项.

R上有哪些最好的包来做词干去除类似的拼写,复数等.

Han*_*ans

lucky-day

4
推荐指数

1
解决办法

2559
查看次数

Spark - 带递归的窗口？- 有条件地跨行传播值

我有以下数据框显示购买收入。

+-------+--------+-------+
|user_id|visit_id|revenue|
+-------+--------+-------+
|      1|       1|      0|
|      1|       2|      0|
|      1|       3|      0|
|      1|       4|    100|
|      1|       5|      0|
|      1|       6|      0|
|      1|       7|    200|
|      1|       8|      0|
|      1|       9|     10|
+-------+--------+-------+

Run Code Online (Sandbox Code Playgroud)

最终，我希望新列purch_revenue在每一行中显示购买产生的收入。作为一种解决方法，我还尝试引入一个购买标识符purch_id，每次购买时都会增加该标识符。所以这只是作为参考列出。

+-------+--------+-------+-------------+--------+
|user_id|visit_id|revenue|purch_revenue|purch_id|
+-------+--------+-------+-------------+--------+
|      1|       1|      0|          100|       1|
|      1|       2|      0|          100|       1|
|      1|       3|      0|          100|       1|
|      1|       4|    100|          100|       1|
|      1|       5|      0|          100|       2|
| …

Run Code Online (Sandbox Code Playgroud)

window-functions apache-spark apache-spark-sql pyspark pyspark-sql

Han*_*ans

2019 01-16

1
推荐指数

1
解决办法

1812
查看次数