小编HMa*_*n06的帖子

PowerShell脚本将整个文件夹上传到FTP

我正在使用PowerShell脚本将整个文件夹的内容上传到FTP位置.我对PowerShell很新,只有一两个小时的经验.我可以得到一个文件上传很好,但找不到一个很好的解决方案,为文件夹中的所有文件.我假设一个foreach循环,但也许有更好的选择?

$source = "c:\test"
$destination = "ftp://localhost:21/New Directory/"
$username = "test"
$password = "test"
# $cred = Get-Credential
$wc = New-Object System.Net.WebClient
$wc.Credentials = New-Object System.Net.NetworkCredential($username, $password)

$files = get-childitem $source -recurse -force
foreach ($file in $files)
{
    $localfile = $file.fullname
    # ??????????
}
$wc.UploadFile($destination, $source)
$wc.Dispose()
Run Code Online (Sandbox Code Playgroud)

.net ftp powershell webclient

4
推荐指数
1
解决办法
1万
查看次数

Pandas DataFrame-将NULL字符串替换为空白,并将NULL数值替换为0

我正在处理具有许多不同类型列的大型数据集。数字值和带有一些NULL值的字符串混合在一起。我需要根据类型将NULL值更改为Blank或0。

1   John   2    Doe   3   Mike   4    Orange   5   Stuff
9   NULL   NULL NULL  8   NULL   NULL Lemon    12  NULL
Run Code Online (Sandbox Code Playgroud)

我希望它看起来像这样

1   John   2    Doe   3   Mike   4    Orange   5   Stuff
9          0          8          0    Lemon    12  
Run Code Online (Sandbox Code Playgroud)

我可以为每个人执行此操作,但是由于要提取具有数百个列的几个非常大的数据集,因此我想采用其他方法。

编辑:来自较小数据集的类型,

Field1              object
Field2              object
Field3              object
Field4              object
Field5              object
Field6              object
Field7              object
Field8              object
Field9              object
Field10              float64
Field11              float64
Field12              float64
Field13              float64
Field14              float64
Field15              object
Field16              float64
Field17              object
Field18              object
Field19              float64
Field20              float64 …
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
3830
查看次数

在 Python 中使用 TF-IDF、NGrams 和 Cosine Similarity 进行字符串匹配

我正在做我的第一个主要数据科学项目。我试图将来自一个源的大量数据列表与另一个源中的清理过的字典之间的名称匹配。我正在使用字符串匹配博客作为指南。

我正在尝试使用两个不同的数据集。不幸的是,我似乎无法得到好的结果,我认为我没有适当地应用它。

代码:

import pandas as pd, numpy as np, re, sparse_dot_topn.sparse_dot_topn as ct
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import csr_matrix


df_dirty = {"name":["gogle","bing","amazn","facebook","fcbook","abbasasdfzz","zsdfzl","gogle","bing","amazn","facebook","fcbook","abbasasdfzz","zsdfzl"]}

df_clean = {"name":["google","bing","amazon","facebook"]}

print (df_dirty["name"])
print (df_clean["name"])


def ngrams(string, n=3):
    string = (re.sub(r'[,-./]|\sBD',r'', string)).upper()
    ngrams = zip(*[string[i:] for i in range(n)])
    return [''.join(ngram) for ngram in ngrams]


def awesome_cossim_top(A, B, ntop, lower_bound=0):
    # force A and B as a CSR matrix.
    # If they have already been CSR, there is no overhead
    A …
Run Code Online (Sandbox Code Playgroud)

python tf-idf n-gram cosine-similarity

3
推荐指数
1
解决办法
4832
查看次数

Pyspark - 与 SparkContext 相关的错误 - 没有属性 _jsc

不确定这是什么问题。我见过关于这个问题的类似问题,但没有解决我的问题。完全错误,

Traceback (most recent call last):
  File "C:/Users/computer/PycharmProjects/spark_test/spark_test/test.py", line 4, in <module>
    sqlcontext = SQLContext(sc)
  File "C:\Users\computer\AppData\Local\Programs\Python\Python36\lib\site-packages\pyspark\sql\context.py", line 74, in __init__
    self._jsc = self._sc._jsc
AttributeError: type object 'SparkContext' has no attribute '_jsc'
Run Code Online (Sandbox Code Playgroud)

这是我尝试运行的简单代码:

from pyspark import SQLContext
from pyspark.context import SparkContext as sc

sqlcontext = SQLContext(sc)

df = sqlcontext.read.json('random.json')
Run Code Online (Sandbox Code Playgroud)

python pyspark

1
推荐指数
1
解决办法
4006
查看次数