小编sha*_*arp的帖子

如何将数据从一个HDFS复制到另一个HDFS?

我有两个HDFS设置,并希望将一些表从HDFS1复制(不迁移或移动)到HDFS2.如何将数据从一个HDFS复制到另一个HDFS?是否可以通过Sqoop或其他命令行?

hadoop bigdata hdfs sqoop

15
推荐指数
3
解决办法
8万
查看次数

如何查看创建表的日期?

几个月前我创建了一张桌子.HIVE中是否有任何方法可以在创建表时查看?

show table不给出表的创建日期.

hive hiveql

7
推荐指数
2
解决办法
2万
查看次数

如何在RStudio上将csv文件加载到SparkR?

如何在RStudio上将csv文件加载到SparkR?以下是我在RStudio上运行SparkR时必须执行的步骤.我用read.df读取.csv不知道怎么写这个.不确定此步骤是否被视为创建RDD.

#Set sys environment variables
Sys.setenv(SPARK_HOME = "C:/Users/Desktop/spark/spark-1.4.1-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))

#Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')

#Load libraries
library(SparkR)
library(magrittr)

sc <- sparkR.init(master="local")
sc <- sparkR.init()
sc <- sparkR.init(sparkPackages="com.databricks:spark-csv_2.11:1.0.3")
sqlContext <- sparkRSQL.init(sc)

data <- read.df(sqlContext, "C:/Users/Desktop/DataSets/hello_world.csv", "com.databricks.spark.csv", header="true")
Run Code Online (Sandbox Code Playgroud)

我收到错误:

Error in writeJobj(con, object) : invalid jobj 1
Run Code Online (Sandbox Code Playgroud)

r apache-spark apache-spark-sql sparkr

5
推荐指数
1
解决办法
1611
查看次数

具有多个子查询的 Hive

我试图在 where 子句中运行多个子查询,但出现以下错误。是否意味着 Hive 不支持它?如果没有,是否有其他方法来编写下面的查询?

执行配置单元查询时发生错误:确定失败:SemanticException [错误 10249]:第 14 行不支持的子查询表达式“adh”:仅支持 1 个子查询表达式。

select
    first_name, 
    last_name,
    salary,
    title,
    department
from 
    employee_t1 emp
where 
    emp.salary <= 100000
    and (
        (emp.code in (select comp from history_t2 where code_hist <> 10))
        or 
        (emp.adh in (select comp from sector_t3 where code_hist <> 50))
    ) 
    and department = 'Pediatrics';
Run Code Online (Sandbox Code Playgroud)

sql hive hiveql

5
推荐指数
1
解决办法
2万
查看次数

我们可以预测每个客户进行交易的日期吗?

我遇到了一个项目,该项目的数据集中包含变量,例如客户ID,他们购买产品的日期,购买的产品类型以及产品价格。我想预测客户可能在什么日期进行交易以及他们可能购买什么产品。日期可以是几天,几周或几个月。

根据我的理解,我认为我必须将问题分解为不同的模型。预测每个客户将购买的产品的第一模型。第二个模型预测每个EACH客户可能发生的交易日期。显然,对于第一个模型,我们应该使用分类机器学习模型。我不确定我应该为第二个模型使用哪个模型。可能是时间序列,但我尚未预测模型的日期。我希望我是对的。

主要问题是:

  1. 我们可以从任何机器学习技术中预测几天,几周或几个月的日期吗?
  2. 我们可以预测每个客户要购买的日期和产品吗?还是我们需要拆分问题并为此执行单独的模型?

建议将不胜感激!

classification time-series prediction

4
推荐指数
1
解决办法
3239
查看次数

Python - Apache Tika 单页解析器

我想知道是否有任何方法可以使用 Tika/Python 仅解析第一页或仅从第一页提取元数据?现在,当我传递 pdf 时,它正在解析每一页。我看了这个链接:Is it possible to extract text by page for word/pdf files using Apache Tika? 但是,这个链接在java中解释了更多,我不熟悉。我希望可以有一个python解决方案吗?谢谢!

from tika import parser
# running: java -jar tika-server1.18.jar before executing code below. 
parsedPDF = parser.from_file('C:\\path\\to\\dir\\sample.pdf')

fulltext = parsedPDF['content']

metadata_dict = parsedPDF['metadata']
title = metadata_dict['title']
author = metadata_dict['Author'] # capturing all the names from lets say 15 pages. Just want it to capture from first page 
pages = metadata_dict['xmpTPg:NPages']
Run Code Online (Sandbox Code Playgroud)

python apache-tika tika-server

4
推荐指数
1
解决办法
6019
查看次数

AttributeError:模块“fuzzywuzzy”没有属性“ratio”

我试图从 fuzzywuzzy 库中调用ratio()函数来匹配两个字符串并收到以下错误消息:

AttributeError: module 'fuzzywuzzy' has no attribute 'ratio'
Run Code Online (Sandbox Code Playgroud)

版本有变化吗?我试图在 fuzz 中寻找其他函数来查看它是否存在,但我无法找到它。

import fuzzywuzzy as fuzz
from fuzzywuzzy import process
import Levenshtein
fuzz.ratio('Lord of the Rings', 'The Lord of the Rings')
Run Code Online (Sandbox Code Playgroud)

python fuzzywuzzy

4
推荐指数
1
解决办法
6466
查看次数

通过之前训练的模型预测看不见的数据

我正在使用 Scikit-learn 执行监督机器学习。我有两个数据集。第一个数据集包含具有 X 特征和 Y 标签的数据。第二个数据集仅包含 X 个特征,但没有 Y 标签。我可以成功对训练/测试数据执行 LinearSVC 并获取测试数据集的 Y 标签。

现在,我想使用为第一个数据集训练的模型来预测第二个数据集标签。如何在 Scikit-learn 中使用从第一个数据集到第二个数据集(看不见的标签)的预训练模型?

我尝试的代码片段: 以下评论中的更新代码:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
import pandas as pd
import pickle


# ----------- Dataset 1: for training ----------- #
# Sample data ONLY
some_text = ['Books are amazing',
             'Harry potter book is awesome. It rocks',
             'Nutrition is very important',
             'Welcome to library, you can find as many book as …
Run Code Online (Sandbox Code Playgroud)

python machine-learning python-3.x scikit-learn

4
推荐指数
1
解决办法
5574
查看次数

git 将存储库作为目录移动到另一个存储库

如何将存储库 (old_rep) 作为目录移动到另一个存储库 (new_rep),而不丢失存储库的历史记录和文件?

这是我从其他堆栈问题中尝试过的内容。我在 new_repo 中有文件,例如具有历史记录的目录、.txt、.sql 文件。当我运行下面的代码时,看起来 --mirror 正在替换从 old_rep 到 new_rep 的所有内容。

mkdir foo
cd foo 

git clone --bare ssh://git@test.test.test/test/old_rep.git

cd old_rep.git 
git clone --bare ssh://git@test.test.test/test/new_rep.git

cd ..
rm -rf old_rep.git
Run Code Online (Sandbox Code Playgroud)

git github

3
推荐指数
1
解决办法
7018
查看次数

Python - 如何删除超过 1 个空格

如下所示,行的开头、结尾、中间有大量的空白。我正在尝试从中间删除这些额外的空格。这是我尝试过的,但我不断收到如下错误:

testdata = [{'col1': ' Sea Ice   Prediction     Network .    '},
     {'col1': ' Movies, Ratings, ....        etc.'},
     {'col1': 'Iceland, Greenland, Mountains  '},
     {'col1': ' My test file'}]
df = pd.DataFrame(testdata)

' '.join(testdata['col1'].split()) #Error: list indices must be integers or slices, not str

df['col1'].str.lstrip() #list indices must be integers or slices, not str
df['col1'].str.rstrip() #list indices must be integers or slices, not str

 #removes start and end, but not ideal to remove one line at a time. 
' Sea Ice     Prediction …
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
5649
查看次数