小编tum*_*eed的帖子

如何将PyCharm与PySpark连接?

我是apache spark的新手,显然我在我的macbook中用自制软件安装了apache-spark:

Last login: Fri Jan  8 12:52:04 on console
user@MacBook-Pro-de-User-2:~$ pyspark
Python 2.7.10 (default, Jul 13 2015, 12:05:58)
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
16/01/08 14:46:44 INFO SparkContext: Running Spark version 1.5.1
16/01/08 14:46:46 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/01/08 14:46:47 INFO SecurityManager: Changing view acls to: user
16/01/08 14:46:47 INFO …
Run Code Online (Sandbox Code Playgroud)

python homebrew pycharm apache-spark pyspark

71
推荐指数
4
解决办法
7万
查看次数

如何从文本中提取所有表情符号?

请考虑以下列表:

a_list = ['  me así, bla es se  ds ']
Run Code Online (Sandbox Code Playgroud)

如何在新列表中提取内部的所有表情符号a_list?:

new_lis = ['     ']
Run Code Online (Sandbox Code Playgroud)

我试图使用正则表达式,但我没有所有可能的表情符号编码.

python python-3.x emoji

40
推荐指数
6
解决办法
3万
查看次数

scikit-learn中SVC和SVM有什么区别?

文档 scikit-learn实现了SVC,NuSVC和LinearSVC,它们是能够对数据集执行多类分类的类.另一方面,我也读到了scikit学习也使用libsvm进行支持向量机算法.我对SVC和libsvm版本之间的区别有点困惑,现在我猜不同的是,SVC是多类问题的支持向量机算法,而libsvm是二进制类问题.有人能帮助我解决这个之间的区别吗?

machine-learning libsvm scikit-learn

26
推荐指数
2
解决办法
3万
查看次数

如何绘制scikit学习分类报告?

是否可以使用matplotlib scikit-learn分类报告进行绘图?我们假设我打印分类报告如下:

print '\n*Classification Report:\n', classification_report(y_test, predictions)
    confusion_matrix_graph = confusion_matrix(y_test, predictions)
Run Code Online (Sandbox Code Playgroud)

我得到:

Clasification Report:
             precision    recall  f1-score   support

          1       0.62      1.00      0.76        66
          2       0.93      0.93      0.93        40
          3       0.59      0.97      0.73        67
          4       0.47      0.92      0.62       272
          5       1.00      0.16      0.28       413

avg / total       0.77      0.57      0.49       858
Run Code Online (Sandbox Code Playgroud)

我如何"绘制"avobe图表?

python numpy matplotlib scikit-learn

25
推荐指数
6
解决办法
2万
查看次数

如何继续NLP任务以识别意图和插槽

我想写一个关于天气问题的程序.我应该开始研究哪些算法和技术.

例如:这个周末在芝加哥会不会是晴天.我想知道intent = weather查询,date =这个周末,location = chicago.

用户可以以多种形式表达相同的查询.

我想解决一些约束形式,并寻找如何开始的想法.解决方案需要足够好.

text-processing nlp artificial-intelligence machine-learning

23
推荐指数
2
解决办法
1万
查看次数

如何使用python将放置在多个嵌套文件夹中的文档移动并重命名为新的单个文件夹?

我在几个文件夹中有几个文件,如下所示:

dir
??? 0
?   ??? 103425.xml
?   ??? 105340.xml
?   ??? 109454.xml
?
??? 1247
?   ??? doc.xml
??? 14568
?   ??? doc.xml
??? 1659
?   ??? doc.xml
??? 10450
?   ??? doc.xml
??? 10351
?   ??? doc.xml
Run Code Online (Sandbox Code Playgroud)

如何将所有文档提取到单个文件夹中,附加每个移动文档的文件夹名称:

new_dir
??? 0_103425.xml
??? 0_105340.xml
??? 0_109454.xml
??? 1247_doc.xml
??? 14568_doc.xml
??? 1659_doc.xml
??? 10450_doc.xml
??? 10351_doc.xml
Run Code Online (Sandbox Code Playgroud)

我尝试用以下方法提取它们:

import os

for path, subdirs, files in os.walk('../dir/'):
    for name in files:
        print(os.path.join(path, name))
Run Code Online (Sandbox Code Playgroud)

UPDATE

另外,我试图:

import os, shutil
from glob import …
Run Code Online (Sandbox Code Playgroud)

python directory glob python-3.x

19
推荐指数
2
解决办法
524
查看次数

当我尝试从bash执行python脚本时权限被拒绝?

我从网上下载了一个python脚本,当我尝试从bash执行它时会引发异常:

User:python_script user$ ./python_script.py -n some_parameter -b

输出如下:

-bash: ./python_script.py: Permission denied
Run Code Online (Sandbox Code Playgroud)

所有准备好的文件:#!/usr/bin/python在脚本的顶部.我怎么解决这个问题?

python bash shell python-2.7

10
推荐指数
1
解决办法
3万
查看次数

带scikit-learn的.arff文件?

我想使用带有scikit-learn 的属性 - 关系文件格式来做一些NLP任务,这可能吗?如何使用.arff文件scikit-learn

python machine-learning weka arff scikit-learn

9
推荐指数
3
解决办法
2万
查看次数

我应该如何使用scikit学习以下列表列表?

我想用scikit进行矢量化,了解列表中的列表.我去了我阅读它们的培训文本的路径然后我得到了这样的东西:

corpus = [["this is spam, 'SPAM'"],["this is ham, 'HAM'"],["this is nothing, 'NOTHING'"]]

from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(analyzer='word')
vect_representation= vect.fit_transform(corpus)
print vect_representation.toarray()
Run Code Online (Sandbox Code Playgroud)

我得到以下内容:

return lambda x: strip_accents(x.lower())
AttributeError: 'list' object has no attribute 'lower'
Run Code Online (Sandbox Code Playgroud)

此问题还有每个文档末尾的标签,我应该如何对待它们才能进行正确的分类?

python nlp machine-learning scikit-learn

9
推荐指数
1
解决办法
1万
查看次数

如何使用正则表达式在pandas数据框中提取特定内容?

考虑以下pandas数据帧:

In [114]:

df['movie_title'].head()

?
Out[114]:

0     Toy Story (1995)
1     GoldenEye (1995)
2    Four Rooms (1995)
3    Get Shorty (1995)
4       Copycat (1995)
...
Name: movie_title, dtype: object
Run Code Online (Sandbox Code Playgroud)

更新: 我想用正则表达式提取电影的标题.所以,让我们使用以下正则表达式:\b([^\d\W]+)\b.所以我尝试了以下方法:

df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']
Run Code Online (Sandbox Code Playgroud)

但是,我得到以下内容:

0       NaN
1       NaN
2       NaN
3       NaN
4       NaN
5       NaN
6       NaN
7       NaN
8       NaN
Run Code Online (Sandbox Code Playgroud)

有关如何从pandas数据框中的文本中提取特定功能的任何想法吗?更具体地说,如何在一个全新的数据框中提取电影的标题?例如,所需的输出应为:

Out[114]:

0     Toy Story
1     GoldenEye
2    Four Rooms
3    Get Shorty
4       Copycat
...
Name: movie_title, dtype: object
Run Code Online (Sandbox Code Playgroud)

python regex string python-2.7 pandas

9
推荐指数
2
解决办法
3万
查看次数