我是apache spark的新手,显然我在我的macbook中用自制软件安装了apache-spark:
Last login: Fri Jan 8 12:52:04 on console
user@MacBook-Pro-de-User-2:~$ pyspark
Python 2.7.10 (default, Jul 13 2015, 12:05:58)
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
16/01/08 14:46:44 INFO SparkContext: Running Spark version 1.5.1
16/01/08 14:46:46 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/01/08 14:46:47 INFO SecurityManager: Changing view acls to: user
16/01/08 14:46:47 INFO …Run Code Online (Sandbox Code Playgroud) 请考虑以下列表:
a_list = [' me así, bla es se ds ']
Run Code Online (Sandbox Code Playgroud)
如何在新列表中提取内部的所有表情符号a_list?:
new_lis = [' ']
Run Code Online (Sandbox Code Playgroud)
我试图使用正则表达式,但我没有所有可能的表情符号编码.
从文档 scikit-learn实现了SVC,NuSVC和LinearSVC,它们是能够对数据集执行多类分类的类.另一方面,我也读到了scikit学习也使用libsvm进行支持向量机算法.我对SVC和libsvm版本之间的区别有点困惑,现在我猜不同的是,SVC是多类问题的支持向量机算法,而libsvm是二进制类问题.有人能帮助我解决这个之间的区别吗?
是否可以使用matplotlib scikit-learn分类报告进行绘图?我们假设我打印分类报告如下:
print '\n*Classification Report:\n', classification_report(y_test, predictions)
confusion_matrix_graph = confusion_matrix(y_test, predictions)
Run Code Online (Sandbox Code Playgroud)
我得到:
Clasification Report:
precision recall f1-score support
1 0.62 1.00 0.76 66
2 0.93 0.93 0.93 40
3 0.59 0.97 0.73 67
4 0.47 0.92 0.62 272
5 1.00 0.16 0.28 413
avg / total 0.77 0.57 0.49 858
Run Code Online (Sandbox Code Playgroud)
我如何"绘制"avobe图表?
我想写一个关于天气问题的程序.我应该开始研究哪些算法和技术.
例如:这个周末在芝加哥会不会是晴天.我想知道intent = weather查询,date =这个周末,location = chicago.
用户可以以多种形式表达相同的查询.
我想解决一些约束形式,并寻找如何开始的想法.解决方案需要足够好.
text-processing nlp artificial-intelligence machine-learning
我在几个文件夹中有几个文件,如下所示:
dir
??? 0
? ??? 103425.xml
? ??? 105340.xml
? ??? 109454.xml
?
??? 1247
? ??? doc.xml
??? 14568
? ??? doc.xml
??? 1659
? ??? doc.xml
??? 10450
? ??? doc.xml
??? 10351
? ??? doc.xml
Run Code Online (Sandbox Code Playgroud)
如何将所有文档提取到单个文件夹中,附加每个移动文档的文件夹名称:
new_dir
??? 0_103425.xml
??? 0_105340.xml
??? 0_109454.xml
??? 1247_doc.xml
??? 14568_doc.xml
??? 1659_doc.xml
??? 10450_doc.xml
??? 10351_doc.xml
Run Code Online (Sandbox Code Playgroud)
我尝试用以下方法提取它们:
import os
for path, subdirs, files in os.walk('../dir/'):
for name in files:
print(os.path.join(path, name))
Run Code Online (Sandbox Code Playgroud)
UPDATE
另外,我试图:
import os, shutil
from glob import …Run Code Online (Sandbox Code Playgroud) 我从网上下载了一个python脚本,当我尝试从bash执行它时会引发异常:
User:python_script user$ ./python_script.py -n some_parameter -b
输出如下:
-bash: ./python_script.py: Permission denied
Run Code Online (Sandbox Code Playgroud)
所有准备好的文件:#!/usr/bin/python在脚本的顶部.我怎么解决这个问题?
我想使用带有scikit-learn 的属性 - 关系文件格式来做一些NLP任务,这可能吗?如何使用.arff文件scikit-learn?
我想用scikit进行矢量化,了解列表中的列表.我去了我阅读它们的培训文本的路径然后我得到了这样的东西:
corpus = [["this is spam, 'SPAM'"],["this is ham, 'HAM'"],["this is nothing, 'NOTHING'"]]
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(analyzer='word')
vect_representation= vect.fit_transform(corpus)
print vect_representation.toarray()
Run Code Online (Sandbox Code Playgroud)
我得到以下内容:
return lambda x: strip_accents(x.lower())
AttributeError: 'list' object has no attribute 'lower'
Run Code Online (Sandbox Code Playgroud)
此问题还有每个文档末尾的标签,我应该如何对待它们才能进行正确的分类?
考虑以下pandas数据帧:
In [114]:
df['movie_title'].head()
?
Out[114]:
0 Toy Story (1995)
1 GoldenEye (1995)
2 Four Rooms (1995)
3 Get Shorty (1995)
4 Copycat (1995)
...
Name: movie_title, dtype: object
Run Code Online (Sandbox Code Playgroud)
更新:
我想用正则表达式提取电影的标题.所以,让我们使用以下正则表达式:\b([^\d\W]+)\b.所以我尝试了以下方法:
df_3['movie_title'] = df_3['movie_title'].str.extract('\b([^\d\W]+)\b')
df_3['movie_title']
Run Code Online (Sandbox Code Playgroud)
但是,我得到以下内容:
0 NaN
1 NaN
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
Run Code Online (Sandbox Code Playgroud)
有关如何从pandas数据框中的文本中提取特定功能的任何想法吗?更具体地说,如何在一个全新的数据框中提取电影的标题?例如,所需的输出应为:
Out[114]:
0 Toy Story
1 GoldenEye
2 Four Rooms
3 Get Shorty
4 Copycat
...
Name: movie_title, dtype: object
Run Code Online (Sandbox Code Playgroud) python ×8
scikit-learn ×4
nlp ×2
python-2.7 ×2
python-3.x ×2
apache-spark ×1
arff ×1
bash ×1
directory ×1
emoji ×1
glob ×1
homebrew ×1
libsvm ×1
matplotlib ×1
numpy ×1
pandas ×1
pycharm ×1
pyspark ×1
regex ×1
shell ×1
string ×1
weka ×1