小编Luc*_*chi的帖子

如何将标签缩进设置为谷歌文档中的四个空格

是否可以将默认选项卡缩进设置为Google文档中的四个空格?

似乎只有在文本写完后才能使用顶部的标尺重新排列单词...

google-docs

42
推荐指数
1
解决办法
4万
查看次数

使matplotlib绘图窗口弹出为活动窗口

我在mac os x上使用python和matplotlib.当我在许多不同的窗口上工作并且我必须运行一个产生绘图的脚本时,绘图窗口总是在活动窗口后面打开,并且非常沮丧地必须在窗口之间切换以查看图像.是为什么决定绘图窗口的位置,和/或将其弹出为前景窗口?

谢谢

python macos matplotlib

34
推荐指数
3
解决办法
3万
查看次数

word2vec训练前语料库的词形化

Word2vec似乎主要是针对原始语料库数据进行培训.然而,词形还原是许多语义相似性任务的标准预处理.我想知道是否有人在训练word2vec之前有使词库语法化的经验,以及这是否是一个有用的预处理步骤.

nlp lemmatization gensim word2vec

22
推荐指数
1
解决办法
9193
查看次数

Gensim在维基百科上训练word2vec - 预处理和参数

我正在尝试使用意大利维基百科" http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 " 从gensim训练word2vec模型

但是,我不确定这个语料库的最佳预处理是什么.

Gensim模型接受标记化句子列表.我的第一个尝试是使用Gensim的标准WikipediaCorpus预处理器.这提取每篇文章,删除标点符号并拆分空格.使用这个工具,每个句子都对应一个完整的模型,我不确定这个事实对模型的影响.

在此之后,我使用默认参数训练模型.不幸的是,在训练之后,似乎我没有想要获得非常有意义的相似之处.

对于此任务,维基百科语料库中最合适的预处理是什么?(如果这个问题太宽泛,请指点相关教程/文章帮助我)

这是我第一次试用的代码:

from gensim.corpora import WikiCorpus
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
corpus = WikiCorpus('itwiki-latest-pages-articles.xml.bz2',dictionary=False)
max_sentence = -1

def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence==-1:
            yield text
        else:
            break

from gensim.models.word2vec import BrownCorpus, Word2Vec
model = Word2Vec() 
model.build_vocab(generate_lines()) #This strangely builds a vocab of "only" 747904 words which is << than those reported in the literature 10M words
model.train(generate_lines(),chunksize=500)
Run Code Online (Sandbox Code Playgroud)

nlp gensim word2vec

16
推荐指数
1
解决办法
8375
查看次数

Numpy修改ndarray对角线

在numpy中是否有任何方法可以获得对数组对角线的引用?我希望我的数组对角线除以某个因子谢谢

python numpy

14
推荐指数
4
解决办法
6981
查看次数

如何为tensorflow模型选择优化器?

Tensorflow似乎有大量优化器,是否有任何高级指南(或评论文章),哪一个最适合特定类别的损失函数?

tensorflow

12
推荐指数
1
解决办法
1828
查看次数

通过Hadoop输入格式示例的pyspark的BigQuery连接器

我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.

我意识到BigQuery支持Hadoop输入/输出格式

https://cloud.google.com/hadoop/writing-with-bigquery-connector

并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.

http://spark.apache.org/docs/latest/api/python/pyspark.html

不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点?

google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc

10
推荐指数
1
解决办法
1404
查看次数

Psycopg2在远程主机上访问PostgreSQL数据库,无需手动打开ssh隧道

用于访问远程服务器上的数据库的标准过程PostgreSQL首先创建一个ssh隧道,如下所示:

ssh username1@remote.somewhere.com -L 5432:localhost:5432 -p 222
Run Code Online (Sandbox Code Playgroud)

然后从另一个shell在python中运行我的查询:

conn = psycopg2.connect("host=localhost" + " dbname=" +
                         conf.dbname + " user=" + conf.user + 
                         " password=" + conf.password)

cur = conn.cursor()

cur.execute(query)
Run Code Online (Sandbox Code Playgroud)

创建隧道后,这段python代码可以很好地工作.但是,我希望psycopg2已经打开SSH隧道或"以某种方式"到达远程数据库而无需在我的localhost上重定向它.

用psycopg2可以做到这一点吗?

否则可能在我的python代码中打开ssh隧道?

如果我使用:

os.system("ssh username1@remote.somewhere.com -L 5432:localhost:5432 -p 222")
Run Code Online (Sandbox Code Playgroud)

shell将被重定向到远程主机,阻止主线程的执行.

python database postgresql ssh psycopg2

6
推荐指数
2
解决办法
1万
查看次数

在mac os x上使用Cmake,使用完整路径链接库

我正在尝试使用cmake构建python扩展.这是cmake列表:

cmake_minimum_required(VERSION 2.8)
PROJECT(drtile)
set(CMAKE_MODULE_PATH ${CMAKE_CURRENT_SOURCE_DIR})
find_package(Vigra REQUIRED)
find_package(Boost COMPONENTS python REQUIRED)
find_package(PythonLibs REQUIRED)
find_package(Numpy REQUIRED)

include_directories(
    ${VIGRA_INCLUDE_DIR}
    ${PYTHON_NUMPY_INCLUDE_DIR}
    ${Boost_INCLUDE_DIR}
    ${PYTHON_INCLUDE_DIRS}
    ${PYTHON_INCLUDE_PATH}
)
add_library(drtile SHARED drtile.cpp)
message("xxx ${Boost_PYTHON_LIBRARY} ${VIGRA_NUMPY_CORE_LIBRARY}${VIGRA_NUMPY_IMPEX_LIBRARY}")
target_link_libraries(drtile ${Boost_PYTHON_LIBRARY} ${VIGRA_NUMPY_CORE_LIBRARY}  ${PYTHON_LIBRARY})
IF(WIN32)
   SET_TARGET_PROPERTIES(drtile PROPERTIES OUTPUT_NAME "drtile" PREFIX "" SUFFIX  ".pyd")

ELSE()
    SET_TARGET_PROPERTIES(drtile PROPERTIES OUTPUT_NAME "drtile" PREFIX "" SUFFIX ".so")
ENDIF()
Run Code Online (Sandbox Code Playgroud)

该库已正确编译和链接,但当我用otool查看喜欢的库时,我得到:

otool -L drtile.so

drtile.so:
/Users/lfiaschi/phd/workspace/lazyflow/lazyflow/drtile/drtile.so (compatibility version 0.0.0, current version 0.0.0)
libboost_python.dylib (compatibility version 0.0.0, current version 0.0.0)
vigranumpycore.so (compatibility version 0.0.0, current version 0.0.0)
/Users/lfiaschi/Library/Frameworks/Python.framework/Versions/2.7/Python (compatibility …
Run Code Online (Sandbox Code Playgroud)

macos linker rpath cmake python-extensions

5
推荐指数
1
解决办法
2671
查看次数

Scikit-learn 是否发布了 Python GIL?

我想在不同的线程中训练多个一类 SVM。有人知道 scikit 的 SVM 是否发布了 GIL?我在网上没有找到任何答案。

谢谢

python parallel-processing multithreading machine-learning scikit-learn

5
推荐指数
1
解决办法
1577
查看次数

Python中的稀疏编码

我正在寻找一个库,它实现了最常见的稀疏编码和字典学习算法与python接口,任何建议?

python machine-learning

5
推荐指数
1
解决办法
5981
查看次数

pyspark 数据框、分组和计算列的方差

我想对 pyspark 数据框进行分组并计算特定列的方差。对于平均而言,这很容易,可以像这样完成

from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()
Run Code Online (Sandbox Code Playgroud)

但是对于方差,函数子模块中似乎没有任何聚合函数(我也想知道为什么,因为这是一个非常常见的操作)

python pyspark spark-dataframe pyspark-sql

5
推荐指数
0
解决办法
1万
查看次数