小编Luc*_*chi的帖子

from gensim.corpora import WikiCorpus
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
corpus = WikiCorpus('itwiki-latest-pages-articles.xml.bz2',dictionary=False)
max_sentence = -1

def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence==-1:
            yield text
        else:
            break

from gensim.models.word2vec import BrownCorpus, Word2Vec
model = Word2Vec() 
model.build_vocab(generate_lines()) #This strangely builds a vocab of "only" 747904 words which is << than those reported in the literature 10M words
model.train(generate_lines(),chunksize=500)

Run Code Online (Sandbox Code Playgroud)

nlp gensim word2vec

Luc*_*chi

2019 09-09

16
推荐指数

1
解决办法

8375
查看次数

Numpy修改ndarray对角线

在numpy中是否有任何方法可以获得对数组对角线的引用？我希望我的数组对角线除以某个因子谢谢

python numpy

Luc*_*chi

2011 09-13

14
推荐指数

4
解决办法

6981
查看次数

如何为tensorflow模型选择优化器？

Tensorflow似乎有大量优化器,是否有任何高级指南(或评论文章),哪一个最适合特定类别的损失函数？

tensorflow

Luc*_*chi

lucky-day

12
推荐指数

1
解决办法

1828
查看次数

通过Hadoop输入格式示例的pyspark的BigQuery连接器

我有一个存储在BigQuery表中的大型数据集,我想将其加载到pypark RDD中以进行ETL数据处理.

我意识到BigQuery支持Hadoop输入/输出格式

https://cloud.google.com/hadoop/writing-with-bigquery-connector

并且pyspark应该能够使用此接口以使用方法"newAPIHadoopRDD"创建RDD.

http://spark.apache.org/docs/latest/api/python/pyspark.html

不幸的是,两端的文档似乎很少,超出了我对Hadoop/Spark/BigQuery的了解.是否有人知道如何做到这一点？

google-bigquery apache-spark google-hadoop pyspark google-cloud-dataproc

Luc*_*chi

2015 10-23

10
推荐指数

1
解决办法

1404
查看次数

Psycopg2在远程主机上访问PostgreSQL数据库,无需手动打开ssh隧道

用于访问远程服务器上的数据库的标准过程PostgreSQL首先创建一个ssh隧道,如下所示:

ssh username1@remote.somewhere.com -L 5432:localhost:5432 -p 222

Run Code Online (Sandbox Code Playgroud)

然后从另一个shell在python中运行我的查询:

conn = psycopg2.connect("host=localhost" + " dbname=" +
                         conf.dbname + " user=" + conf.user + 
                         " password=" + conf.password)

cur = conn.cursor()

cur.execute(query)

Run Code Online (Sandbox Code Playgroud)

创建隧道后,这段python代码可以很好地工作.但是,我希望psycopg2已经打开SSH隧道或"以某种方式"到达远程数据库而无需在我的localhost上重定向它.

用psycopg2可以做到这一点吗？

否则可能在我的python代码中打开ssh隧道？

如果我使用:

os.system("ssh username1@remote.somewhere.com -L 5432:localhost:5432 -p 222")

Run Code Online (Sandbox Code Playgroud)

shell将被重定向到远程主机,阻止主线程的执行.

python database postgresql ssh psycopg2

Luc*_*chi

2019 08-27

6
推荐指数

2
解决办法

1万
查看次数

在mac os x上使用Cmake,使用完整路径链接库

我正在尝试使用cmake构建python扩展.这是cmake列表:

cmake_minimum_required(VERSION 2.8)
PROJECT(drtile)
set(CMAKE_MODULE_PATH ${CMAKE_CURRENT_SOURCE_DIR})
find_package(Vigra REQUIRED)
find_package(Boost COMPONENTS python REQUIRED)
find_package(PythonLibs REQUIRED)
find_package(Numpy REQUIRED)

include_directories(
    ${VIGRA_INCLUDE_DIR}
    ${PYTHON_NUMPY_INCLUDE_DIR}
    ${Boost_INCLUDE_DIR}
    ${PYTHON_INCLUDE_DIRS}
    ${PYTHON_INCLUDE_PATH}
)
add_library(drtile SHARED drtile.cpp)
message("xxx ${Boost_PYTHON_LIBRARY} ${VIGRA_NUMPY_CORE_LIBRARY}${VIGRA_NUMPY_IMPEX_LIBRARY}")
target_link_libraries(drtile ${Boost_PYTHON_LIBRARY} ${VIGRA_NUMPY_CORE_LIBRARY}  ${PYTHON_LIBRARY})
IF(WIN32)
   SET_TARGET_PROPERTIES(drtile PROPERTIES OUTPUT_NAME "drtile" PREFIX "" SUFFIX  ".pyd")

ELSE()
    SET_TARGET_PROPERTIES(drtile PROPERTIES OUTPUT_NAME "drtile" PREFIX "" SUFFIX ".so")
ENDIF()

Run Code Online (Sandbox Code Playgroud)

该库已正确编译和链接,但当我用otool查看喜欢的库时,我得到:

otool -L drtile.so

drtile.so:
/Users/lfiaschi/phd/workspace/lazyflow/lazyflow/drtile/drtile.so (compatibility version 0.0.0, current version 0.0.0)
libboost_python.dylib (compatibility version 0.0.0, current version 0.0.0)
vigranumpycore.so (compatibility version 0.0.0, current version 0.0.0)
/Users/lfiaschi/Library/Frameworks/Python.framework/Versions/2.7/Python (compatibility …

Run Code Online (Sandbox Code Playgroud)

macos linker rpath cmake python-extensions

Luc*_*chi

2011 09-08

5
推荐指数

1
解决办法

2671
查看次数

Scikit-learn 是否发布了 Python GIL？

我想在不同的线程中训练多个一类 SVM。有人知道 scikit 的 SVM 是否发布了 GIL？我在网上没有找到任何答案。

谢谢

python parallel-processing multithreading machine-learning scikit-learn

Luc*_*chi

2019 02-21

5
推荐指数

1
解决办法

1577
查看次数

Python中的稀疏编码

我正在寻找一个库,它实现了最常见的稀疏编码和字典学习算法与python接口,任何建议？

python machine-learning

Luc*_*chi

lucky-day

5
推荐指数

1
解决办法

5981
查看次数

pyspark 数据框、分组和计算列的方差

我想对 pyspark 数据框进行分组并计算特定列的方差。对于平均而言，这很容易，可以像这样完成

from pyspark.sql import functions as func
AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect()

Run Code Online (Sandbox Code Playgroud)

但是对于方差，函数子模块中似乎没有任何聚合函数（我也想知道为什么，因为这是一个非常常见的操作）

python pyspark spark-dataframe pyspark-sql

Luc*_*chi

lucky-day

5
推荐指数

0
解决办法

1万
查看次数

标签统计

python ×6

gensim ×2

machine-learning ×2

macos ×2

nlp ×2

pyspark ×2

word2vec ×2

apache-spark ×1

cmake ×1

database ×1

google-bigquery ×1

google-cloud-dataproc ×1

google-docs ×1

google-hadoop ×1

lemmatization ×1

linker ×1

matplotlib ×1

multithreading ×1

numpy ×1

parallel-processing ×1

postgresql ×1

psycopg2 ×1

pyspark-sql ×1

python-extensions ×1

rpath ×1

scikit-learn ×1

spark-dataframe ×1

ssh ×1

tensorflow ×1

标签 统计

小编Luc_chi的帖子

标签统计