小编Ana*_*yal的帖子

用pyspark连接mysql

我想用pyspark连接mysql。我正在使用 jupyter notebook 运行 pyspark。然而,当我这样做时,

dataframe_mysql = sqlContext.read.format("jdbc").options(
    url="jdbc:mysql://localhost:3306/playground",
    driver = "com.mysql.jdbc.Driver",
    dbtable = "play1",
    user="root",
    password="sp123").load()
Run Code Online (Sandbox Code Playgroud)

我得到一个错误

Py4JJavaError:调用 o89.load 时发生错误。:java.lang.ClassNotFoundException:com.mysql.jdbc.Driver。

如何解决此错误并在 pyspark 数据框中加载 mysql 数据?

python mysql apache-spark pyspark

6
推荐指数
1
解决办法
6336
查看次数

使用 Pandas 数据框将边权重分配给 networkx 图

我正在 python 3 中构建 networkx 图。我正在使用 Pandas 数据框为图提供边和节点。这是我所做的:

test = pd.read_csv("/home/Desktop/test_call1", delimiter = ';')

g_test = nx.from_pandas_edgelist(test, 'number', 'contactNumber', edge_attr='callDuration')
Run Code Online (Sandbox Code Playgroud)

我想要的是 Pandas 数据框的“callDuration”列作为 networkx 图的边的权重,边的厚度也相应地改变。

我还想获得“n”个最大加权边。

graph networkx python-3.x pandas weighted-graph

6
推荐指数
1
解决办法
1万
查看次数

在python中的networkx图中查找最大加权边

我想在 networkx 图中找到“n”个最大加权边。怎么可能实现。我已经构建了一个图表如下:

g_test = nx.from_pandas_edgelist(new_df, 'number', 'contactNumber', edge_attr='callDuration')
Run Code Online (Sandbox Code Playgroud)

现在,我想找到前“n”个边权重,即前“n”个 callDurations。我还想分析这个图表以从中找出趋势。请帮助我如何实现这一目标。

python graph-traversal networkx python-3.x pandas

6
推荐指数
2
解决办法
4461
查看次数