小编Ana*_*yal的帖子

用pyspark连接mysql

我想用pyspark连接mysql。我正在使用 jupyter notebook 运行 pyspark。然而，当我这样做时，

dataframe_mysql = sqlContext.read.format("jdbc").options(
    url="jdbc:mysql://localhost:3306/playground",
    driver = "com.mysql.jdbc.Driver",
    dbtable = "play1",
    user="root",
    password="sp123").load()

Run Code Online (Sandbox Code Playgroud)

我得到一个错误

Py4JJavaError：调用 o89.load 时发生错误。：java.lang.ClassNotFoundException：com.mysql.jdbc.Driver。

如何解决此错误并在 pyspark 数据框中加载 mysql 数据？

python mysql apache-spark pyspark

Ana*_*yal

2018 08-21

6
推荐指数

1
解决办法

6336
查看次数

使用 Pandas 数据框将边权重分配给 networkx 图

我正在 python 3 中构建 networkx 图。我正在使用 Pandas 数据框为图提供边和节点。这是我所做的：

test = pd.read_csv("/home/Desktop/test_call1", delimiter = ';')

g_test = nx.from_pandas_edgelist(test, 'number', 'contactNumber', edge_attr='callDuration')

Run Code Online (Sandbox Code Playgroud)

我想要的是 Pandas 数据框的“callDuration”列作为 networkx 图的边的权重，边的厚度也相应地改变。

我还想获得“n”个最大加权边。

graph networkx python-3.x pandas weighted-graph

Ana*_*yal

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

在python中的networkx图中查找最大加权边

我想在 networkx 图中找到“n”个最大加权边。怎么可能实现。我已经构建了一个图表如下：

g_test = nx.from_pandas_edgelist(new_df, 'number', 'contactNumber', edge_attr='callDuration')

Run Code Online (Sandbox Code Playgroud)

现在，我想找到前“n”个边权重，即前“n”个 callDurations。我还想分析这个图表以从中找出趋势。请帮助我如何实现这一目标。

python graph-traversal networkx python-3.x pandas

Ana*_*yal

lucky-day

6
推荐指数

2
解决办法

4461
查看次数

标签统计

networkx ×2

pandas ×2

python ×2

python-3.x ×2

apache-spark ×1

graph ×1

graph-traversal ×1

mysql ×1

pyspark ×1

weighted-graph ×1

用pyspark连接mysql

使用 Pandas 数据框将边权重分配给 networkx 图

在python中的networkx图中查找最大加权边

标签 统计

小编Ana_yal的帖子

标签统计