我想用pyspark连接mysql。我正在使用 jupyter notebook 运行 pyspark。然而,当我这样做时,
dataframe_mysql = sqlContext.read.format("jdbc").options(
url="jdbc:mysql://localhost:3306/playground",
driver = "com.mysql.jdbc.Driver",
dbtable = "play1",
user="root",
password="sp123").load()
Run Code Online (Sandbox Code Playgroud)
我得到一个错误
Py4JJavaError:调用 o89.load 时发生错误。:java.lang.ClassNotFoundException:com.mysql.jdbc.Driver。
如何解决此错误并在 pyspark 数据框中加载 mysql 数据?
我正在 python 3 中构建 networkx 图。我正在使用 Pandas 数据框为图提供边和节点。这是我所做的:
test = pd.read_csv("/home/Desktop/test_call1", delimiter = ';')
g_test = nx.from_pandas_edgelist(test, 'number', 'contactNumber', edge_attr='callDuration')
Run Code Online (Sandbox Code Playgroud)
我想要的是 Pandas 数据框的“callDuration”列作为 networkx 图的边的权重,边的厚度也相应地改变。
我还想获得“n”个最大加权边。
我想在 networkx 图中找到“n”个最大加权边。怎么可能实现。我已经构建了一个图表如下:
g_test = nx.from_pandas_edgelist(new_df, 'number', 'contactNumber', edge_attr='callDuration')
Run Code Online (Sandbox Code Playgroud)
现在,我想找到前“n”个边权重,即前“n”个 callDurations。我还想分析这个图表以从中找出趋势。请帮助我如何实现这一目标。