小编Cla_lay的帖子

Jupyter Windows快捷方式默认损坏

安装Anaconda后,Jupyter笔记本快捷键工作正常.其他stackoverflow答案表明您可以通过更改快捷方式属性中的"开始于:"字段来更改默认工作目录.但是,如果Anaconda安装在单个用户的建议文件夹中C:\Users\whshg0\AppData\Local\Continuum\Anaconda3\,则在Target编辑Start in字段时会截断快捷方式的字段.例:

C:\Users\user01\AppData\Local\Continuum\Anaconda3\python.exe C:\Users\user01\AppData\Local\Continuum\Anaconda3\cwp.py C:\Users\user01\AppData\Local\Continuum\Anaconda3 "C:/Users/user01/AppData/Local/Continuum/Anaconda3/python.exe" "C:/Users/user01/AppData/Loc

Run Code Online (Sandbox Code Playgroud)

al/Continuum/Anaconda3/Scripts/jupyter-notebook-script.py"被截断.单击确定后,Jupyter Notebook将不再打开.

重建Jupyter Notebook快捷方式的快速方法是什么,因此Target不限于255个字符限制？

anaconda jupyter jupyter-notebook

14
推荐指数

3
解决办法

6060
查看次数

使用xlsxwriter将pandas数据帧写入Excel并包含`write_rich_string`格式

以下是可重现的并生成所需的输出.

import xlsxwriter, pandas as pd

workbook = xlsxwriter.Workbook('pandas_with_rich_strings.xlsx')
worksheet = workbook.add_worksheet()

# Set up some formats to use.
bold = workbook.add_format({'bold': True})
italic = workbook.add_format({'italic': True})
red = workbook.add_format({'color': 'red'})

df = pd.DataFrame({
    'numCol': [1, 50, 327],
    'plainText': ['plain', 'text', 'column'],
    'richText': [
        ['This is ', bold, 'bold'],
        ['This is ', italic, 'italic'],
        ['This is ', red, 'red']
    ]
}) 


headRows = 1


for colNum in range(len(df.columns)):
    xlColCont = df[df.columns[colNum]].tolist()
    worksheet.write_string(0, colNum , str(df.columns[colNum]), bold)
    for rowNum in range(len(xlColCont)): …

Run Code Online (Sandbox Code Playgroud)

python python-3.x pandas xlsxwriter

6
推荐指数

1
解决办法

3520
查看次数

允许来宾参加VS Code实时共享会话以运行Python扩展“单元”

当VS Code Live Share会话中的访客尝试运行VS Code Python扩展“单元”时，他们将在右下方的错误弹出对话框中获得以下消息：

The host doesn’t allow running this command. 
If needed, ask them to enable it.

Run Code Online (Sandbox Code Playgroud)

单击弹出对话框的“更多信息”按钮，将来宾定向到https://docs.microsoft.com/zh-cn/visualstudio/liveshare/reference/security。我在此页面上找不到它描述如何允许访客使用特定VS Code扩展的某些功能的页面。

作为主持人，如何允许我的VS Code Live Share会话的来宾运行VS Code Python扩展“单元”？

visual-studio-code vscode-settings

6
推荐指数

1
解决办法

219
查看次数

安装 sparknlp 后，无法导入 sparknlp

以下在 Cloudera CDSW 集群网关上成功运行。

import pyspark
from pyspark.sql import SparkSession
spark = (SparkSession
            .builder
            .config("spark.jars.packages","JohnSnowLabs:spark-nlp:1.2.3")
            .getOrCreate()
         )

Run Code Online (Sandbox Code Playgroud)

产生这个输出。

Ivy Default Cache set to: /home/cdsw/.ivy2/cache
The jars for the packages stored in: /home/cdsw/.ivy2/jars
:: loading settings :: url = jar:file:/opt/cloudera/parcels/SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354/lib/spark2/jars/ivy-2.4.0.jar!/org/apache/ivy/core/settings/ivysettings.xml
JohnSnowLabs#spark-nlp added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent;1.0
    confs: [default]
    found JohnSnowLabs#spark-nlp;1.2.3 in spark-packages
    found com.typesafe#config;1.3.0 in central
    found org.fusesource.leveldbjni#leveldbjni-all;1.8 in central
downloading http://dl.bintray.com/spark-packages/maven/JohnSnowLabs/spark-nlp/1.2.3/spark-nlp-1.2.3.jar ...
    [SUCCESSFUL ] JohnSnowLabs#spark-nlp;1.2.3!spark-nlp.jar (3357ms)
downloading https://repo1.maven.org/maven2/com/typesafe/config/1.3.0/config-1.3.0.jar ...
    [SUCCESSFUL ] com.typesafe#config;1.3.0!config.jar(bundle) (348ms)
downloading https://repo1.maven.org/maven2/org/fusesource/leveldbjni/leveldbjni-all/1.8/leveldbjni-all-1.8.jar ... …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark apache-spark-mllib spark-packages johnsnowlabs-spark-nlp

5
推荐指数

2
解决办法

4297
查看次数

使用 Polars 从 S3 并行读取许多小 json 文件

我看过以下极地文档：
https://pola-rs.github.io/polars-book/user-guide/multiple_files/intro.html#reading-and-processing-in-parallel

有没有办法创建一个查询计划来从 S3 存储桶读取许多小 json 文件？

这类似于 Spark 从单个 S3 前缀（路径）读取许多小 json 文件或 csv 文件的方式：

spark.read.format("json").load("s3a://my-bucket/path/to/smallfiles/*.json")

Run Code Online (Sandbox Code Playgroud)

python amazon-s3 dataframe python-polars

5
推荐指数

0
解决办法

847
查看次数

RStudio 中 R markdown 文档中的自动编号方程

通过在 Rmd 文档的开头添加以下语句，我可以在 RStudio 中的 R markdown 文档中自动编号 mathjax 方程：

<script type="text/x-mathjax-config">
MathJax.Hub.Config({
  TeX: { 
      equationNumbers: { 
            autoNumber: "all",
            formatNumber: function (n) {return '9.'+n}
      } 
  }
});
</script>

Run Code Online (Sandbox Code Playgroud)

以下也适用，但不适用于 $$..$$ 方程，只有用 \begin{equation}..\end{equation} 括起来的方程。

<script type="text/x-mathjax-config">
MathJax.Hub.Config({
  TeX: { 
      equationNumbers: { 
            autoNumber: "AMS",
            formatNumber: function (n) {return '9.'+n}
      } 
  }
});
</script>

Run Code Online (Sandbox Code Playgroud)

我可以将编号更改为\tag{mylabel}$$..$$ 内的静态标签，并且自动编号将跳过该等式。

不幸的是，在没有标签的情况下跳过添加\tag{}结果仍然用 () 标记的等式。

有谁知道如何摆脱空括号？

有没有人知道一个简单的语句可以添加到 mathjax 脚本语句或 Rmd 文档中的 $$..$$ 方程中，它将自动编号的节号添加到方程编号？

这里的大部分信息：http : //mathjax.readthedocs.org/en/latest/tex.html#automatic-equation-numbering

谢谢

latex r mathjax rstudio r-markdown

4
推荐指数

1
解决办法

4706
查看次数

高效地将numpy数组数组转换为pandas系列数组

如何有效地将 numpy 数组数组转换为数组列表？最终，我想让 pandas 系列数组成为数据框中的列。如果有更好的办法可以直接到达，那也很好。

以下可重现的代码解决了list()或的问题.tolist()，但在我的实际数据集上实现都太慢。我正在寻找更快的东西。

import numpy as np 
import pandas as pd

a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7])])

s = pd.Series(a.tolist())

s = pd.Series(list(a))

Run Code Online (Sandbox Code Playgroud)

这导致形状从a.shape = (2,4)到s.values.shape = (2,)。

python arrays numpy pandas

4
推荐指数

1
解决办法

8847
查看次数

Deepcopy pandas DataFrame 包含 python 对象（例如列表）

需要帮助理解变量赋值、指针……

以下是可重现的。

import pandas as pd

df = pd.DataFrame({
    'listData': [
        ['c', 'f', 'd', 'a', 'e', 'b'], 
        [5, 2, 1, 4, 3]
    ]})

df['listDataSort'] = df['listData']

Run Code Online (Sandbox Code Playgroud)

给出：

             listData        listDataSort
0  [c, f, d, a, e, b]  [c, f, d, a, e, b]
1     [5, 2, 1, 4, 3]     [5, 2, 1, 4, 3]

Run Code Online (Sandbox Code Playgroud)

如果我只想对列中的列表进行排序listDataSort，我可以尝试：

df['listDataSort'].apply(lambda l: l.sort())
df

Run Code Online (Sandbox Code Playgroud)

但是，这会就地对两列中的列表进行排序。

             listData        listDataSort
0  [a, b, c, d, e, f]  [a, b, c, d, e, f]
1     [1, 2, 3, …

Run Code Online (Sandbox Code Playgroud)

python memory-management python-3.x pandas

3
推荐指数

1
解决办法

1315
查看次数

如何使用 XlsxWriter 将多种格式添加到同一文本

文档中的以下示例效果很好：

import xlsxwriter

workbook = xlsxwriter.Workbook('rich_strings.xlsx')
worksheet = workbook.add_worksheet()

worksheet.set_column('A:A', 30)

# Set up some formats to use.
bold = workbook.add_format({'bold': True})
italic = workbook.add_format({'italic': True})
red = workbook.add_format({'color': 'red'})

# Write some strings with multiple formats.
worksheet.write_rich_string('A1',
                            'This is ',
                            bold, 'bold',
                            ' and this is ',
                            italic, 'italic')

Run Code Online (Sandbox Code Playgroud)

但我该如何做一些粗体和斜体的事情呢？

以下不起作用。

worksheet.write_rich_string('A1',
                            'This is ',
                            bold, 'bold',
                            ', this is ',
                            italic, 'italic',                                
                            ', and this is',
                            bold and italic, ' bold and italic')

Run Code Online (Sandbox Code Playgroud)

python python-3.x xlsxwriter

2
推荐指数

1
解决办法

3029
查看次数

让 mutool 输出“结构化文本（作为 xml）”

按照 mutool 的命令说明进行draw操作
https://mupdf.com/docs/manual-mutool-draw.html

当输出“矢量格式”之一是“调试跟踪（作为 xml）”并且“输出格式是从输出文件名推断出来”时，如何输出“结构化文本（作为 xml）”？

如果我跑

mutool draw -o "testfile.xml" "testfile.pdf"

Run Code Online (Sandbox Code Playgroud)

看来我得到了“调试跟踪（作为 xml）”文件格式。

我应该使用什么文件扩展名来确保输出“结构化文本（如 xml）”格式？

pdf mupdf structured-text

1
推荐指数

1
解决办法

1907
查看次数

标签统计

apache-spark ×1

apache-spark-mllib ×1

johnsnowlabs-spark-nlp ×1

jupyter-notebook ×1

memory-management ×1

pdf ×1

python-polars ×1

r ×1

spark-packages ×1

structured-text ×1

visual-studio-code ×1

vscode-settings ×1