我正在干净安装小牛队,不小心做了
brew install gcc
Run Code Online (Sandbox Code Playgroud)
这花了半个多小时,也许更多.我应该终止吗?我现在知道我应该安装一个特定的gcc(也许是gcc48)但是为时已晚,我的macbook空气呼吸困难.
目前已完成下载所有5个依赖项,但卡在"安装gcc"部分.它下载了一个gcc-4.9.1.tar.bz2,配置并构建它,并坚持制作引导程序.
任何建议表示赞赏.
这是我太晚看到的好建议:https://apple.stackexchange.com/questions/38222/how-do-i-install-gcc-via-homebrew
首先在这里问:https://superuser.com/questions/788256/brew-install-gcc-mac-os-10-9-mavericks
如何为Google Firebase重新登录我的Web API密钥?由于误导的原因,我删除了自动生成的.
如果它不可删除,我是否需要创建一个新的应用程序或新项目?
我制作了一个250MB的json文件,看起来应该像这样:
[ {"A":"uniquevalue0", "B":[1,2,3]},
{"A":"uniquevalue1", "B":[1]},
{"A":"uniquevalue2", "B":[1,2,3,4]} ]
Run Code Online (Sandbox Code Playgroud)
其中“ B”值可以为len> =1。这表示我具有有效的JSON。
我打电话
df = pandas.read_json('ut1.json', orient = 'records', dtype={"A":str, "B":list})
Run Code Online (Sandbox Code Playgroud)
这是文档。当读入熊猫数据框时,我得到以下回溯:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/.../pandas/io/json.py", line 198, in read_json
date_unit).parse()
File "/.../pandas/io/json.py", line 266, in parse
self._parse_no_numpy()
File "/.../pandas/io/json.py", line 496, in _parse_no_numpy
loads(json, precise_float=self.precise_float), dtype=None)
ValueError: Unexpected character found when decoding 'true'
Run Code Online (Sandbox Code Playgroud)
想不到出了什么问题。引发错误的python文件并没有帮助。
假设我的数据是每日计数,并且有一个DateTimeIndex列作为其索引。是否可以获取过去n个工作日的平均值?例如,如果日期是8月15日(星期日),我想获取计数的平均值(8月8日星期日,8月1日星期日,...)。
我昨天开始使用熊猫,所以这是我强行使用的方法。
# df is a dataframe with an DateTimeIndex
# brute force for count last n weekdays, wherelnwd = last n weekdays
def lnwd(n=1):
lnwd, tmp = df.shift(7), df.shift(7) # count last weekday
for i in xrange(n-1):
tmp = tmp.shift(7)
lnwd += tmp
lnwd = lnwd/n # average
return lnwd
Run Code Online (Sandbox Code Playgroud)
必须有一个班轮吗?有没有一种使用方式apply()(不传递具有for循环的函数?因为n是可变的)groupby?例如,查找每个工作日所有数据均值的方法是:
df.groupby(lambda x: x.dayofweek).mean() # mean of each MTWHFSS
Run Code Online (Sandbox Code Playgroud) apply_async调用iterable(?)函数和回调函数之间的工作流程如何?
设置:我正在读取2000文件目录中的所有文件的一些行,一些有数百万行,有些只有少数几行.提取一些标题/格式/日期数据以对每个文件进行特征化.这是在16 CPU机器上完成的,因此对它进行多处理是有意义的.
目前,预期的结果被发送到列表(ahlala),所以我可以打印出来; 之后,这将被写入*.csv.这是我的代码的简化版本,最初基于这个非常有用的帖子.
import multiprocessing as mp
def dirwalker(directory):
ahlala = []
# X() reads files and grabs lines, calls helper function to calculate
# info, and returns stuff to the callback function
def X(f):
fileinfo = Z(arr_of_lines)
return fileinfo
# Y() reads other types of files and does the same thing
def Y(f):
fileinfo = Z(arr_of_lines)
return fileinfo
# results() is the callback function
def results(r):
ahlala.extend(r) # or .append, haven't yet …Run Code Online (Sandbox Code Playgroud) 我有一组从发电机生成的几千个素数:
primes = set(primegen()) = set([..., 89, 97, 101, 103, ...])
Run Code Online (Sandbox Code Playgroud)
其中一些素数为零.我想摆脱它们.有没有办法一次完成这一切?
目前我正在删除元素,因为我循环遍历素数,正则表达式匹配:
import re
zero = re.compile('.+0.+')
while primes:
p = str(primes.pop())
if zero.match(p):
continue
# do other stuff
Run Code Online (Sandbox Code Playgroud)
我认为这是最好的方式,但如果我错了,我很好奇.
我决定使用brew安装python3:brew install python
我该如何撤消这个操作?我尝试brew uninstall python并收到此错误:
Error: Refusing to uninstall /usr/local/Cellar/python/3.7.7
because it is required by libxml2 and libxmlsec1, which are currently installed.
You can override this and force removal with:
brew uninstall --ignore-dependencies python
Run Code Online (Sandbox Code Playgroud)
我尝试取消链接它brew unlink python- 它有效,但仍然无法卸载。--ignore-dependencies这样做的正确方法是吗?
使用multiprocessing.Pool apply_async()时,代码中断会发生什么?我认为这包括例外情况,但可能还有其他因素会导致工作人员失败.
import multiprocessing as mp
pool = mp.Pool(mp.cpu_count())
for f in files:
pool.apply_async(workerfunct, args=(*args), callback=callbackfunct)
Run Code Online (Sandbox Code Playgroud)
正如我现在所理解的那样,进程/工作程序失败(所有其他进程继续)并且没有执行抛出错误的任何内容,即使我用try/except捕获错误也是如此.
作为一个例子,通常我除了错误并输入默认值和/或打印出错误消息,然后代码继续.如果我的回调函数涉及写入文件,则使用默认值完成.
我怀疑你没有看到你的示例代码发生任何事情的原因是因为所有的工作者函数调用都失败了.如果worker函数失败,则永远不会执行回调.除非您尝试从apply_async调用返回的AsyncResult对象中获取结果,否则根本不会报告失败.但是,由于您没有保存任何这些对象,因此您永远不会知道发生的故障.如果我是你,我会在你测试时尝试使用pool.apply,这样你就会在发生错误时立即看到错误.
我有一个数据帧:
df = pd.DataFrame({
'A': [1,2,3,4],
'B': [12,23,34,45]
})
Run Code Online (Sandbox Code Playgroud)
看起来像
----------------------------
index A B
0 1 12
1 2 23
2 3 34
3 4 45
-----------------------------
Run Code Online (Sandbox Code Playgroud)
我有一阵次,[0,1,2].我想df每次复制行A和B:
------------------------------------
index A B time
1 12 0
1 12 1
1 12 2
2 23 0
2 23 1
2 23 2
3 34 0
3 34 1
3 34 2
4 45 0
4 45 1
4 45 2
-------------------------------------
Run Code Online (Sandbox Code Playgroud)
我不想使用MultiIndex或Stack(因为我希望它尽可能平坦).结合没有帮助.我没有加入,因为我正在尝试组合,所以Merge/Concatenate似乎无济于事.
从这个链接它说生成器不像迭代器那样初始化。
如何将生成器的元素添加到集合中?有没有比只是一种for item in generator东西和使用更好的方法setname.add(item)?
生成器是cursor.execute("SELECT ...")从连接到 sqlite3 数据库的命令返回到游标的。
在 spark sql 中,您可以asc_nulls_last在 orderBy 中使用,例如
df.select('*').orderBy(column.asc_nulls_last).show
Run Code Online (Sandbox Code Playgroud)
你会如何在 pyspark 中做到这一点?
我专门用它来做一个“窗口覆盖”之类的事情:
df = df.withColumn(
'rank',
row_number().over(Window.partitionBy('group_id').orderBy('datetime'))
)
Run Code Online (Sandbox Code Playgroud)
其中datetime列可以是日期时间或空值。
我希望这样做:
...orderBy(expr('column asc NULLS last'))
Run Code Online (Sandbox Code Playgroud)
但是这个错误 Exception: mismatched input 'NULLS' expecting <EOF>
python ×8
pandas ×3
homebrew ×2
set ×2
apache-spark ×1
combinations ×1
firebase ×1
gcc ×1
generator ×1
json ×1
macos ×1
pyspark ×1
time-series ×1