我在pandas中有一个数据框,其中每列具有不同的值范围.例如:
DF:
A B C
1000 10 0.5
765 5 0.35
800 7 0.09
Run Code Online (Sandbox Code Playgroud)
知道如何规范化这个数据帧的列,其中每个值介于0和1之间?
我想要的输出是:
A B C
1 1 1
0.765 0.5 0.7
0.8 0.7 0.18(which is 0.09/0.5)
Run Code Online (Sandbox Code Playgroud) 我无法弄清楚是否需要在我的bootstrap项目中添加normalize.css样式表.我正在使用最新版本的bootstrap,v2.3.2.
我想知道我是否在python中规范化了一个URL.
例如,如果我有一个url字符串,如:" http://www.example.com/foo goo/bar.html"
我需要一个python中的库,它将额外的空间(或任何其他非规范化的字符)转换为正确的URL.
我有一个numpy数组,其中特定行的每个单元格代表一个特征的值.我将它们全部存储在100*4矩阵中.
A B C
1000 10 0.5
765 5 0.35
800 7 0.09
Run Code Online (Sandbox Code Playgroud)
知道我如何规范化这个numpy.array的行,其中每个值介于0和1之间?
我想要的输出是:
A B C
1 1 1
0.765 0.5 0.7
0.8 0.7 0.18(which is 0.09/0.5)
Run Code Online (Sandbox Code Playgroud)
提前致谢 :)
在这个页面(https://pytorch.org/vision/stable/models.html)中,它说“所有预训练的模型都期望以相同的方式标准化输入图像,即小批量的 3 通道 RGB 图像形状 (3 x H x W),其中 H 和 W 预计至少为 224。图像必须加载到 [0, 1] 的范围内,然后使用mean = [0.485, 0.456, 0.406]
和std = [0.229, 0.224, 0.225]
“进行归一化。
如果不是平时mean
和std
正常化是[0.5, 0.5, 0.5]
和[0.5, 0.5, 0.5]
?为什么要设置这么奇怪的值?
我有点被困在这里,我想这有点像脑筋急转弯.如果我的数字在0.5到1之间,我怎样才能将其标准化为0到1?
感谢您的帮助,也许我只是有点慢,因为我已经连续24小时工作O_O
我知道人工神经网络输入必须标准化,标准化等.除了各种人工神经网络的特性和模型之外,我如何在{0,1}范围内或者在范围{-1之间预处理UTF-8编码文本. 1}在它作为神经网络的输入之前?我一直在谷歌搜索这个,但找不到任何信息(我可能使用错误的术语).
编辑2013年11月20日:
我一直认为皮特的答案是正确的.然而,我有严重的疑虑,主要是由于我最近对符号知识和ANN的研究.
Dario Floreano和Claudio Mattiussi在他们的书中解释说,通过使用分布式编码,这种处理确实是可行的.
事实上,如果你尝试谷歌学者搜索,存在大量的神经科学文章和论文,关于如何假设分布式编码被大脑用来编码符号知识.
Teuvo Kohonen在他的论文" Self Organizing Maps "中解释说:
有人可能会认为将神经适应法应用于符号集(被视为一组矢量变量)可能会创建一个显示符号之间"逻辑距离"的地形图.然而,与连续数据相比,出现了符号的不同性质的问题.对于后者,相似性总是以自然的方式显示,作为其连续编码之间的度量差异.对于没有定义度量的离散符号项(例如单词),这不再适用.符号的本质是它的意义与其编码分离.
然而,Kohonen确实设法处理SOM中的符号信息!
此外,Alfred Ultsch博士在他的论文" 神经网络与符号知识处理的整合 "中完全阐述了如何在ANN中处理符号知识(如文本).Ultsch提供以下处理符号知识的方法:神经近似推理,神经统一,内省和综合知识获取.虽然谷歌学者或其他任何地方的人都可以找到很少的信息.
皮特在他的回答中是关于语义的.人工神经网络中的语义通常是断开的.然而,下面的参考,提供了洞察研究人员如何使用RBM,训练识别不同单词输入的语义相似性,因此它不应该是不可能有语义,但需要分层方法,或者如果需要语义,则需要辅助ANN .
使用子符号神经网络进行自然语言处理,Risto Miikkulainen,1997 训练受限制的Boltzmann机器进行单词观察,GEDahl,Ryan.P.Adams,H.Rarochelle,2012
preprocessor normalize standardized textinput neural-network
我正在使用matplotlib绘制对数标准化的图像,但我希望原始的原始图像数据在颜色条中表示而不是[0-1]区间.通过使用某种规范化对象并且不事先转换数据,我感觉有更多的matplotlib'y方法.在任何情况下,原始图像中都可能存在负值.
import matplotlib.pyplot as plt
import numpy as np
def log_transform(im):
'''returns log(image) scaled to the interval [0,1]'''
try:
(min, max) = (im[im > 0].min(), im.max())
if (max > min) and (max > 0):
return (np.log(im.clip(min, max)) - np.log(min)) / (np.log(max) - np.log(min))
except:
pass
return im
a = np.ones((100,100))
for i in range(100): a[i] = i
f = plt.figure()
ax = f.add_subplot(111)
res = ax.imshow(log_transform(a))
# the colorbar drawn shows [0-1], but I want to see [0-99]
cb = …
Run Code Online (Sandbox Code Playgroud) 我一直在尝试normalize
一个非常嵌套的json文件,我稍后会分析.我正在努力的是如何超过一个级别来规范化.
我浏览了pandas.io.json.json_normalize文档,因为它完全符合我的要求.
我能够将其中的一部分标准化,现在了解字典是如何工作的,但我仍然不在那里.
使用以下代码,我只能获得第一级.
import json
import pandas as pd
from pandas.io.json import json_normalize
with open('authors_sample.json') as f:
d = json.load(f)
raw = json_normalize(d['hits']['hits'])
authors = json_normalize(data = d['hits']['hits'],
record_path = '_source',
meta = ['_id', ['_source', 'journal'], ['_source', 'title'],
['_source', 'normalized_venue_name']
])
Run Code Online (Sandbox Code Playgroud)
我试图用下面的代码'挖掘''作者'字典,但是record_path = ['_source', 'authors']
抛出了我TypeError: string indices must be integers
.据我所知json_normalize
,逻辑应该是好的,但我仍然不太明白如何与dict
vs 潜入json list
.
我甚至经历了这个简单的例子.
authors = json_normalize(data = d['hits']['hits'],
record_path = ['_source', 'authors'],
meta = …
Run Code Online (Sandbox Code Playgroud) 我们的一些用户使用无法处理Unicode的电子邮件客户端,即使在邮件头中正确设置了编码等.
我想"规范化"他们收到的内容.我们遇到的最大问题是用户将来自Microsoft Word的内容复制到我们的Web应用程序中,然后通过电子邮件转发该内容 - 包括分数,智能引号以及Word为您帮助插入的所有其他扩展Unicode字符.
我猜这里没有明确的解决方案,但在我坐下来开始编写伟大的查找表之前,是否有一些内置的方法可以让我开始?
基本上涉及三个阶段.
首先,从其他正常字母中删除重音 - 解决方案就在这里
This paragraph contains “smart quotes” and áccénts and ½ of the problem is fractions
Run Code Online (Sandbox Code Playgroud)
去
This paragraph contains “smart quotes” and accents and ½ of the problem is fractions
Run Code Online (Sandbox Code Playgroud)
其次,用它们的ASCII等效替换单个Unicode字符,给出:
This paragraph contains "smart quotes" and accents and ½ of the problem is fractions
Run Code Online (Sandbox Code Playgroud)
在我实现自己的解决方案之前,这是我希望有解决方案的部分.最后,使用合适的ASCII序列替换特定字符 - ½到1/2,依此类推 - 我很确定任何类型的Unicode魔法本身都不支持,但是有人可能已经写了一个合适的查找表我可以再利用.
有任何想法吗?
normalize ×10
python ×6
pandas ×2
.net ×1
ascii ×1
c++ ×1
codepages ×1
css-reset ×1
hlsl ×1
json ×1
math ×1
matplotlib ×1
numpy ×1
preprocessor ×1
python-3.x ×1
pytorch ×1
standardized ×1
textinput ×1
unicode ×1
url ×1