我有一个具有唯一标识符和其他功能的数据集。看起来像这样
Run Code Online (Sandbox Code Playgroud)ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
我把它分成训练和测试数据。我试图从训练数据训练的分类器中将测试数据分为两类。我想要训练和测试数据集中的标识符,以便我可以将预测映射回 IDs。
有没有一种方法可以像我们在 Azure ML Studio 或 SAS 中所做的那样,将标识符列分配为 ID 或非预测变量?
我正在使用DecisionTreeClassifier来自 Scikit-Learn 的。这是我的分类器代码。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
Run Code Online (Sandbox Code Playgroud)
如果我只是将 ID 包含到 中traindata,则代码会引发错误:
ValueError: invalid literal for float(): 123-456
你好,我是 python 中的 sklearn 新手,我正在尝试学习它并使用此模块根据两个功能预测一些数字,这是我得到的错误:
ValueError: 只接受 2 个非关键字参数
这是我的代码:
from sklearn.linear_model import LinearRegression
import numpy as np
trainingData = np.array([[861, 16012018], [860, 12012018], [859, 9012018], [858, 5012018], [857, 2012018], [856, 29122017], [855, 26122017], [854, 22122017], [853, 19122017]])
trainingScores = np.array([11,18,23,33,34,6],[10,19,21,33,34,1], [14,18,22,23,31,6],[16,22,29,31,33,10],[21,24,27,30,31,6],[1,14,15,20,27,7],[1,9,10,11,15,8],[2,9,27,31,35,1],[7,13,18,22,33,2])
clf = LinearRegression(fit_intercept=True)
clf.fit(trainingScores,trainingData)
predictionData = np.array([862, 19012018 ])
x=clf.predict(predictionData)
print(x)
Run Code Online (Sandbox Code Playgroud) 我想创建一个热图,比如中国的省级人口,我在这里找到了类似问题的指南。
尽管我不得不承认我并没有完全理解它们,但我在阅读示例代码时没有问题。然而,当我试图通过使用中国的 shapefile 来模仿这个例子时,代码运行正常,直到以下
df_map = pd.DataFrame({
'poly': [Polygon(xy) for xy in m.china],
'ward_name': [ward['NAME'] for ward in m.china_info]})
Run Code Online (Sandbox Code Playgroud)
它产生一个错误,说
df_map = pd.DataFrame({
'poly': [Polygon(xy) for xy in m.china],
'ward_name': [ward['NAME'] for ward in m.china_info]})
Run Code Online (Sandbox Code Playgroud)
有人可以向我解释是什么导致了这个错误?
我使用numpy创建了两个数组:
import numpy as np
a = np.array([[1, 5, 7], [6, 8, 9]])
b = np.array([[1, 8, 8], [5, 8, 0], [8, 9, 0]])
np.dot(a, b)
Run Code Online (Sandbox Code Playgroud)
现在,在执行时np.dot(a, b)我收到错误:
ValueError:操作数无法与形状(2,3)(3,3)一起广播.
通常,如果a的最后一个维度与b的倒数第二个维度的大小不同,则会引发值错误.我的代码出了什么问题?
我之前在原因显而易见的地方遇到了这个错误,但我在下面的这个片段中遇到了麻烦.
#!/usr/bin/python
ACL = 'group:troubleshooters:r,user:auto:rx,user:nrpe:r'
for e in ACL.split(','):
print 'e = "%s"' % e
print 'type during split = %s' % type(e.split(':'))
print 'value during split: %s' % e.split(':')
print 'number of elements: %d' % len(e.split(':'))
for (one, two, three) in e.split(':'):
print 'one = "%s", two = "%s"' % (one, two)
Run Code Online (Sandbox Code Playgroud)
我已经添加了那些用于调试的print语句,并且已经确认拆分正在生成一个3元素列表,但是当我尝试将它放入3个变量时,我得到:
e = "group:troubleshooters:r"
type during split = <type 'list'>
value during split: ['group', 'troubleshooters', 'r']
number of elements: 3
Traceback (most recent call last):
File "/tmp/python_split_test.py", …Run Code Online (Sandbox Code Playgroud) 尽管代码之前可以工作,但两周以来一直遇到同样的错误。不确定我是否将 pandas 更新为另一个库安装的一部分,也许那里发生了一些变化。目前版本为 23.4。预期结果是仅返回具有该标识符值的行。
In [42]: df.head()
Out[43]:
index Identifier ...
0 51384710 ...
1 74838J10 ...
2 80589M10 ...
3 67104410 ...
4 50241310 ...
[5 rows x 14 columns]
In [43]: df.loc[df.Identifier.isin(['51384710'])].head()
Traceback (most recent call last):
File "C:\anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2862, in run_code
exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-44-a3dbf43451ef>", line 1, in <module>
df.loc[df.Identifier.isin(['51384710'])].head()
File "C:\anaconda3\lib\site-packages\pandas\core\indexing.py", line 1478, in __getitem__
return self._getitem_axis(maybe_callable, axis=axis)
File "C:\anaconda3\lib\site-packages\pandas\core\indexing.py", line 1899, in _getitem_axis
raise ValueError('Cannot index with multidimensional key')
**ValueError: Cannot index with …Run Code Online (Sandbox Code Playgroud) 我需要将字段添加到我的 DataFrame 中,并计算位置 A 和位置 B 之间的距离。我有这段代码,对于坐标不为空的字段效果很好:
df['Distance_AB'] = df.apply(lambda x: great_circle((x['latitude_A'],x['longitude_A']), (x['latitude_B'], x['longitude_B'])).meters, axis=1).round()
Run Code Online (Sandbox Code Playgroud)
但是当它遇到空字段时会抛出错误:
ValueError: ('点坐标必须是有限的。(nan, nan, 0.0) 已作为坐标传递。', u'出现在索引 2881 处')
如何保证大圆距离公式不会收到NULL值(没有坐标时将跳过距离计算)?我知道pd.notnull()函数,但它返回Trueor False。
所以我在运行这行代码时遇到了 TensorFlow 的一些问题:
history = model.fit(X, y, batch_size=32, epochs=40, validation_split=0.1)
Run Code Online (Sandbox Code Playgroud)
回溯如下:
Traceback (most recent call last):
File "cnnmodel.py", line 71, in <module>
history = model.fit(X, y, batch_size=32, epochs=40, validation_split=0.1)
File "C:\Users\couch\PyMOL\envs\test\lib\site-packages\tensorflow_core\python\keras\engine\training.py", line 728, in fit
use_multiprocessing=use_multiprocessing)
File "C:\Users\couch\PyMOL\envs\test\lib\site-packages\tensorflow_core\python\keras\engine\training_v2.py", line 224, in fit
distribution_strategy=strategy)
File "C:\Uslow_core\python\keras\engine\training_v2.py", line 497, in _process_training_inputs
adapter_cls = data_adapter.select_data_adapter(x, y)
File "C:\Users\couch\PyMOL\envs\test\lib\site-packages\tensorflow_core\python\keras\engine\data_adapter.py", line 653, in select_data_adapter
_type_name(x), _type_name(y)))
ValueError: Failed to find data adapter that can handle input: <class 'numpy.ndarray'>, (<class 'list'> containing values of types {"<class …Run Code Online (Sandbox Code Playgroud) 我想创建一个 user_posts 视图,其中包含与特定用户相关的所有帖子,假设有用户“Natsu”撰写的博客帖子,那么登录用户“Testuser”将能够查看所有帖子由该用户即用户“Natsu”的所有帖子。
blog models.py
class Post(models.Model):
title = models.CharField(max_length=250)
slug = models.SlugField(max_length=250, unique_for_date='publish')
author = models.ForeignKey(User, on_delete=models.CASCADE, related_name='blog_posts')
body = models.TextField()
Run Code Online (Sandbox Code Playgroud)
user models.py
class Profile(models.Model):
user = models.OneToOneField(User, on_delete=models.CASCADE)
image = models.ImageField(upload_to='profile_pic', default='default.jpg')
def __str__(self):
return f'{ self.user.username } Profile'
Run Code Online (Sandbox Code Playgroud)
views.py
def user_posts(request, username):
posts = Post.objects.filter(author=username)
return render(request, 'blog/user_posts.html', {'posts':posts})
Run Code Online (Sandbox Code Playgroud)
user_posts.html
{% for post in posts %}
<a href="{% url 'user-posts' post.author.username %}" class="mr-2">{{ post.author }}</a>
<h2><a href="{% url 'post-detail' post.pk %}">{{ post.title }}</a></h2>
{{ post.body|truncatewords:30 }}
{% …Run Code Online (Sandbox Code Playgroud) 我有一个使用我的数据集派生的训练集y_train(有 8 个独特的类)train_test_split。
y_train
2019 AD
777 QUERY
282 INFO
1879 REAL
910 QUERY
...
997 QUERY
510 FAKE
252 REAL
1334 FAKE
1579 INFO
Name: target, Length: 1653, dtype: object
Run Code Online (Sandbox Code Playgroud)
现在,当我to_categorical在这组上运行时,我收到此错误。
y_train = to_categorical(np.asarray(y_train),8, dtype='O')
41 """
42
---> 43 y = np.array(y, dtype='int')
44 input_shape = y.shape
45 if input_shape and input_shape[-1] == 1 and len(input_shape) > 1:
ValueError: invalid literal for int() with base 10: 'AD'
Run Code Online (Sandbox Code Playgroud)
我也尝试过, y_train = to_categorical(np.asarray(y_train))但它给出了同样的错误,我不明白为什么?dtype …
valueerror ×10
python ×7
keras ×2
pandas ×2
scikit-learn ×2
tensorflow ×2
dataframe ×1
django ×1
dot-product ×1
foreign-keys ×1
null ×1
numpy ×1
polygon ×1
python-3.x ×1
shapely ×1