我有一个包含时间的列表。每个时间都是从 1904 年 1 月 1 日开始的秒数。这不是 Unix 或我熟悉的任何其他转换。我怎样才能将其转换为日期?
例如 3438012868.0,即 1904 年 1 月 1 日起的 3438012868.0 秒。我希望该日期为 2012 年 12 月 11 日下午 1:00.30
我只是数据分析的初学者。我想使用“交叉验证网格搜索方法”来确定径向基函数 (RBF) 内核 SVM 的参数 gamma 和 C。我不知道应该将数据放在这段代码的哪里,也不知道我的数据类型是什么应该使用(训练或目标数据)?
对于SVR
import numpy as np
import pandas as pd
from math import sqrt
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error,explained_variance_score
from TwoStageTrAdaBoostR2 import TwoStageTrAdaBoostR2 # import the two-stage algorithm
from sklearn import preprocessing
from sklearn import svm
from sklearn.svm import SVR
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from matplotlib.colors import Normalize
from sklearn.svm import SVC
# Data import (source)
source= pd.read_csv(sourcedata) …Run Code Online (Sandbox Code Playgroud) data-visualization svm data-analysis scikit-learn grid-search
我在一个 pandas 数据框中有一个名为“date”的列名称,这是前 10 行:
0 22-Oct-2022
1 3-Dec-2019
2 27-Jun-2022
3 2023
4 15-Jul-2017
5 2019
6 7-Sep-2022
7 2021
8 30-Sep-2022
9 17-Aug-2021
Run Code Online (Sandbox Code Playgroud)
我想将所有这些日期转换为例如:
0 2023-05-19
1 2023-01-20
2 ...
Run Code Online (Sandbox Code Playgroud)
对于那些只有 YEAR 的行,我想将其设置为例如,如果原始 df 有:
0 2019
1 2021
Run Code Online (Sandbox Code Playgroud)
到
5 2019-01-01
7 2021-01-01
Run Code Online (Sandbox Code Playgroud)
换句话说,我的意思是我想在这种情况下设置今年的第一个日期,但保留原始年份而不是当前年份。
我试过:
df['date'] = pd.to_datetime(df['date'], errors='coerce', format='%d-%b-%Y')
Run Code Online (Sandbox Code Playgroud)
然而它正在生成 NaT 值。我希望你们能理解这个案例,如果有任何解决这个问题的想法,我将不胜感激
谢谢。
date red,heavy,new blue,light,old
1-2-20 320 120
2-3-20 220 125
Run Code Online (Sandbox Code Playgroud)
我想遍历所有行和列,以便我可以解析列名并将它们用作新列的值。我想获取这种格式的数据:
我想要重复日期。“值”列来自原始表。
date color weight condition. value
1-2-20 red heavy new 320
1-2-20 blue light. old. 120
2-3-20 red. heavy new. 220
Run Code Online (Sandbox Code Playgroud)
我试过这个,当我只有一列时它有效
colName = df_retransform.columns[1]
lst = colName.split(",")
color = lst[0]
weight = lst[1]
condition = lst[2]
df_retransform.rename(columns={colName: 'value'}, inplace=True)
df_retransform['color'] = color
df_retransform['weight'] = weight
df_retransform['condition'] = condition
Run Code Online (Sandbox Code Playgroud)
但我无法修改它,以便我可以对所有列进行修改。
目前我在R中进行数据分析.最终我想创建一个GUI,可以给出分析摘要和主要情节.有谁知道我是否可以使用R来创建界面?如果没有,你知道我是否可以结合MATLAB(用于GUI)和R?
我感谢你的合作.
先感谢您!
我有以下输入数据结构:
X1 | X2 | X3 | ... | Output (Label)
118.12341 | 118.12300 | 118.12001 | ... | [a value between 0 & 1] e.g. 0.423645
Run Code Online (Sandbox Code Playgroud)
我使用它tensorflow来解决预测Output变量未来值的回归问题。为此,我构建了一个前馈神经网络,该网络具有三个具有relu激活函数的隐藏层和一个具有一个节点的最终输出层linear activation。该网络使用优化器通过反向传播进行训练adam。
我的问题是,在对网络进行了数千次训练后,我意识到输入特征和输出中的这种高度小数的值仅导致预测接近小数点后第二位,例如:
Real value = 0.456751 | Predicted value = 0.452364
Run Code Online (Sandbox Code Playgroud)
然而,这不被接受,我需要精确到小数点后第四位(至少)才能接受该值。
问:是否有任何值得信赖的技术可以正确解决这个问题以获得更好的结果(也许是转换算法)?
提前致谢。
machine-learning data-analysis neural-network keras tensorflow
我有一个fun1写入的函数R需要很长时间才能运行.我需要多次运行所述函数.
我已经完成了关于R在显卡上运行程序的一些阅读,并且只提出了一些可以运行非常特定功能的程序包(大多数矩阵操作).
我的问题是:有没有办法fun1在显卡上运行或任何用户编写的功能(并行化速度).比如R可以安装一个CUDA解释器,或者也许是R为cuda 编译函数的方法,这样我所要做的就是写一些Cuda/C来执行我最初编写的函数R?
任何事情都有帮助
让我们考虑以下问题.我们有一个包含大量数据的系统(大数据).所以,实际上我们有一个数据库.作为第一个要求,我们希望能够快速写入和读取数据库.我们还希望拥有一个到数据库的Web界面(以便不同的客户端可以远程写入和读取数据库).
但是我们想拥有的系统应该不仅仅是一个数据库.首先,我们希望能够对数据运行不同的数据分析算法,以查找规律性,相关性,异常性等(就像之前我们对性能的关注一样).其次,我们希望将机器学习机器绑定到数据库.这意味着我们希望在数据上运行机器学习算法,以便能够学习数据上存在的"关系",并基于此预测尚未存在于数据库中的条目的值.
最后,我们希望有一个基于点击的界面,可视化数据.这样用户就可以以漂亮的图形,图形和其他交互式可视化对象的形式看到数据.
什么是上述问题的标准和广泛认可的方法.必须使用哪些编程语言来处理所描述的问题?
database data-visualization machine-learning data-analysis bigdata
python ×3
pandas ×2
r ×2
bigdata ×1
database ×1
dataframe ×1
grid-search ×1
keras ×1
matlab ×1
scikit-learn ×1
svm ×1
tensorflow ×1
time ×1