首先感谢你阅读我,如果你能提供任何线索来帮助我解决这个问题,非常感谢。
由于我是 Scikit-learn 的新手,请不要犹豫提供任何可以帮助我改进过程并使其更专业的建议。
我的目标是在两个类别之间对数据进行分类。我想找到一个可以给我最精确结果的解决方案。目前,我还在寻找最合适的算法和数据预处理。
在我的数据中,我有 24 个值:13 个是名义值,6 个是二值化的,其他是连续的。这是一行的示例
"雷诺";"CLIO III";"CLIO III (2005-2010)";"柴油";2010;"HOM";"_AAA";"_BBB";"_CC";0;668.77;3;"Fevrier" ;"_DDD";0;0;0;1;0;0;0;0;0;0;247.97
我有大约 90 万行用于学习,我的测试超过 10 万行
由于我想比较几个算法实现,我想对所有标称值进行编码,以便它可以在多个分类器中使用。
我尝试了几件事:
我查看了文档,并在Preprocessing and Feature Extraction页面上找到了这些信息。
我想有一种方法来对所有标称值进行编码,这样它们就不会被视为有序的。该解决方案可以应用于类别众多、资源薄弱的大型数据集。
有什么方法可以满足我的需求?
感谢您提供任何线索和建议。
我有两个具有继承关系的实体,即内容和图像。继承策略为JOINED。当我插入图像时,它会执行3个查询:在Content表中插入,在Image表中插入,然后更新Content表。所有更新的值都等于插入的值(不做任何实际修改)
有什么线索吗?
@Entity
@Table(name = "content")
@Inheritance(strategy = InheritanceType.JOINED)
@DiscriminatorColumn(name = "content_type", discriminatorType = DiscriminatorType.STRING, length = 255)
public class Content {
@Id
@SequenceGenerator(name = "content_id_sequence_generator", sequenceName = "content_id_sequence", allocationSize = 1)
@GeneratedValue(strategy = SEQUENCE, generator = "content_id_sequence_generator")
private Long id;
@Column(name = "locale")
private String locale;
}
@Entity
@Table(name = "image")
public class Image extends Content {
@Column(name = "credit")
private String credit;
}
Run Code Online (Sandbox Code Playgroud)
当我执行CRUDRepository.save(image)时:
insert
into
pfu.content(locale, id) values('en', 1000)
insert
into
pfu.image(credit, id) values('author', 1000)
update
pfu.content …Run Code Online (Sandbox Code Playgroud) 用户访问我的网站时,能否仅显示2秒钟的div?
<div class="message">
<p>Hello, everybody this websites will be moved in 2 weeks</p>
</div>
Run Code Online (Sandbox Code Playgroud)
也许使用jQuery或JavaScript。