小编RPr*_*sle的帖子

预处理具有分类和连续特征的大型数据文件

首先感谢你阅读我，如果你能提供任何线索来帮助我解决这个问题，非常感谢。

由于我是 Scikit-learn 的新手，请不要犹豫提供任何可以帮助我改进过程并使其更专业的建议。

我的目标是在两个类别之间对数据进行分类。我想找到一个可以给我最精确结果的解决方案。目前，我还在寻找最合适的算法和数据预处理。

在我的数据中，我有 24 个值：13 个是名义值，6 个是二值化的，其他是连续的。这是一行的示例

"雷诺";"CLIO III";"CLIO III (2005-2010)";"柴油";2010;"HOM";"_AAA";"_BBB";"_CC";0;668.77;3;"Fevrier" ;"_DDD";0;0;0;1;0;0;0;0;0;0;247.97

我有大约 90 万行用于学习，我的测试超过 10 万行

由于我想比较几个算法实现，我想对所有标称值进行编码，以便它可以在多个分类器中使用。

我尝试了几件事：

LabelEncoder ：这非常好，但它给了我分类器错误解释的有序值。
OneHotEncoder ：如果我理解得很好，它非常适合我的需求，因为我可以选择要二值化的列。但是由于我有很多标称值，它总是在 MemoryError 中。此外，它的输入必须是数字，因此之前必须对所有内容进行 LabelEncode。
StandardScaler ：这非常有用，但不是我需要的。我决定整合它来扩展我的连续值。
FeatureHasher ：首先我不明白它的作用。然后，我看到它主要用于文本分析。我试图用它来解决我的问题。我通过创建一个包含转换结果的新数组来作弊。我认为它不是为那样工作而构建的，它甚至不合逻辑。
DictVectorizer ：可能很有用，但看起来像 OneHotEncoder 并在内存中放入更多数据。
partial_fit ：此方法仅由 5 个分类器给出。我希望能够使用感知器、KNearest 和 RandomForest 至少做到这一点，所以它不符合我的需求

我查看了文档，并在Preprocessing and Feature Extraction页面上找到了这些信息。

我想有一种方法来对所有标称值进行编码，这样它们就不会被视为有序的。该解决方案可以应用于类别众多、资源薄弱的大型数据集。

有什么方法可以满足我的需求？

感谢您提供任何线索和建议。

python classification scikit-learn categorical-data

RPr*_*sle

lucky-day

5
推荐指数

1
解决办法

7952
查看次数

Inheritance.JOINED，插入导致不必要的更新

我有两个具有继承关系的实体，即内容和图像。继承策略为JOINED。当我插入图像时，它会执行3个查询：在Content表中插入，在Image表中插入，然后更新Content表。所有更新的值都等于插入的值（不做任何实际修改）

有什么线索吗？

@Entity
@Table(name = "content")
@Inheritance(strategy = InheritanceType.JOINED)
@DiscriminatorColumn(name = "content_type", discriminatorType = DiscriminatorType.STRING, length = 255) 
public class Content {
    @Id
    @SequenceGenerator(name = "content_id_sequence_generator", sequenceName = "content_id_sequence", allocationSize = 1)
    @GeneratedValue(strategy = SEQUENCE, generator = "content_id_sequence_generator")
    private Long id;

    @Column(name = "locale")
    private String locale;
}


@Entity
@Table(name = "image")
public class Image extends Content {

    @Column(name = "credit")
    private String credit;
}

Run Code Online (Sandbox Code Playgroud)

当我执行CRUDRepository.save（image）时：

insert 
into
    pfu.content(locale, id) values('en', 1000)
insert 
into
    pfu.image(credit, id) values('author', 1000)
update
    pfu.content …

Run Code Online (Sandbox Code Playgroud)

java inheritance hibernate

RPr*_*sle

2019 08-30

5
推荐指数

0
解决办法

87
查看次数

页面加载后显示div 2秒

用户访问我的网站时，能否仅显示2秒钟的div？

<div class="message">
   <p>Hello, everybody this websites will be moved in 2 weeks</p>
</div>

Run Code Online (Sandbox Code Playgroud)

也许使用jQuery或JavaScript。

html javascript jquery

Eug*_*ala

2015 09-09

0
推荐指数

1
解决办法

972
查看次数

标签统计

categorical-data ×1

classification ×1

hibernate ×1

html ×1

inheritance ×1

java ×1

javascript ×1

jquery ×1

python ×1

scikit-learn ×1

预处理具有分类和连续特征的大型数据文件

Inheritance.JOINED，插入导致不必要的更新

页面加载后显示div 2秒

标签 统计

小编RPr_sle的帖子

标签统计