小编And*_*rdo的帖子

如何从 Pandas DataFrame 到用于 NLP 的 Tensorflow BatchDataset?

老实说,我想弄清楚如何将数据集(格式:pandasDataFrame或 numpy 数组)转换为一种简单的文本分类 tensorflow 模型可以训练进行情感分析的形式。我使用的数据集类似于 IMDB(包含文本和标签(正面或负面))。我看过的每个教程要么以不同的方式准备数据,要么不理会数据准备而将其留给您的想象。(例如,所有 IMDB 教程都BatchDataset从导入了一个预处理的 Tensorflow tensorflow_datasets,这在我使用自己的数据集时没有帮助)。我自己将 Pandas 转换DataFrame为 TensorflowDataset类型的尝试导致了 ValueErrors 或训练期间的负损失。任何帮助,将不胜感激。

我最初按如下方式准备了我的数据,其中trainingvalidation已经打乱了DataFrame包含textlabel列的Pandas :

# IMPORT STUFF

from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf # (I'm using tensorflow 2.0)
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.preprocessing.text import Tokenizer
import pandas as pd
import numpy as np
# ... [code for importing …
Run Code Online (Sandbox Code Playgroud)

nlp deep-learning keras tensorflow tensorflow-datasets

7
推荐指数
1
解决办法
2700
查看次数

在类型联合中访问类型

假设我在Julia中有一个DataFrame并typeof((df[:,:col]))返回Array{Union{Missing, Float64},1}。我如何检查其中的类型Union{Missing, Float64},例如查看Float64该联合中是否存在,或确保String该联合中没有值?

julia

6
推荐指数
1
解决办法
52
查看次数

文件夹和zipWith(:)如何一起工作?

我是Haskell的新手,并且遇到了以下使我感到困惑的代码:

foldr (zipWith (:)) (repeat []) [[1,2,3],[4,5,6],[7,8,9,10]]
Run Code Online (Sandbox Code Playgroud)

它产生以下结果,在反复试验之后,我不完全确定为什么:

[[1,4,7],[2,5,8],[3,6,9]]
Run Code Online (Sandbox Code Playgroud)

我的印象是,(:)将项目添加到列表中,并(repeat [])产生无数的空列表[],并foldr接受一个函数,一个项目和一个列表,并通过将函数连续应用于列表中的每个项目来压缩列表。列出结果。

也就是说,我直观地理解以下代码如何产生结果10:

foldr (+) 1 [2,3,4]
Run Code Online (Sandbox Code Playgroud)

但是,我完全不确定为什么要使用foldr (zipWith (:)) (repeat [])一个列表列表并生成另一个列表列表,这些列表中的项按其原始内部索引分组。

任何解释都是有启发性的。

haskell fold zipwith

5
推荐指数
1
解决办法
163
查看次数

从 DataFrame 或 JuliaDB 表中获取列名

如何从DataFrame对象或 JuliaDBIndexedTable对象中获取列名?这可能吗?


可重现的代码:

using JuliaDB
import DataFrames
DF = DataFrames

# CREATES AN EXAMPLE TABLE WITH JULIADB

colnames = [:samples, :A, :B, :C, :D]
primary_key = [:samples]
coltypes = [Int[], Float64[],Float64[],Float64[],Float64[]]
sample_sizes = [100,200,300]
example_values = (1, 0.4, 0.3, 0.2, 0.1)

mytable = table(coltypes..., names=colnames, pkey=primary_key) # initialize empty table

# add some data to table
for i in sample_sizes
    example_values = (i, 0.4, 0.3, 0.2, 0.1)
    table_params = [(col=>val) for (col,val) in zip(colnames, example_values)]

    push!(rows(mytable), …
Run Code Online (Sandbox Code Playgroud)

dataframe julia juliadb

5
推荐指数
1
解决办法
1960
查看次数