小编And*_*rdo的帖子

如何从 Pandas DataFrame 到用于 NLP 的 Tensorflow BatchDataset？

老实说，我想弄清楚如何将数据集（格式：pandasDataFrame或 numpy 数组）转换为一种简单的文本分类 tensorflow 模型可以训练进行情感分析的形式。我使用的数据集类似于 IMDB（包含文本和标签（正面或负面））。我看过的每个教程要么以不同的方式准备数据，要么不理会数据准备而将其留给您的想象。（例如，所有 IMDB 教程都BatchDataset从导入了一个预处理的 Tensorflow tensorflow_datasets，这在我使用自己的数据集时没有帮助）。我自己将 Pandas 转换DataFrame为 TensorflowDataset类型的尝试导致了 ValueErrors 或训练期间的负损失。任何帮助，将不胜感激。

我最初按如下方式准备了我的数据，其中training和validation已经打乱了DataFrame包含text和label列的Pandas ：

# IMPORT STUFF

from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf # (I'm using tensorflow 2.0)
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.preprocessing.text import Tokenizer
import pandas as pd
import numpy as np
# ... [code for importing …

Run Code Online (Sandbox Code Playgroud)

nlp deep-learning keras tensorflow tensorflow-datasets

And*_*rdo

2019 10-14

7
推荐指数

1
解决办法

2700
查看次数

在类型联合中访问类型

假设我在Julia中有一个DataFrame并typeof((df[:,:col]))返回Array{Union{Missing, Float64},1}。我如何检查其中的类型Union{Missing, Float64}，例如查看Float64该联合中是否存在，或确保String该联合中没有值？

julia

And*_*rdo

2019 09-27

6
推荐指数

1
解决办法

52
查看次数

文件夹和zipWith（:)如何一起工作？

我是Haskell的新手，并且遇到了以下使我感到困惑的代码：

foldr (zipWith (:)) (repeat []) [[1,2,3],[4,5,6],[7,8,9,10]]

Run Code Online (Sandbox Code Playgroud)

它产生以下结果，在反复试验之后，我不完全确定为什么：

[[1,4,7],[2,5,8],[3,6,9]]

Run Code Online (Sandbox Code Playgroud)

我的印象是，(:)将项目添加到列表中，并(repeat [])产生无数的空列表[]，并foldr接受一个函数，一个项目和一个列表，并通过将函数连续应用于列表中的每个项目来压缩列表。列出结果。

也就是说，我直观地理解以下代码如何产生结果10：

foldr (+) 1 [2,3,4]

Run Code Online (Sandbox Code Playgroud)

但是，我完全不确定为什么要使用foldr (zipWith (:)) (repeat [])一个列表列表并生成另一个列表列表，这些列表中的项按其原始内部索引分组。

任何解释都是有启发性的。

haskell fold zipwith

And*_*rdo

2019 03-17

5
推荐指数

1
解决办法

163
查看次数

从 DataFrame 或 JuliaDB 表中获取列名

如何从DataFrame对象或 JuliaDBIndexedTable对象中获取列名？这可能吗？

可重现的代码：

using JuliaDB
import DataFrames
DF = DataFrames

# CREATES AN EXAMPLE TABLE WITH JULIADB

colnames = [:samples, :A, :B, :C, :D]
primary_key = [:samples]
coltypes = [Int[], Float64[],Float64[],Float64[],Float64[]]
sample_sizes = [100,200,300]
example_values = (1, 0.4, 0.3, 0.2, 0.1)

mytable = table(coltypes..., names=colnames, pkey=primary_key) # initialize empty table

# add some data to table
for i in sample_sizes
    example_values = (i, 0.4, 0.3, 0.2, 0.1)
    table_params = [(col=>val) for (col,val) in zip(colnames, example_values)]

    push!(rows(mytable), …

Run Code Online (Sandbox Code Playgroud)

dataframe julia juliadb

And*_*rdo

lucky-day

5
推荐指数

1
解决办法

1960
查看次数