小编iro*_*012的帖子

如何将 pandas 数据框日期时间列转换为 int?

datetime中的一列转换为我的代码时遇到问题: int.

df['datetime_column'].astype(np.int64)
Run Code Online (Sandbox Code Playgroud)

我收到的错误是:

以 10 为基数的 int() 的文字无效:'2018-02-25 09:31:15'

我对正在发生的事情一无所知,因为我的其他一些datetime专栏的转换工作正常。可转换为的日期范围是否存在问题int

python datetime type-conversion dataframe pandas

4
推荐指数
1
解决办法
1万
查看次数

减小 Facebook fastText 的大小

我正在构建一个机器学习模型,它将处理文档并从中提取一些关键信息。为此,我需要使用词嵌入进行 OCRed 输出。我有几种不同的嵌入选项(Google 的 word2vec、Stanford 的、Facebook 的 fastText),但我主要担心的是 OOV 单词,因为 OCR 输出会有很多拼写错误的单词。例如,我想要嵌入使得嵌入嵌入(OCR 遗漏的 e)的输出应该具有一定程度的相似性。我不太关心相关的上下文信息。

我选择了 Facebook 的 fastText,因为它也提供了 OOV 单词的嵌入。我唯一关心的是嵌入的大小。fastText的模型的向量大小是300,有没有办法减少返回的词向量的大小?我正在考虑使用 PCA 或任何其他降维技术,但考虑到词向量的大小,这可能是一项耗时的任务。

dimensionality-reduction fasttext

4
推荐指数
1
解决办法
5055
查看次数