小编tri*_*tic的帖子

如何从句子中的标记word2vec获取句子的向量

我使用word2vec从大型文档生成了一个标记列表的向量.给定一个句子,是否可以从句子中的标记向量中获取句子的向量.

word2vec

64
推荐指数
7
解决办法
5万
查看次数

如何在scala中获得元组数组的总和

我有一个简单的元组数组

val arr = Array((1,2), (3,4),(5,6),(7,8),(9,10))
Run Code Online (Sandbox Code Playgroud)

我希望得到(1+3+5+7+9, 2+4+6+8+10)元组作为答案

将和作为元组的最佳方法是什么,类似于常规数组.我试过了

val res = arr.foldLeft(0,0)(_ + _)
Run Code Online (Sandbox Code Playgroud)

这不起作用.

抱歉没有写上下文.我在用algebird烫伤时使用它.Algebird允许元组的总和,我认为这会起作用.那是我的错.

scala

5
推荐指数
1
解决办法
1011
查看次数

无法在 Mac M1 中安装标记器

我在 Macbook Pro M1 Max 中安装了变压器

之后,我安装了标记器

pip install tokenizers
Run Code Online (Sandbox Code Playgroud)

这显示了


使用缓存的 tokenizers-0.12.1-cp39-cp39-macosx_12_0_arm64.whl收集
tokenizers 已成功安装 tokenizers-0.12.1

它似乎对 whl 文件使用了正确的体系结构

当我导入它时我得到

'/Users/myname/miniforge3/envs/tf/lib/python3.9/site-packages/tokenizers/tokenizers.cpython-39-darwin.so'(mach-o 文件,但是不兼容的架构(具有 'x86_64' ,需要'arm64e'))

我发现这个问题以前也发生在其他人身上。关于如何解决这个问题有什么想法吗?

python-3.x huggingface-tokenizers apple-m1

2
推荐指数
1
解决办法
5816
查看次数

Python,UnicodeDecodeError:'ascii'编解码器无法解码1718位的字节0xc2:序号不在范围内(128)

我正在尝试简单解析文件并因特殊字符而得到错误:

#!/usr/bin/env python                                                                                                                 
# -*- coding: utf-8 -*-                                                                                                               

infile = 'finance.txt'
input = open(infile)
for line in input:
  if line.startswith(u'?'):
Run Code Online (Sandbox Code Playgroud)

我收到错误:

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 1718: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

解?

python string encoding python-2.7

1
推荐指数
1
解决办法
1016
查看次数