我使用word2vec从大型文档生成了一个标记列表的向量.给定一个句子,是否可以从句子中的标记向量中获取句子的向量.
我有一个简单的元组数组
val arr = Array((1,2), (3,4),(5,6),(7,8),(9,10))
Run Code Online (Sandbox Code Playgroud)
我希望得到(1+3+5+7+9, 2+4+6+8+10)元组作为答案
将和作为元组的最佳方法是什么,类似于常规数组.我试过了
val res = arr.foldLeft(0,0)(_ + _)
Run Code Online (Sandbox Code Playgroud)
这不起作用.
抱歉没有写上下文.我在用algebird烫伤时使用它.Algebird允许元组的总和,我认为这会起作用.那是我的错.
我在 Macbook Pro M1 Max 中安装了变压器
之后,我安装了标记器
pip install tokenizers
Run Code Online (Sandbox Code Playgroud)
这显示了
使用缓存的 tokenizers-0.12.1-cp39-cp39-macosx_12_0_arm64.whl收集
tokenizers 已成功安装 tokenizers-0.12.1
它似乎对 whl 文件使用了正确的体系结构
当我导入它时我得到
'/Users/myname/miniforge3/envs/tf/lib/python3.9/site-packages/tokenizers/tokenizers.cpython-39-darwin.so'(mach-o 文件,但是不兼容的架构(具有 'x86_64' ,需要'arm64e'))
我发现这个问题以前也发生在其他人身上。关于如何解决这个问题有什么想法吗?
我正在尝试简单解析文件并因特殊字符而得到错误:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
infile = 'finance.txt'
input = open(infile)
for line in input:
if line.startswith(u'?'):
Run Code Online (Sandbox Code Playgroud)
我收到错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 1718: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)
解?