我有一个清单:
my_list = ['abc-123', 'def-456', 'ghi-789', 'abc-456']
Run Code Online (Sandbox Code Playgroud)
并希望搜索包含该字符串的项目'abc'.我怎样才能做到这一点?
if 'abc' in my_list:
Run Code Online (Sandbox Code Playgroud)
会检查是否'abc'存在在列表中,但它的一部分'abc-123'和'abc-456','abc'对自己不存在.那么如何获得包含的所有项目'abc'?
我知道如何在R中这样做.但是,pandas中是否有任何函数将数据帧转换为包含两个方面共同计数的nxn共生矩阵.
例如矩阵df:
import pandas as pd
df = pd.DataFrame({'TFD' : ['AA', 'SL', 'BB', 'D0', 'Dk', 'FF'],
'Snack' : ['1', '0', '1', '1', '0', '0'],
'Trans' : ['1', '1', '1', '0', '0', '1'],
'Dop' : ['1', '0', '1', '0', '1', '1']}).set_index('TFD')
print df
>>>
Dop Snack Trans
TFD
AA 1 1 1
SL 0 0 1
BB 1 1 1
D0 0 1 0
Dk 1 0 0
FF 1 0 1
[6 rows x 3 columns]
Run Code Online (Sandbox Code Playgroud)
会屈服:
Dop …Run Code Online (Sandbox Code Playgroud) 我正在研究NLP任务,我需要计算文档上的共现矩阵.基本配方如下:
这里我有一个形状矩阵(n, length),每行代表一个由length单词组成的句子.所以n总共有相同长度的句子.然后使用定义的上下文大小,例如,window_size = 5我想计算共生矩阵D,其中cth行和wth列中的条目是#(w,c),这意味着上下文单词c在上下文中出现的次数w.
这里可以参考一个例子.如何计算文本窗口中两个单词之间的共现?
我知道它可以通过堆叠循环来计算,但我想知道是否存在简单的方法或简单的函数?我找到了一些答案,但是他们无法使用滑过句子的窗口.例如:单词共现矩阵
所以有人能告诉我,Python中是否有任何功能可以简洁地处理这个问题?因为我认为这个任务在NLP中很常见.