我需要用泰语对文本文档进行矢量化(例如Bag of Words,doc2vec).
首先,我想要去在每个文档,省略除了泰国字符和英文单词(如没有标点符号,没有号码,只是撇号没有其他特殊字符)的一切.
对于英文文档,我使用这个正则表达式:
[^a-zA-Z' ]|^'|'$|''
对于泰语文档,我找不到合适的正则表达式.我知道泰语的Unicode块是u0E00-u0E7F.我尝试了[^?-?a-zA-Z' ]|^'|'$|''许多其他组合,但他们没有成功.
例如:我想要
"ทรูวิชั่นส์ประกาศถ่ายทอดสดศึกฟุตบอลพรีเมียร์ลีกอังกฤษครบทุกนัดเป็นเวลา3ปีตั้งแต่ฤดูกาล二千零十七分之二千零十六 - 二千零十九分之二千零十八พร้อมด้วยอีก5ลีกดังอาทิลาลีกาสเปน,กัลโชเซเรียเออิตาลีและลีกเอิ งฝรั่งเศสภายใต้แพ็กเกจสุดคุ้มทั้งผ่านมือถือและโทรทัศน์some,这里的英语单词!abc123"
成为:
"ทรูวิชั่นส์ประกาศถ่ายทอดสดศึกฟุตบอลพรีเมียร์ลีกอังกฤษครบทุกนัดเป็นเวลาปีตั้งแต่ฤดูกาลพร้อมด้วยอีกลีกดังอาทิลาลีกาสเปน,กัลโชเซเรียเออิตาลีและลีกเอิงฝรั่งเศสภายใต้แพ็กเกจสุดคุ้ม ทั้งผ่านมือถือและโทรทัศน์这里一些英语单词ABC"
我正在使用OpenCV跟踪器在视频中执行人脸跟踪,并每隔几帧就使用一个人脸检测器。如果面部检测器检测到面部,我想使用“检测到的”边界框更新跟踪器。我看到有一个选项可以在C ++实现中输入Rect,但是由于某种原因,不能在opencv文档中编写的python实现中输入。使用dlib的correlation_tracker时,这也是一个选项。
目前,我只能用边界框初始化跟踪器,而不能在Python中用边界框更新跟踪器。如果我的跟踪器已经偏离了要跟踪的初始面部,即使知道了面部现在在哪里,也无法“带回”(使用面部检测器)。有没有办法在python中做到这一点(例如,我应该杀死当前的跟踪器并使用检测到的边界框初始化另一个跟踪器)?
我是python和psychopy的新手,但是我在编程和设计实验方面有着丰富的经验(使用Matlab和EPrime).我正在运行RSVP(快速视觉序列演示)实验,每X ms显示不同的视觉刺激(X是实验变量,可以是100 ms到1000 ms).由于这是一个生理学实验,我需要在刺激开始时通过并行端口发送触发器.我使用示波器和光电传感器测试触发和视觉开始之间的同步.但是,当我在win.flip()之前或之后发送我的触发器时,即使使用窗口waitBlanking = False参数,我仍然会在刺激的开始和代码的开始之间产生差异.
附上我的代码:
im=[]
for pic in picnames:
im.append(visual.ImageStim(myWin,image=pic,pos=[0,0],autoLog=True))
myWin.flip() # to get to the next vertical blank
while tm < and t < len(codes):
im[tm].draw()
parallel.setData(codes[t]) # before
myWin.flip()
#parallel.setData(codes[t]) # after
ttime.append(myClock.getTime())
core.wait(0.01)
parallel.setData(0)
dur=(myClock.getTime()-ttime[t])*1000
while dur < stimDur-frameDurAvg+1:
dur=(myClock.getTime()-ttime[t])*1000
t=t+1
tm=tm+1
myWin.flip()
Run Code Online (Sandbox Code Playgroud)
如何将刺激开始与触发器同步?我不确定这是否是显卡问题(我正在使用带有板载Intel显卡的LCD ACER屏幕).非常感谢,
Shani