我一直在阅读很多关于NLP的论文,并且遇到了很多模型.我得到了SVD模型并用2-D表示它,但我仍然没有得到如何通过给word2vec/skip-gram模型提供语料库来创建单词向量?它是每个单词的共生矩阵表示吗?你可以通过一个示例语料库来解释它:
Hello, my name is John.
John works in Google.
Google has the best search engine.
Run Code Online (Sandbox Code Playgroud)
基本上,跳转克如何转换John
为向量?
我试图滚动到页面的末尾,以便我可以使所有数据可见并提取它.我试图找到它的命令,但它在java(driver.executeScript)中可用,但找不到python.现在我正在使计算机按下结束键一千次:
while i<1000:
scroll = driver.find_element_by_tag_name('body').send_keys(Keys.END)
i+=1
Run Code Online (Sandbox Code Playgroud)
我还尝试了driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")但它滚动到加载页面的末尾和END键相同的东西.一旦到达页面底部,下一个内容就会加载.但现在它不再滚动.
我知道会有一个非常好的选择.请帮助.
我试图阻止导航栏崩溃点击以下代码中的About Us
部分或Projects
部分.我试过event.stopPropagation()
这两个按钮,但是直到jQuery代码执行时,导航栏已经折叠并隐藏起来.
<li class="page-scroll">
<a href="#home">Home</a>
</li>
<li class="dropdown">
<a href="#" class="dropdown-toggle" data-toggle="dropdown">About Us<span class="caret"></span></a>
<ul class="dropdown-menu" role="menu">
<li><a href="aboutus.html">Vision</a></li>
<li><a href="team.html">Founding Team</a></li>
<!--<li><a href="donors.html">Members</a></li>-->
</ul>
</li>
<li class="page-scroll">
<a href="#" class="dropdown-toggle" data-toggle="dropdown">Projects<span class="caret"></span></a>
<ul class="dropdown-menu" role="menu">
<li><a href="sample-campaign - vidya.html">Vidya Vistar</a></li>
<li><a href="sample-campaign - safai.html">Safai Abhyaan</a></li>
<li><a href="sample-campaign - clothes.html">Clothes Donation</a></li>
<li><a href="sample-campaign - food.html">Food Donation</a></li>
<li><a href="sample-campaign - onetime.html">Ad Hoc</a></li>
</ul>
</li>
<li class="page-scroll">
<a href="#events">Events</a>
</li>
<li class="page-scroll">
<a href="#gallery">Gallery</a>
</li> …
Run Code Online (Sandbox Code Playgroud) 我正努力在一个句子中提取主题,这样我就可以根据主题获得情感.我nltk
在python2.7中用于此目的.以下面的句子为例:
Donald Trump is the worst president of USA, but Hillary is better than him
他我们可以看到Donald Trump
并且Hillary
是两个主题,与之相关的情绪Donald Trump
是消极的,但与之相关Hillary
是积极的.直到现在,我能够将这句话分成大块的名词短语,我能够得到以下内容:
(S
(NP Donald/NNP Trump/NNP)
is/VBZ
(NP the/DT worst/JJS president/NN)
in/IN
(NP USA,/NNP)
but/CC
(NP Hillary/NNP)
is/VBZ
better/JJR
than/IN
(NP him/PRP))
Run Code Online (Sandbox Code Playgroud)
现在,我如何从这些名词短语中找到主语?那么如何将两个主题的短语组合在一起呢?一旦我将这两个主题的短语分开,我就可以分别对这两个主题进行情感分析.
编辑
我查看了@Krzysiek(spacy
)提到的库,它在句子中也给了我依赖树.
这是代码:
from spacy.en import English
parser = English()
example = u"Donald Trump is the worst president of USA, but Hillary is …
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用nvm将本地节点版本从8.9.0更新到8.10.0。但这并没有得到体现。这是我尝试过的:
node -v
-> v8.9.0
nvm use 8.10.0
-> Now using node v8.10.0 (npm v5.5.1)
node -v
-> v8.9.0
我不知道为什么它不会改变。请让我知道我做错了什么。
我想获得标签链接的网址.我已经附加了元素的类,在python中键入selenium.webdriver.remote.webelement.WebElement:
elem = driver.find_elements_by_class_name("_5cq3")
Run Code Online (Sandbox Code Playgroud)
和HTML是:
<div class="_5cq3" data-ft="{"tn":"E"}">
<a class="_4-eo" href="/9gag/photos/a.109041001839.105995.21785951839/10153954245456840/?type=1" rel="theater" ajaxify="/9gag/photos/a.109041001839.105995.21785951839/10153954245456840/?type=1&src=https%3A%2F%2Fscontent.xx.fbcdn.net%2Fhphotos-xfp1%2Ft31.0-8%2F11894571_10153954245456840_9038620401603938613_o.jpg&smallsrc=https%3A%2F%2Fscontent.xx.fbcdn.net%2Fhphotos-prn2%2Fv%2Ft1.0-9%2F11903991_10153954245456840_9038620401603938613_n.jpg%3Foh%3D0c837ce6b0498cd833f83cfbaeb577e7%26oe%3D567D8819&size=651%2C1000&fbid=10153954245456840&player_origin=profile" style="width:256px;">
<div class="uiScaledImageContainer _4-ep" style="width:256px;height:394px;" id="u_jsonp_2_r">
<img class="scaledImageFitWidth img" src="https://fbcdn-photos-h-a.akamaihd.net/hphotos-ak-prn2/v/t1.0-0/s526x395/11903991_10153954245456840_9038620401603938613_n.jpg?oh=15f59e964665efe28943d12bd00cefd9&oe=5667BDBA&__gda__=1448928574_a7c6da855842af4c152c2fdf8096e1ef" alt="9GAG's photo." width="256" height="395">
</div>
</a>
</div>
Run Code Online (Sandbox Code Playgroud)
我希望a标签的href值落在类中_5cq3
.
我正在尝试在pdf中查找表格边框线。我使用PrintTextLocations
pdfBox类制作单词。现在,我正在寻找构成表格的不同线条的坐标。我尝试使用org.apache.pdfbox.pdfviewer.PageDrawer
,但找不到包含这些行的任何字符/图形。我尝试了两种方法:
第一:
Graphics g = null;
Dimension d = new Dimension();
d.setSize(700, 700);
PageDrawer pageDrawer = new PageDrawer();
pageDrawer.drawPage(g, myPage, d);
Run Code Online (Sandbox Code Playgroud)
它给了我空指针异常。因此,第二,我尝试覆盖processStream
函数,但是我无法中风。请帮我。我可以使用任何其他可以为我提供表中各行的坐标的库。另一个快速的问题是,pdfbox中的那些表边界线是哪种对象?是这些图形还是这些字符?
这是我要解析的样本pdf的链接:http : //stats.bls.gov/news.release/pdf/empsit.pdf 并尝试获取第8页的表格行。
编辑:我遇到另一个问题,在解析此pdf的页码1时,尽管pathIterator
in printPath()
函数为空,但我无法获得任何行,尽管strokePath()
每行都调用了函数。如何使用此pdf?
我试图ArrayList
在pentaho水壶中的用户定义的Java类对象中声明一个对象.我正在尝试一个简单的代码User Defined Java Class
:
import java.util.List;
import java.util.ArrayList;
List<String> where = new ArrayList<String>();
public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException
{
return true;
}
Run Code Online (Sandbox Code Playgroud)
但是当我测试这个类时,我收到一个错误:
Line 4, Column 6: Identifier expected
可能是什么问题?如果我注释掉这行List<String> where = new ArrayList<String>();
代码就行了.
我试图在scala中的typesafe配置中读取环境变量,配置光滑的数据库.这是我试过的
remote_test_db = {
dataSourceClass = "slick.jdbc.DatabaseUrlDataSource"
properties = {
driver = "org.postgresql.Driver"
url = ${?REMOTE_TEST_DB_URL}
user = ${?REMOTE_TEST_DB_USERNAME}
password = ${?REMOTE_TEST_DB_PASSWORD}
}
connectionPool = disabled
keepAliveConnection = true
}
Run Code Online (Sandbox Code Playgroud)
但我得到这个错误:
Exception in thread "main" java.lang.ExceptionInInitializerError
at com.flyhomes.mls_pull.dump.MlsProvider.main(MlsProvider.scala)
Caused by: com.typesafe.config.ConfigException$NotResolved: need to Config#resolve(), see the API docs for Config#resolve(); substitution not resolved: ConfigConcatenation(${?REMOTE_TEST_DB_USERNAME})
at com.typesafe.config.impl.ConfigConcatenation.notResolved(ConfigConcatenation.java:51)
at com.typesafe.config.impl.ConfigConcatenation.valueType(ConfigConcatenation.java:58)
at slick.util.ConfigExtensionMethods$$anonfun$slick$util$ConfigExtensionMethods$$toProps$1$1.apply(GlobalConfig.scala:71)
at slick.util.ConfigExtensionMethods$$anonfun$slick$util$ConfigExtensionMethods$$toProps$1$1.apply(GlobalConfig.scala:69)
at scala.collection.Iterator$class.foreach(Iterator.scala:893)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
at slick.util.ConfigExtensionMethods$.slick$util$ConfigExtensionMethods$$toProps$1(GlobalConfig.scala:69)
at slick.util.ConfigExtensionMethods$.toProperties$extension(GlobalConfig.scala:78)
at slick.util.ConfigExtensionMethods$.getPropertiesOr$extension(GlobalConfig.scala:64)
at slick.util.ConfigExtensionMethods$.getPropertiesOpt$extension(GlobalConfig.scala:84)
at slick.jdbc.DataSourceJdbcDataSource$.forConfig(JdbcDataSource.scala:90) …
Run Code Online (Sandbox Code Playgroud) 我创建了一个类Test
,它计算数据库中与用户id相对应的条目数(将每个条目称为电子邮件).我用作11120059
id和数据库中对应的条目数是2. countMail
函数的输出工作正常,但因为我从一个数组返回getMail()
函数并将其带入新数组,它显示我的空指针异常.请帮助我卡在中间.代码是:
package src.service;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import model.Email;
import model.User;
public class Test {
public int countMail(User user){
try{
Class.forName("com.mysql.jdbc.Driver").newInstance();
// Get a connection to the database
Connection myConn = DriverManager.getConnection("jdbc:mysql://localhost:3306/chillmaarodb", "root", "rsystems");
PreparedStatement myStatement = myConn.prepareStatement("select * from complaints where RID=? ORDER BY date desc");
myStatement.setString(1, user.getId());
ResultSet rs = myStatement.executeQuery();
int count=0;
while(rs.next())
{
count++;
}
return count;
}
catch(Exception e){
e.printStackTrace();
}
return 0; …
Run Code Online (Sandbox Code Playgroud)