小编Ari*_*sri的帖子

使用NLP的实体识别和情感分析

所以,这个问题可能有点天真,但我想要问Stackoverflow友好的人不会受伤.

我现在的公司已经在NLP上使用第三方API了一段时间了.我们基本上对一个字符串进行URL编码并将其发送出去,然后他们为我们提取某些实体(我们有一个我们正在查找的实体列表)并返回一个实体:情感的json映射.我们最近决定将这个项目改为内部.

我过去两天一直在研究NLTK,Stanford NLP和lingpipe,并且无法弄清楚我是否正在重新发明这个项目的轮子.

我们已经拥有包含原始非结构化文本的大量表格,以及包含该文本中提取的实体及其情绪的另一个表格.实体是单个单词.例如:

非结构化文本:现在用于床.这不是最好的.

实体:床

情绪:消极

我认为这意味着我们拥有培训数据(非结构化文本)以及实体和情感.现在我如何在其中一个NLP框架上使用此培训数据并获得我们想要的内容?没有线索.我有点步骤,但不确定:

  1. Tokenize句子
  2. 标记单词
  3. 在句子中找到名词(POS标记)
  4. 找出那句话的情绪.

但是,对于我上面提到的情况,这应该是失败的,因为它用2个不同的句子谈论床?

所以问题 - 是否有人知道完成上述任务的最佳框架是什么,以及相同的任何教程(注意:我不是要求解决方案).如果您之前已经完成了这些工作,这个任务是否太大而无法承担?我查了一些商业API,但使用起来非常昂贵(我们是一个小小的创业公司).

谢谢stackoverflow!

nlp nltk stanford-nlp sentiment-analysis lingpipe

6
推荐指数
1
解决办法
1745
查看次数

使用 Python 抓取由 Javascript 创建的动态内容

我想使用 python 脚本废弃由 javascript 函数创建的 DIV 内容。我已经尝试过使用 BS4 并且通过这样做我无法获得动态数据。相反,它只显示源代码。

示例代码:

import requests
from bs4 import BeautifulSoup

URL = "https://rawgit.com/skysoft999/tableauJS/master/example.html"
r = requests.get(URL)

soup = BeautifulSoup(r.content, 'html5lib')


for row in soup.findAll('div', attrs = {'class':'quote'}):
    print(row)


print(soup.prettify())
Run Code Online (Sandbox Code Playgroud)

示例 HTML 源代码位于Pastebin 中

要提取的样本数据:

在此处输入图片说明

python arrays beautifulsoup web-scraping python-3.x

3
推荐指数
1
解决办法
9908
查看次数