我为我的NLP应用程序创建了一个简单的神经网络(使用keras),它将数据点分类为2类中的1类。我的模型对测试数据的准确性达到了95%以上。我已经在生产中部署了该模型。运行良好。模型的预测作为电子邮件发送给用户。
*如果预测正确与否,这些最终用户可以发送反馈。我想将此反馈合并到模型中,以便从该反馈(正反馈和负反馈)中不断学习并改进*
如何实现以上目标?我已经阅读了有关强化学习,在线学习和主动学习的信息。任何指针/教程(可能带有代码)都会有很大帮助。
我正在寻找一个可以将复合句拆分成简单句的句子分割器。
例子:
Input: Andrea is beautiful but she is strict.
(expected) Output: Andrea is beautiful. she is strict.
Input: i am andrea and i work for google.
(expected) Output: i am andrea. i work for google.
Input: Italy is my favorite country; i plan to spend two weeks there next year.
(expected) Output: Italy is my favorite country. i plan to spend two weeks there next year.
Run Code Online (Sandbox Code Playgroud)
有什么建议吗?我尝试了 NLTK、spacy、segtok、nlp-compromise,但它们不适用于这些复杂的示例(我知道这是一个难题,因此没有简单的解决方案)。
我有一个twitter语料库,我用它来构建情绪分析应用程序.语料库有5k个推文,手写标记为 - 否定,中立或正面
为了表示文本 - 我正在使用gensim word2vec预训练向量.每个单词都映射到300个维度.对于推文,我添加所有单词向量以获得单个300暗淡向量.因此,每条推文都映射到300维的单个向量.
我使用t-SNE(tsne python包)可视化我的数据.参见附图1 - 红点=负推文,蓝点=中性推文和绿点=正推文
问题: 在图中,数据点之间没有明确的分离(边界).我可以假设300尺寸中的原始点也是如此吗?
即如果点在t-SNE图中重叠,那么它们在原始空间中也会重叠,反之亦然?
我有一个很长的CasperJS脚本.当我运行它时,我得到:
phantomjs file.js SyntaxError: Parse error
有没有办法获得有关错误的更多信息.至少一个行号?或任何暗示?
使用python脚本,我正在清理一段文本,我想替换下面的单词:
promocode,promo,code,coupon,coupon code,code.
但是,如果他们以'#'开头,我不想替换它们.因此,#promocode,#promo,#code,#coupon应该保持原样.
我尝试使用正则表达式:
1. \b(promocode|promo code|promo|coupon code|code|coupon)\b
2. (?<!#)(promocode|promo code|promo|coupon code|code|coupon)
Run Code Online (Sandbox Code Playgroud)
他们都没有工作.我基本上看起来会让我说"不要以#和#开头"(promocode |促销代码|促销|优惠券代码|代码|优惠券)
有什么建议 ?
我有一个字符串列表
ll = ['abc', 'abd', 'xyz', 'xzk']
Run Code Online (Sandbox Code Playgroud)
我想要一个给定列表中所有字符串的唯一字符列表.
对于ll,输出应该是
['a','b','c','d','x','y','z','k']
Run Code Online (Sandbox Code Playgroud)
有一个干净的方法来做到这一点?
python ×3
nlp ×2
casperjs ×1
chatbot ×1
debugging ×1
javascript ×1
keras ×1
phantomjs ×1
regex ×1
scikit-learn ×1
syntax-error ×1
theano ×1