...通过检查列的值是否在a中seq.
也许我没有解释得很好,我基本上希望这(使用常规的SQL表达出来)DF_Column IN seq?
首先,我使用a broadcast var(我放置seq),UDF(检查完成)和registerTempTable.
问题是,我没有测试它,因为我遇到了一个已知的bug,显然只有使用时,会出现registerTempTable与ScalaIDE.
我最终创建了一个新DataFrame的seq并与它进行内连接(交集),但我怀疑这是完成任务的最高效的方式.
谢谢
编辑:(回应@YijieShen):
如何filter根据一个DataFrame列的元素是否在另一个DF的列(如SQL select * from A where login in (select username from B))中?
例如:第一个DF:
login count
login1 192
login2 146
login3 72
Run Code Online (Sandbox Code Playgroud)
第二个DF:
username
login2
login3
login4
Run Code Online (Sandbox Code Playgroud)
结果:
login count
login2 146
login3 72
Run Code Online (Sandbox Code Playgroud)
尝试:
EDIT-2:我认为,现在修复了这个bug,这些应该可行.结束编辑-2
ordered.select("login").filter($"login".contains(empLogins("username")))
Run Code Online (Sandbox Code Playgroud)
和
ordered.select("login").filter($"login" in empLogins("username"))
Run Code Online (Sandbox Code Playgroud)
两者Exception …
我已经在BigQuery中加载了我的应用程序日志,我需要根据这些日志中的IP地址计算国家/地区.
我在我的表和从MaxMind下载的GeoIP映射表之间编写了一个连接查询.
理想的查询将OUTER JOIN使用范围过滤器,但BQ仅=在连接条件下支持.因此查询执行INNER JOIN并处理每一侧的缺失值JOIN.
我修改了原始查询,因此可以在维基百科公共数据集上运行.
有人可以帮助我让这个跑得更快吗?
SELECT id, client_ip, client_ip_code, B.Country_Name as Country_Name
FROM
(SELECT id, contributor_ip as client_ip, INTEGER(PARSE_IP(contributor_ip)) AS client_ip_code, 1 AS One
FROM [publicdata:samples.wikipedia] Limit 1000) AS A1
JOIN
(SELECT From_IP_Code, To_IP_Code, Country_Name, 1 AS One
FROM
-- 3 IP sets: 1.valid ranges, 2.Gaps, 3. Gap at the end of the set
-- all Ranges of valid IPs:
(SELECT From_IP_Code, To_IP_Code, Country_Name FROM [QA_DATASET.GeoIP]) …Run Code Online (Sandbox Code Playgroud) 有些人可以解释这些文件的含义,存在于kafka代理日志中.
root @ a2md23297l:/ tmp/kafka-logs-1#cat recovery-point-offset-checkpoint
0
5
my-topic 0 0
kafkatopic_R2P1_1 0 0
my-topic 1 0
kafkatopic_R2P1 0 0
test 0 0
root @ a2md23297l:/ tmp/kafka -logs-1#cat replication-offset-checkpoint
0
5
my-topic 0 0
kafkatopic_R2P1_1 0 2
my-topic 1 0
kafkatopic_R2P1 0 2
test 0 57
Fyi,my-topic,kafkatopic_R2P1_1,my-topic,kafkatopic_R2P1,test是创建的主题.提前致谢.
当我运行full_import命令时它工作正常.更新的日期将写入dataimport.properties文件.当我运行delta-import时,它会使Indexing失败.回滚所有更改.. dataimport.properties文件已创建,并在solr/conf/location中具有777权限.
请帮我解决这个问题.
@mbonaci
data-config.xml中的查询,deltaImportQuery和deltaQuery如下所示
<entity name="item" query="select group_title,description,DATE_FORMAT(created_date, '%Y-%m-%dT%H:%i:%sZ') as createdDate,group_status, 'GROUP' as itemtype,group_id as id from collaboration_groups where group_status=1"
deltaImportQuery="select group_title,description,DATE_FORMAT(created_date, '%Y-%m-%dT%H:%i:%sZ') as createdDate,group_status,group_id as id,'GROUP' as itemtype from collaboration_groups where group_status=1 and group_id=${dataimporter.delta.id} "
deltaQuery="select group_id from collaboration_groups where group_status=1 and updated_date > '${dataimporter.last_index_time}'" deletedPkQuery="select group_id from collaboration_groups where group_status = 0 and updated_date > '${dataimporter.last_index_time}'">
<field column="id" name="id" />
<field column="itemtype" name="itemtype" />
<field column="group_title" name="fullName" />
<field column="description" name="description"/>
<field column="createdDate" name="createdDate"/>
</entity>
Run Code Online (Sandbox Code Playgroud)
config.xml中dataImport请求处理程序的config参数如下
<requestHandler …Run Code Online (Sandbox Code Playgroud)