这看起来很简单,但我在互联网上找不到任何相关信息
我有一个如下的数据框
City State Zip Date Description
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices
Earlham IA 50072-1036 2014-10-10 Compliance: Devices
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance
Run Code Online (Sandbox Code Playgroud)
如何消除与5列中的4列匹配的重复项?列不匹配Description
.
结果将是
City State Zip Date Description
Earlham IA 50072-1036 2014-10-10 Postmarket Assurance: Devices
Madrid IA 50156-1748 2014-09-10 Drug Quality Assurance
Run Code Online (Sandbox Code Playgroud)
我在网上找到的是drop_dupilcates
与subset
参数可以工作,但我不确定我怎么可以把它应用到多个列.
我有两个数据帧,每个数据帧都有不同的行数.下面是每个数据集的几行
df1 =
Company City State ZIP
FREDDIE LEES AMERICAN GOURMET SAUCE St. Louis MO 63101
CITYARCHRIVER 2015 FOUNDATION St. Louis MO 63102
GLAXOSMITHKLINE CONSUMER HEALTHCARE St. Louis MO 63102
LACKEY SHEET METAL St. Louis MO 63102
Run Code Online (Sandbox Code Playgroud)
和
df2 =
FDA Company FDA City FDA State FDA ZIP
LACKEY SHEET METAL St. Louis MO 63102
PRIMUS STERILIZER COMPANY LLC Great Bend KS 67530
HELGET GAS PRODUCTS INC Omaha NE 68127
ORTHOQUEST LLC La Vista NE 68128
Run Code Online (Sandbox Code Playgroud)
我和他们并肩使用combined_data = pandas.concat([df1, …
更新:列表中填充了我编辑列表的字符串以显示此信息
我有3个不同的列表,如
Section = [('1', '1.1', '1.2'), ('1', '2', '2.2', '3'), ('1', '1.2', '3.2', '3.5')]
Page = [('1', '1', '3'), ('1', '2', '2', '2'), ('1', '2', '3', '5')]
Titles = [('General', 'Info', 'Titles'), ('More', 'Info', 'Section', 'Here'), ('Another', 'List', 'Of', 'Strings')]
Run Code Online (Sandbox Code Playgroud)
我想把它们结合起来如
Combined_List = [('1', '1.1', '1.2'), ('1', '2', '2.2', '3'), ('1', '1.2', '3.2', '3.5'),
('1', '1', '3'), ('1', '2', '2', '2'), ('1', '2', '3', '5'),
('General', 'Info', 'Titles'), ('More', 'Info', 'Section', 'Here'), ('Another', 'List', 'Of', 'Strings')]
Run Code Online (Sandbox Code Playgroud)
或者任何其他形式允许我按照标题为部分的列表中的数字对它们进行排序.
在这种情况下,它会
Sorted_list …
Run Code Online (Sandbox Code Playgroud) 我在做什么似乎很简单,但我无法弄清楚.
我有数据框,其中包含数据
City State ZIP
Ames IA 50011-3617
Ankeny IA 50021
Run Code Online (Sandbox Code Playgroud)
我想拆分zipcodes -
并只保存新数据帧中的第一个,其中包含旧数据和新邮政编码.我试着做以下事情.
data_short_zip = data
df = data['ZIP'].str.split('-').str[0]
data_short_zip.join(df)
Run Code Online (Sandbox Code Playgroud)
这不仅会引发错误,而且似乎是单声道的.有一个简单的方法吗?
输出数据看起来像
City State ZIP
Ames IA 50011
Ankeny IA 50021
Run Code Online (Sandbox Code Playgroud) 我query
在函数内部使用状态变量isExternalFilterPresent
永远不会更新。我感到困惑,因为第一次console.log
的query
与查询的每个变化更新。我想这是因为我不太了解钩子的实现。
let gridApi: GridApi | null = null;
const HouseholdTable = ({accountsData, aggregateEntityTable: {aggregateEntity, columnDefs}}: OwnProps & StateProps) => {
const [isDeepDiveOpen, setIsDeepDiveOpen] = useState(false);
const [query, setQuery] = useState('');
useEffect(() => {
gridApi && gridApi.onFilterChanged();
}, [query]);
if (accountsData) {
const onGridReady = ({api}: GridReadyEvent) => {
api.sizeColumnsToFit();
gridApi = api;
};
const aggData = accountsData.aggregations[aggregateEntity];
console.log(query); // This updates when query changes
const isExternalFilterPresent = (): boolean => {
console.log(query); …
Run Code Online (Sandbox Code Playgroud) 对熊猫来说很新,所以对解决方案的任何解释都表示赞赏.
我有一个数据帧,如
Company Zip State City
1 *CBRE San Diego, CA 92101
4 1908 Brands Boulder, CO 80301
7 1st Infantry Division Headquarters Fort Riley, KS
10 21st Century Healthcare, Inc. Tempe 85282
15 AAA Jefferson City, MO 65101-9564
Run Code Online (Sandbox Code Playgroud)
我想将我的数据中的Zip State city列拆分为3个不同的列.使用这篇文章Pandas DataFrame的答案,如何将一个列拆分为两个如果我没有第一列,我可以完成此任务.编写正则表达式来捕获所有公司只会导致我捕获数据中的所有内容.
我也试过了
foo = lambda x: pandas.Series([i for i in reversed(x.split())])
data_pretty = data['Zip State City'].apply(foo)
Run Code Online (Sandbox Code Playgroud)
但这导致我松开公司列并将多个单词的城市名称拆分为不同的列.
如何在保留公司列数据的同时拆分我的最后一列?
python ×5
pandas ×4
ag-grid ×1
dataframe ×1
fuzzy-search ×1
fuzzywuzzy ×1
list ×1
react-hooks ×1
reactjs ×1
sorting ×1