如何在 Pandas 的 SQL 查询样式中选择数据子集?

如何在 pandas 的 sql 查询样式中选择数据子集?

蓝心千询 蓝心千询

蓝心千询是vivo推出的一个多功能AI智能助手

蓝心千询 34 查看详情 蓝心千询

简介

在这篇文章中,我将向您展示如何使用 Pandas 通过 SQL 样式过滤来执行数据分析。大多数企业数据都存储在需要 SQL 来检索和操作的数据库中。例如,像 Oracle、IBM、Microsoft 这样的公司拥有自己的数据库和自己的 SQL 实现。

数据科学家必须在其职业生涯的某个阶段处理 SQL,因为数据并不总是存储在CSV 文件。我个人更喜欢使用 Oracle,因为我公司的大部分数据都存储在 Oracle 中。

场景 – 1 假设我们有一个任务,从我们的电影中查找所有电影具有以下条件的数据集。

电影的语言应该是英语(en)或西班牙语(es)。电影的受欢迎程度必须介于 500 到 1000 之间。电影的状态必须已发布。投票数必须大于 5000。对于上述场景,SQL 语句类似于如下。

SELECTFROM WHEREtitle AS movie_title,original_language AS movie_language,popularityAS movie_popularity,statusAS movie_status,vote_count AS movie_vote_count movies_dataoriginal_languageIN ('en', 'es')AND status=('Released')AND popularitybetween 500 AND 1000AND vote_count > 5000;

现在你已经看到了满足需求的SQL语句,让我们使用pandas一步一步地进行操作。我将向你展示两种方法。

方法1:布尔索引

1. 将movies_data数据集加载到DataFrame中。

import pandas as pd movies = pd.read_csv("https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv")

为每个条件分配一个变量。

languages = [ "en" , "es" ] condition_on_languages = movies . original_language . isin ( languages )condition_on_status = movies . status == "Released"condition_on_popularity = movies . popularity . between ( 500 , 1000 )condition_on_votecount = movies . vote_count > 5000

3.将所有条件(布尔数组)组合在一起。

final_conditions = ( condition_on_languages & condition_on_status & condition_on_popularity & condition_on_votecount )columns = [ "title" , "original_language" , "status" , "popularity" , "vote_count" ]# clubbing all together movies . loc [ final_conditions , columns ]

标题

original_language

状态

受欢迎程度

vote_count

95星际

zh

已发布

724.247784

10867

788死侍

zh

已发布

514.569956

10995

方法2:- .query()方法。

.query()方法是SQL where子句样式过滤数据的方法。条件可以作为字符串传递给此方法,但是,列名称不得包含任何空格。

如果列名称中有空格,请使用 python 替换函数将其替换为下划线。

根据我的经验,我发现 query() 方法在应用于较大的 DataFrame 时比以前的方法更快。

import pandas as pd movies = pd . read_csv ( "https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv" )

4.构建查询字符串并执行该方法。

请注意,.query 方法不适用于跨越多行的三重引号字符串。

final_conditions = ("original_language in ['en','es']""and status == 'Released' ""and popularity > 500 ""and popularity  5000") final_result = movies . query ( final_conditions )final_result

预算

id

original_language

original_title

受欢迎程度

发布日期

收入

运行时

st

95

165000000

157336

zh

星际

724.247784

2014年5月11日

675120017

169.0

关系

788

58000000

293660

zh

死侍

514.569956 p>

2016年9月2日

783112979

108.0

关系

还有更多,通常在我的编码中,我有多个值要检查我的“in”子句。所以上面的语法并不理想。可以使用 at 符号 (@) 引用 Python 变量。

您还可以以编程方式将值创建为 Python 列表,并将它们与 (@) 一起使用。

movie_languages = [ 'en' , 'es' ]final_conditions = ("original_language in @movie_languages ""and status == 'Released' ""and popularity > 500 ""and popularity  5000" )final_result = movies . query ( final_conditions )final_result

预算

id

original_language

original_title

受欢迎程度

发布日期

收入

运行时

st

95

165000000

157336

zh

星际

724.247784

2014年5月11日

675120017

169.0

关系

788

58000000

293660

zh

死侍

514.569956 p>

2016年9月2日

783112979

108.0

关系

以上就是如何在 Pandas 的 SQL 查询样式中选择数据子集?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/324942.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月5日 11:31:44
下一篇 2025年11月5日 11:36:09

相关推荐

  • 环境搭建docker环境下如何快速部署mysql集群

    使用Docker Compose部署MySQL主从集群,通过配置文件设置server-id和binlog,编写docker-compose.yml定义主从服务并组网,启动后创建复制用户并配置主从连接,最后验证数据同步是否正常。 在Docker环境下快速部署MySQL集群,关键在于合理使用Docker…

    2025年12月6日 数据库
    500
  • 如何在mysql中分析索引未命中问题

    答案是通过EXPLAIN分析执行计划,检查索引使用情况,优化WHERE条件写法,避免索引失效,结合慢查询日志定位问题SQL,并根据查询模式合理设计索引。 当 MySQL 查询性能下降,很可能是索引未命中导致的。要分析这类问题,核心是理解查询执行计划、检查索引设计是否合理,并结合实际数据访问模式进行优…

    2025年12月6日 数据库
    300
  • 如何在mysql中安装mysql插件扩展

    安装MySQL插件需先确认插件文件位于plugin_dir目录,使用INSTALL PLUGIN命令加载,如INSTALL PLUGIN keyring_file SONAME ‘keyring_file.so’,并确保用户有SUPER权限,最后通过SHOW PLUGINS验…

    2025年12月6日 数据库
    100
  • 如何在mysql中定期清理过期备份文件

    通过Shell脚本结合cron定时任务实现MySQL过期备份文件自动清理,首先统一备份命名格式(如backup_20250405.sql)并存放在指定目录(/data/backup/mysql),然后编写脚本使用find命令删除7天前的.sql文件,配置每日凌晨2点执行的cron任务,并加入日志记录…

    2025年12月6日 数据库
    100
  • 如何在mysql中使用角色组合优化权限管理

    答案:MySQL角色通过封装权限实现集中管理。创建如app_reader等角色并授予权限,再分配给用户alice并设默认角色,支持组合使用,定期审计并通过系统视图查看,提升安全与运维效率。 在MySQL中,角色(Role)是一种强大的权限管理工具,能够简化用户权限的分配与维护。通过创建角色并将其赋予…

    2025年12月6日 数据库
    300
  • 如何在mysql中使用索引提高查询效率

    合理创建索引可显著提升MySQL查询效率,应优先为WHERE、JOIN、ORDER BY等高频字段建立B-Tree复合索引,如CREATE INDEX idx_status_created ON users(status, created_at, id),并遵循最左前缀原则;避免在索引列使用函数或前…

    2025年12月6日 数据库
    200
  • mysql如何备份存储过程和函数

    最直接且推荐的方式是使用mysqldump工具并添加–routines参数,可完整导出存储过程和函数;若需跨版本迁移,应结合–triggers、处理DEFINER用户、验证SQL_MODE,并在测试环境充分验证恢复与兼容性。 MySQL备份存储过程和函数,最直接且推荐的方式是…

    2025年12月6日 数据库
    100
  • mysql如何设置事务隔离级别

    MySQL支持四种事务隔离级别:READ UNCOMMITTED、READ COMMITTED、REPEATABLE READ和SERIALIZABLE,分别用于控制脏读、不可重复读和幻读问题。默认隔离级别为REPEATABLE READ。可通过SELECT @@transaction_isolat…

    2025年12月6日 数据库
    100
  • 如何在mysql中安装mysql客户端命令行

    答案是安装MySQL客户端的方法因操作系统而异。首先通过mysql –version确认是否已安装,若未安装,则在Ubuntu/Debian系统使用sudo apt install mysql-client,在CentOS/RHEL/Fedora系统使用sudo yum或dnf inst…

    2025年12月6日 数据库
    000
  • mysql中如何排查事务死锁

    首先通过SHOW ENGINE INNODB STATUS查看最近死锁信息,分析事务加锁顺序和SQL语句,定位循环等待原因;再启用innodb_print_all_deadlocks记录所有死锁至错误日志;常见死锁原因为加锁顺序不一致、间隙锁冲突、无索引扫描及长事务;建议统一加锁顺序、添加索引、缩短…

    2025年12月6日 数据库
    000
  • 如何在mysql中排查权限不足导致的错误

    答案是权限配置不当导致MySQL访问被拒。需检查用户是否存在、密码是否正确、权限是否覆盖当前主机和数据库,并通过SHOW GRANTS确认授权,必要时创建用户并授予对应权限,最后执行FLUSH PRIVILEGES生效。 当在 MySQL 中遇到权限不足导致的错误时,通常会看到类似 ERROR 10…

    2025年12月6日 数据库
    000
  • 如何在安装完成后优化缓存使用

    合理配置缓存策略可提升系统效率,需设置适宜的过期时间、选用多层存储介质并持续监控维护。 安装完成后优化缓存使用,关键在于合理配置缓存策略、选择合适的存储方式,并定期维护。以下是一些实用建议,帮助你提升系统或应用的缓存效率。 合理设置缓存过期时间 缓存的有效期直接影响数据的新鲜度和性能表现。设置过短会…

    2025年12月6日 数据库
    000
  • 如何在mysql中使用备份提高灾备能力

    建立完整备份机制是提升MySQL灾备能力的关键,定期使用mysqldump执行全量备份可确保数据可恢复,如:mysqldump -u root -p –all-databases > full_backup.sql。 在MySQL中,通过合理使用备份策略可以显著提升系统的灾备能力。…

    2025年12月6日 数据库
    100
  • 如何在mysql中修改配置文件my.cnf

    答案是修改MySQL配置需找到正确my.cnf文件,编辑[mysqld]段参数如max_connections和innodb_buffer_pool_size,保存后验证语法并重启服务,最后登录数据库用SHOW VARIABLES确认生效,操作前应备份原文件以防启动失败。 在 MySQL 中修改配置…

    2025年12月6日 数据库
    000
  • 如何在mysql中配置备份目录

    答案:MySQL无内置备份目录,需通过工具如mysqldump指定路径。创建目录并设权限,用命令行或脚本定义存储位置,可配置my.cnf优化参数,结合cron自动化备份,定期清理并确保安全存储。 在 MySQL 中,并没有直接的“备份目录”配置项,因为备份操作通常是通过工具(如 mysqldump、…

    2025年12月6日 数据库
    200
  • mysql中事务隔离级别有哪些

    读未提交允许读取未提交数据,易引发脏读、不可重复读和幻读;2. 读已提交确保读取已提交数据,避免脏读但存在不可重复读和幻读;3. 可重复读保证事务内多次读取一致,MySQL默认级别,通过MVCC和间隙锁减少幻读;4. 串行化强制事务串行执行,避免所有并发问题但性能最差。选择隔离级别需权衡一致性与性能…

    2025年12月6日 数据库
    100
  • 如何在mysql中优化GROUP BY分组查询

    答案:优化GROUP BY需创建合适索引(如WHERE与GROUP BY字段的复合索引)、使用ORDER BY NULL避免隐式排序、通过WHERE提前过滤数据、避免在分组字段使用函数、利用覆盖索引减少回表、控制分组结果大小并监控临时表使用,结合EXPLAIN分析执行计划持续优化。 在MySQL中优…

    2025年12月6日 数据库
    000
  • mysql中如何实现跨服务器数据备份

    使用mysqldump+scp、主从复制、XtraBackup或脚本定时任务可实现MySQL跨服务器备份,根据数据量和停机容忍度选择合适方案,推荐结合SSH密钥与权限隔离保障安全。 MySQL本身不直接支持跨服务器的自动备份功能,但可以通过多种方式实现跨服务器数据备份。以下是几种常见且实用的方法。 …

    2025年12月6日 数据库
    100
  • 如何在mysql中配置临时表路径

    MySQL临时表路径由tmpdir变量控制,可通过SHOW VARIABLES LIKE ‘tmpdir’;查看;2. 修改需在my.cnf或my.ini的[mysqld]段落设置tmpdir=/自定义路径,确保目录存在且MySQL用户有读写权限;3. tmpdir支持多路径…

    2025年12月6日 数据库
    000
  • mysql中如何监控复制延迟和状态

    答案:通过SHOW SLAVE STATUS命令查看复制状态,重点关注Seconds_Behind_Master延迟指标,并结合pt-heartbeat工具实现精准监控,同时利用performance_schema表和告警机制保障MySQL主从复制的稳定与数据一致性。 在MySQL主从复制环境中,监…

    2025年12月6日 数据库
    000

发表回复

登录后才能评论
关注微信