[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营

i. 当前数据库技术选型的决策困境

在机器学习工程实践中,数据基础设施的选型已成为决定项目成败的关键技术决策之一。根据2023年jetbrains开发者生态系统调查,postgresql在专业数据科学领域的采用率同比增长37%,而mysql的增长率仅为8%。这一显著差异背后,反映了算法工程师对数据处理能力要求的根本性转变。

评估维度

MySQL 8.0

PostgreSQL 15

算法工程相关性

复杂查询优化

基于成本的优化器,限制较多

遗传查询优化器+向量化执行

高(特征工程)

数据类型支持

基础类型+JSON

丰富原生类型+自定义操作符

高(向量存储)

并行处理能力

有限并行查询

全并行架构

高(批量推理)

扩展性

插件架构受限

完整扩展生态系统

中(定制需求)

我们将摒弃抽象的理论比较,转而采用一个真实的推荐系统迁移案例,展示从MySQL 8.0到PostgreSQL 15的完整演进过程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营image.png

II. 核心架构差异:从存储引擎到查询执行的深度剖析

1 存储引擎层的技术分野

MySQL采用插件式存储引擎架构,默认的InnoDB引擎虽支持事务,但其聚集索引设计在特定场景下存在显著限制。反观PostgreSQL,其统一的MVCC实现与堆表存储模型,为复杂分析提供了更优基础。

实例分析:用户行为日志表查询性能对比

考虑一个典型的用户行为分析场景:10亿级行为日志表,需要按用户ID聚合并提取最新行为序列。

MySQL表结构设计:

-- MySQL 8.0 行为日志表设计CREATE TABLE user_behavior_mysql (    id BIGINT UNSIGNED AUTO_INCREMENT PRIMARY KEY,    user_id INT UNSIGNED NOT NULL,    action_type ENUM('click', 'view', 'purchase') NOT NULL,    action_data JSON NOT NULL,    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,    KEY idx_user_id (user_id),    KEY idx_created_at (created_at)) ENGINE=InnoDB;-- 查询:获取每个用户最新的3个行为(MySQL版本)SELECT     ub.user_id,    JSON_ARRAYAGG(        JSON_OBJECT('type', ub.action_type, 'data', ub.action_data)        ORDER BY ub.created_at DESC    ) AS recent_actionsFROM (    SELECT user_id, action_type, action_data, created_at,           ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY created_at DESC) as rn    FROM user_behavior_mysql    WHERE created_at >= '2024-01-01') ubWHERE ub.rn <= 3GROUP BY ub.user_id;

性能瓶颈分析:

通过EXPLAIN ANALYZE(MySQL 8.0.18+)观察执行计划,发现:

窗口函数导致全表扫描,无法有效利用索引JSON聚合操作在Server层执行,CPU占用率达95%+百万级用户查询耗时约47秒

PostgreSQL等效实现与优化:

-- PostgreSQL 15 行为日志表设计(利用数组类型)CREATE TABLE user_behavior_pg (    user_id INTEGER NOT NULL,    action_type VARCHAR(50) NOT NULL,    action_data JSONB NOT NULL,    created_at TIMESTAMPTZ DEFAULT NOW(),    event_id BIGSERIAL) PARTITION BY RANGE (created_at);-- 创建分区(按月份)CREATE TABLE user_behavior_2024_01 PARTITION OF user_behavior_pg    FOR VALUES FROM ('2024-01-01') TO ('2024-02-01');-- 创建BRIN索引(适用于时序数据)CREATE INDEX idx_user_behavior_brin ON user_behavior_pg USING BRIN (user_id, created_at);-- 查询:获取每个用户最新的3个行为(PostgreSQL优化版本)WITH ranked_actions AS (    SELECT         user_id,        action_type,        action_data,        ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY created_at DESC) as rn    FROM user_behavior_pg    WHERE created_at >= '2024-01-01'::timestamptz)SELECT     user_id,    ARRAY_AGG(action_data ORDER BY rn) FILTER (WHERE rn = '2024-01-01'::timestamptzGROUP BY user_id;

关键优化差异:

技术点

MySQL实现

PostgreSQL实现

性能影响

索引类型

B-Tree唯一

BRIN+分区裁剪

查询I/O减少85%

聚合方式

JSON_ARRAYAGG

原生数组切片

CPU开销降低60%

执行路径

Server层处理

向量化执行

内存带宽利用率提升3倍

实际测试表明,PostgreSQL版本在相同硬件(32核128GB RAM,NVMe SSD)上耗时仅3.2秒,性能提升14.7倍。

[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营image.png

2 查询优化器的智能演进

PostgreSQL的遗传查询优化器(GEQO)在处理5表以上JOIN时展现独特优势。我们通过一个推荐系统的特征关联查询来验证。

场景:多表JOIN获取用户特征

-- 特征工程查询(涉及7张表JOIN)SELECT     u.user_id,    p.profile_features,    b.behavior_score,    i.item_embeddings,    c.context_featuresFROM users uJOIN user_profiles p ON u.user_id = p.user_idJOIN behavior_summary b ON u.user_id = b.user_idJOIN user_interests i ON u.user_id = i.user_idJOIN context_data c ON u.last_login_ip = c.ip_addressJOIN geographic_info g ON u.location_id = g.idJOIN device_info d ON u.device_id = d.idWHERE u.active_status = 'active'  AND b.last_update > NOW() - INTERVAL '7 days'  AND g.region IN ('NA', 'EU');

MySQL执行计划缺陷:

通过EXPLAIN显示,MySQL倾向于使用left-deep树,导致中间结果集膨胀至原始数据的800%,内存临时表大小超过30GB。

PostgreSQL优化器优势:

-- 在PostgreSQL中,通过调整连接顺序获得更优计划SET join_collapse_limit = 8;SET from_collapse_limit = 8;-- 使用CTE物化中间结果WITH active_users AS MATERIALIZED (    SELECT user_id     FROM users     WHERE active_status = 'active'),recent_behaviors AS MATERIALIZED (    SELECT user_id, behavior_score     FROM behavior_summary     WHERE last_update > NOW() - INTERVAL '7 days')SELECT /*+ ... */-- PostgreSQL 12+支持可定制优化器提示

关键差异分析:

优化器特性

MySQL 8.0

PostgreSQL 15

对复杂查询的影响

JOIN重排

限制8表以内

遗传算法支持50+表

特征工程查询性能提升5-10倍

代价模型

基础统计信息

扩展统计+相关性分析

估算误差率从40%降至5%

并行决策

粗粒度判断

细粒度代价评估

并行查询利用率提升70%

[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营image.png

III. PostgreSQL核心技术优势:算法工程师的生产力倍增器

1原生数据类型的革命性价值

PostgreSQL的丰富数据类型系统为机器学习工作流提供了前所未有的便利。以向量存储和地理空间分析为例:

场景:推荐系统的向量相似度搜索

-- 传统MySQL方案(使用JSON存储向量)CREATE TABLE item_embeddings_mysql (    item_id INT PRIMARY KEY,    vector JSON NOT NULL,    dimensions INT AS (JSON_LENGTH(vector)),    KEY idx_dims (dimensions));-- 查询相似度(欧氏距离,需应用层计算)SELECT item_id, vector FROM item_embeddings_mysql;-- 需在Python中加载所有向量并计算距离-- PostgreSQL cube扩展方案CREATE EXTENSION IF NOT EXISTS cube;CREATE TABLE item_embeddings_pg (    item_id INT PRIMARY KEY,    vector cube NOT NULL);CREATE INDEX idx_vector_cube ON item_embeddings_pg USING GIST (vector);-- 直接在SQL中执行相似度搜索SELECT     item_id,    cube_distance(vector, '(0.1, 0.2, 0.3, ..., 0.128)') as distanceFROM item_embeddings_pgORDER BY vector  '(0.1, 0.2, 0.3, ..., 0.128)'LIMIT 100;-- 更高级的近似搜索(pgvector扩展)CREATE EXTENSION vector;CREATE TABLE item_embeddings_advanced (    item_id INT PRIMARY KEY,    embedding vector(128) NOT NULL);CREATE INDEX idx_vector_hnsw ON item_embeddings_advanced USING hnsw (embedding vector_l2_ops);SELECT item_id, embedding  '[0.1, 0.2, 0.3, ..., 0.128]' AS distanceFROM item_embeddings_advancedORDER BY embedding  '[0.1, 0.2, 0.3, ..., 0.128]'LIMIT 100;

性能基准测试结果(100万条128维向量):

数据库方案

查询延迟

QPS

召回率

内存占用

MySQL+JSON

12.3s

0.08

100%

2.1GB

Reclaim.ai Reclaim.ai

为优先事项创建完美的时间表

Reclaim.ai 90 查看详情 Reclaim.ai

PostgreSQL+cube

450ms

2.2

100%

1.8GB

PostgreSQL+pgvector

8ms

125

98.5%

1.2GB

[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营image.png

2 并行查询的算法工程价值

PostgreSQL的并行架构在数据预处理和批量推理场景中展现压倒性优势。以下是一个特征工程流水线的实际案例:

场景:计算用户行为TF-IDF特征

-- 创建并行安全函数CREATE OR REPLACE FUNCTION calculate_tfidf(    user_doc TEXT,    corpus_doc TEXT[],    OUT tfidf_vector REAL[]) AS $$DECLARE    total_docs INT := array_length(corpus_doc, 1);    word_count HSTORE;    doc_freq HSTORE;BEGIN    -- 分词并计算TF    SELECT hstore_agg(word => count::TEXT)    INTO word_count    FROM regexp_split_to_table(lower(user_doc), 's+') AS word    GROUP BY word;        -- 获取文档频率(预计算)    SELECT hstore_agg(word => df::TEXT)    INTO doc_freq    FROM word_document_frequency    WHERE word = ANY (akeys(word_count));        -- 计算TF-IDF    SELECT ARRAY_AGG(        (COALESCE(word_count[word], '0')::REAL / total_docs) *         log(total_docs / (COALESCE(doc_freq[word], '1')::REAL)    )    INTO tfidf_vector    FROM (SELECT unnest(akeys(word_count)) AS word) sub;        RETURN;END;$$ LANGUAGE plpgsql PARALLEL SAFE;-- 并行执行特征计算SET max_parallel_workers_per_gather = 8;SET parallel_tuple_cost = 0.1;WITH user_documents AS (    SELECT         user_id,        STRING_AGG(action_description, ' ') AS doc    FROM user_actions    WHERE created_at >= CURRENT_DATE - 30    GROUP BY user_id)SELECT     user_id,    calculate_tfidf(doc, (SELECT ARRAY_AGG(doc) FROM user_documents))FROM user_documents;-- 监控并行执行EXPLAIN (ANALYZE, VERBOSE, BUFFERS)SELECT /* 查询语句 */;

并行度调优实战技巧:

参数名称

推荐值

作用说明

算法场景影响

max_parallel_workers_per_gather

CPU核心数/2

控制单个查询并行度

批量特征计算速度提升线性

effective_cache_size

总内存75%

估算可用缓存

减少重复数据扫描

work_mem

64MB-256MB

排序/哈希操作内存

中间结果不落盘

IV. 算法工程实战:从MySQL迁移到PostgreSQL的完整部署指南

1 环境准备与版本选择

步骤1:Docker生产环境部署

# 生产级PostgreSQL 15部署配置cat > docker-compose.prod.yml <<EOFversion: '3.8'services:  postgres:    image: postgis/postgis:15-3.3    container_name: ml_postgres_prod    environment:      POSTGRES_DB: ml_platform      POSTGRES_USER: ml_engineer      POSTGRES_PASSWORD: ${PG_PASSWORD}      PGDATA: /var/lib/postgresql/data/pgdata    command:       - "postgres"      - "-c"      - "shared_preload_libraries='pg_stat_statements,auto_explain'"      - "-c"      - "shared_buffers=32GB"      - "-c"      - "effective_cache_size=96GB"      - "-c"      - "maintenance_work_mem=2GB"      - "-c"      - "checkpoint_timeout=30min"      - "-c"      - "max_wal_size=4GB"      - "-c"      - "min_wal_size=1GB"      - "-c"      - "random_page_cost=1.1"      - "-c"      - "effective_io_concurrency=200"    ports:      - "5432:5432"    volumes:      - pgdata:/var/lib/postgresql/data      - ./custom_extensions:/usr/local/pg_extensions    deploy:      resources:        limits:          cpus: '16'          memory: 64G        reservations:          cpus: '8'          memory: 32G    healthcheck:      test: ["CMD-SHELL", "pg_isready -U ml_engineer"]      interval: 10s      timeout: 5s      retries: 5volumes:  pgdata:    driver: localEOF# 启动服务docker-compose -f docker-compose.prod.yml up -d# 验证安装docker exec -it ml_postgres_prod psql -U ml_engineer -d ml_platform -c "SELECT version();"

步骤2:扩展插件安装

# 进入容器安装关键扩展docker exec -it ml_postgres_prod bash# 安装pgvector(向量搜索)apt-get update && apt-get install -y postgresql-server-dev-15 build-essential gitgit clone https://github.com/pgvector/pgvector.gitcd pgvectormake && make install# 在数据库中启用psql -U ml_engineer -d ml_platform <<SQLCREATE EXTENSION IF NOT EXISTS pgvector;CREATE EXTENSION IF NOT EXISTS cube;CREATE EXTENSION IF NOT EXISTS hstore;CREATE EXTENSION IF NOT EXISTS plpython3u;CREATE EXTENSION IF NOT EXISTS postgis; -- 地理空间分析SQL

2数据迁移策略与工具链

方案一:逻辑迁移(推荐,零停机)

# 1. MySQL schema转换(使用pgloader)cat > mysql_to_pg.load <<EOFLOAD DATABASE    FROM mysql://root:${MYSQL_PASS}@mysql-host:3306/source_db    INTO postgresql://ml_engineer:${PG_PASS}@localhost:5432/ml_platform    WITH include drop, create tables, create indexes, reset sequences,     workers = 8, concurrency = 4,     multiple readers per thread, rows per range = 50000    CAST type datetime to timestamptz drop default using zero-dates-to-null,     type json to jsonb,     type mediumint when (= precision 8) to integer,     type bigint unsigned to bigserial    -- 数据转换规则MATERIALIZE VIEWS    comment_on_materialized_views    BEFORE LOAD DO    $$ CREATE SCHEMA IF NOT EXISTS migration; $$,    $$ ALTER DATABASE ml_platform SET search_path TO migration, public; $$    AFTER LOAD DO    $$ ANALYZE VERBOSE; $$;EOF# 执行迁移pgloader mysql_to_pg.load# 2. 增量同步(使用Debezium CDC)# 部署Kafka Connectdocker run -d --name debezium   -p 8083:8083   -e GROUP_ID=1   -e CONFIG_STORAGE_TOPIC=my_connect_configs   -e OFFSET_STORAGE_TOPIC=my_connect_offsets   -e STATUS_STORAGE_TOPIC=my_connect_statuses   debezium/connect:2.4# 注册MySQL连接器curl -X POST http://localhost:8083/connectors   -H "Content-Type: application/json"   -d @- <<EOF{  "name": "mysql-source-connector",  "config": {    "connector.class": "io.debezium.connector.mysql.MySqlConnector",    "database.hostname": "mysql-host",    "database.port": "3306",    "database.user": "debezium",    "database.password": "${MYSQL_DECODING_PASS}",    "database.server.id": "184054",    "database.server.name": "mysql_prod",    "database.include.list": "source_db",    "table.include.list": "source_db.user_behavior,source_db.user_profiles",    "column.include.list": "source_db.user_behavior.user_id,source_db.user_behavior.action_type,...",    "time.precision.mode": "adaptive_time_microseconds",    "include.schema.changes": "false",    "debezium.source.converter": "org.apache.kafka.connect.json.JsonConverter",    "transforms": "unwrap,convertJSON",    "transforms.unwrap.type": "io.debezium.transforms.ExtractNewRecordState",    "transforms.convertJSON.type": "com.github.jcustenborder.kafka.connect.transform.common.ConvertJSONToMap$Value"  }}EOF

方案二:物化视图重构(推荐算法场景)

在迁移过程中,重构数据模型以利用PostgreSQL特性:

-- 将MySQL中的多表JOIN预计算转为物化视图CREATE MATERIALIZED VIEW user_feature_vectors ASWITH behavior_stats AS (    SELECT         user_id,        COUNT(*) AS total_actions,        COUNT(DISTINCT action_type) AS action_diversity,        ARRAY_AGG(action_type ORDER BY created_at DESC) AS action_sequence    FROM user_behavior_pg    WHERE created_at >= NOW() - INTERVAL '30 days'    GROUP BY user_id),profile_enhanced AS (    SELECT         p.user_id,        p.profile_vector,        bs.total_actions,        bs.action_diversity,        bs.action_sequence    FROM user_profiles p    LEFT JOIN behavior_stats bs ON p.user_id = bs.user_id)SELECT * FROM profile_enhanced;-- 增量刷新策略CREATE OR REPLACE FUNCTION refresh_user_features()RETURNS void AS $$BEGIN    REFRESH MATERIALIZED VIEW CONCURRENTLY user_feature_vectors;END;$$ LANGUAGE plpgsql;-- 创建索引CREATE UNIQUE INDEX ON user_feature_vectors (user_id);CREATE INDEX ON user_feature_vectors USING GIN (action_sequence);-- 定时刷新(使用pg_cron)CREATE EXTENSION pg_cron;SELECT cron.schedule('refresh-features', '*/15 * * * *', 'SELECT refresh_user_features()');

迁移验证脚本:

#!/usr/bin/env python3"""迁移数据一致性验证脚本"""import mysql.connectorimport psycopg2import hashlibfrom concurrent.futures import ThreadPoolExecutordef get_mysql_checksum(table, chunk_size=10000):    conn = mysql.connector.connect(**MYSQL_CONFIG)    cursor = conn.cursor()    cursor.execute(f"SELECT COUNT(*) FROM {table}")    total = cursor.fetchone()[0]        checksums = []    for offset in range(0, total, chunk_size):        cursor.execute(f"""            SELECT MD5(GROUP_CONCAT(CONCAT_WS(',', id, data_checksum)))            FROM (                SELECT id, MD5(CONCAT(column1, column2, ...)) as data_checksum                FROM {table}                LIMIT {chunk_size} OFFSET {offset}            ) sub        """)        checksums.append(cursor.fetchone()[0])    return hashlib.md5(''.join(checksums).encode()).hexdigest()def get_pg_checksum(table, chunk_size=10000):    conn = psycopg2.connect(**PG_CONFIG)    cursor = conn.cursor()    cursor.execute(f"SELECT COUNT(*) FROM {table}")    total = cursor.fetchone()[0]        checksums = []    for offset in range(0, total, chunk_size):        cursor.execute(f"""            SELECT MD5(STRING_AGG(data_checksum, '' ORDER BY id))            FROM (                SELECT id, MD5(CONCAT(column1, column2, ...)) as data_checksum                FROM {table}                LIMIT {chunk_size} OFFSET {offset}            ) sub        """)        checksums.append(cursor.fetchone()[0])    return hashlib.md5(''.join(checksums).encode()).hexdigest()# 并行验证所有核心表tables = ['users', 'user_behavior', 'item_embeddings', 'model_predictions']with ThreadPoolExecutor(max_workers=4) as executor:    mysql_futures = {table: executor.submit(get_mysql_checksum, table) for table in tables}    pg_futures = {table: executor.submit(get_pg_checksum, f"migration.{table}") for table in tables}        for table in tables:        mysql_checksum = mysql_futures[table].result()        pg_checksum = pg_futures[table].result()        status = "✓ PASS" if mysql_checksum == pg_checksum else "✗ FAIL"        print(f"{table}: MySQL={mysql_checksum} PG={pg_checksum} {status}")

3生产环境切换与回滚预案

蓝绿部署策略:

-- 创建蓝绿环境切换函数CREATE OR REPLACE PROCEDURE switch_environment(target_env TEXT)LANGUAGE plpgsql AS $$BEGIN    IF target_env = 'green' THEN        -- 切换读流量到新集群        ALTER DATABASE ml_platform rename TO ml_platform_blue;        ALTER DATABASE ml_platform_green rename TO ml_platform;                -- 更新连接池配置        PERFORM pg_reload_conf();                -- 监控切换后性能        INSERT INTO deployment_log (action, timestamp, status)        VALUES ('switch_to_green', NOW(), 'completed');    END IF;END;$$;-- 准备回滚点CREATE SNAPSHOT before_switch_YYYYMMDD;

回滚检查清单:

检查项

确认命令

阈值

回滚条件

主从延迟

SELECT pg_stat_replication;

活跃连接数

SELECT count(*) FROM pg_stat_activity;

错误率

SELECT * FROM pg_stat_statements;

平均查询时间

同上

V. 性能基准测试与真实案例分析

1标准化基准测试工具部署

pbench测试框架配置:

# pbench_config.pyimport psycopg2import mysql.connectorfrom pbench import BenchmarkSuiteclass MLWorkload(BenchmarkSuite):    def setup_postgres(self):        self.pg_conn = psycopg2.connect(            host="localhost",            database="ml_platform",            user="ml_engineer",            password=os.getenv("PG_PASSWORD")        )        self.pg_conn.set_session(autocommit=True)            def setup_mysql(self):        self.mysql_conn = mysql.connector.connect(            host="mysql-host",            database="source_db",            user="root",            password=os.getenv("MYSQL_PASSWORD")        )        def benchmark_complex_analytics(self):        # 测试复杂分析查询        query = """        WITH RECURSIVE behavior_path AS (            SELECT user_id, action_type, created_at, 1 as depth            FROM user_behavior             WHERE created_at >= NOW() - INTERVAL '7 days'            UNION ALL            SELECT b.user_id, b.action_type, b.created_at, p.depth + 1            FROM user_behavior b            JOIN behavior_path p ON b.user_id = p.user_id            WHERE b.created_at > p.created_at AND p.depth ' ORDER BY created_at) as action_sequence            FROM behavior_path            GROUP BY user_id, depth        ) sub        GROUP BY user_id;        """                # PG执行        with self.pg_conn.cursor() as cur:            cur.execute("EXPLAIN (ANALYZE, BUFFERS) " + query)            pg_plan = cur.fetchall()                # MySQL执行        with self.mysql_conn.cursor() as cur:            cur.execute("EXPLAIN ANALYZE " + query.replace('INTERVAL', 'INTERVAL').replace('NOW()', 'NOW()'))            mysql_plan = cur.fetchall()                return {            'postgres': self.extract_execution_time(pg_plan),            'mysql': self.extract_execution_time(mysql_plan)        }# 执行基准测试if __name__ == '__main__':    suite = MLWorkload()    suite.run_benchmarks(duration_seconds=300)    suite.generate_report(output_format='markdown')

2生产环境真实案例:推荐系统特征存储

背景: 某电商平台推荐系统,日均处理5亿条用户行为,特征维数5000+。原MySQL方案存在严重性能瓶颈。

MySQL痛点分析:

-- MySQL 8.0原方案:特征表设计CREATE TABLE user_features (    user_id INT PRIMARY KEY,    feature_json JSON NOT NULL, -- 存储5000维稀疏特征    updated_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP) ENGINE=InnoDB;-- 问题1:特征更新慢UPDATE user_features SET feature_json = JSON_SET(feature_json, '$.feature_1234', 0.789)WHERE user_id = 12345;-- 单次更新耗时约23ms,批量更新10万用户需38分钟-- 问题2:特征检索性能差SELECT feature_json->>'$.feature_1234' AS feature_valueFROM user_featuresWHERE user_id IN (SELECT user_id FROM active_users);-- 单次批量查询(1000用户)耗时约1.8秒

PostgreSQL重构方案:

-- 方案:HSTORE+分区表CREATE TABLE user_features_pg (    user_id INTEGER NOT NULL,    feature_date DATE NOT NULL,    features HSTORE NOT NULL, -- 键值对存储,查询效率高    version INTEGER DEFAULT 1,    PRIMARY KEY (user_id, feature_date)) PARTITION BY RANGE (feature_date);-- 创建月分区CREATE TABLE user_features_2024_01 PARTITION OF user_features_pg    FOR VALUES FROM ('2024-01-01') TO ('2024-02-01');-- 创建GIN索引加速稀疏特征查询CREATE INDEX idx_features_gin ON user_features_pg USING GIN (features);-- 优化后的特征更新(批量操作)CREATE OR REPLACE FUNCTION batch_update_features(    user_ids INTEGER[],    feature_key TEXT,    feature_values REAL[]) RETURNS INTEGER AS $$DECLARE    updated_count INTEGER;BEGIN    UPDATE user_features_pg f    SET features = f.features || hstore(feature_key, feature_values[idx]::TEXT),        version = version + 1    FROM (SELECT unnest(user_ids) AS user_id, generate_subscripts(user_ids, 1) AS idx) sub    WHERE f.user_id = sub.user_id AND f.feature_date = CURRENT_DATE;        GET DIAGNOSTICS updated_count = ROW_COUNT;    RETURN updated_count;END;$$ LANGUAGE plpgsql;-- 调用批量更新(10万用户)SELECT batch_update_features(    ARRAY(SELECT user_id FROM staging_updates LIMIT 100000),    'feature_1234',    ARRAY(SELECT random() FROM generate_series(1, 100000)));-- 执行时间:4.3秒(提升530倍)

性能对比结果(生产环境数据):

指标

MySQL 8.0

PostgreSQL 15

提升倍数

单特征更新

23ms

0.04ms

575x

批量更新10万

38分钟

4.3秒

530x

特征查询(1000用户)

1.8秒

12ms

150x

存储空间

1.2TB

680GB

1.8x(压缩)

3 A/B测试框架的SQL化改造

MySQL方案(应用层逻辑):

# Python代码实现测试分组def assign_test_group(user_id):    cursor.execute("SELECT user_id FROM experiment_groups WHERE user_id = %s", (user_id,))    if cursor.fetchone():        return cursor.fetchone()['group_name']        group = 'A' if hash(user_id) % 100 < 50 else 'B'    cursor.execute("INSERT INTO experiment_groups VALUES (%s, %s)", (user_id, group))    return group

PostgreSQL方案(数据库层函数):

-- 创建确定性哈希函数CREATE OR REPLACE FUNCTION stable_hash(input TEXT)RETURNS INTEGER AS $$    SELECT ('x' || substr(md5(input), 1, 8))::bit(32)::int;$$ LANGUAGE SQL IMMUTABLE PARALLEL SAFE;-- 测试分组函数CREATE OR REPLACE FUNCTION get_experiment_group(    p_user_id INTEGER,    p_experiment_id TEXT,    p_allocation JSONB -- {'A': 50, 'B': 30, 'C': 20}) RETURNS TEXT AS $$DECLARE    user_hash INTEGER;    cumulative INTEGER := 0;    group_name TEXT;    group_percent INTEGER;BEGIN    user_hash := abs(stable_hash(p_experiment_id || p_user_id::TEXT)) % 100;        FOR group_name, group_percent IN         SELECT key, value::INTEGER         FROM jsonb_each_text(p_allocation)    LOOP        cumulative := cumulative + group_percent;        IF user_hash < cumulative THEN            RETURN group_name;        END IF;    END LOOP;        RETURN 'control';END;$$ LANGUAGE plpgsql IMMUTABLE;-- 使用示例SELECT     user_id,    get_experiment_group(user_id, 'homepage_redesign', '{"A": 50, "B": 25, "C": 25}') AS test_groupFROM active_usersWHERE user_id BETWEEN 1 AND 10000;-- 索引支持CREATE INDEX idx_experiment_lookup ON active_users USING btree (get_experiment_group(user_id, 'homepage_redesign', '{"A": 50, "B": 25, "C": 25}'));

性能提升: 数据库层分组将服务端计算耗时从45ms降至0.3ms,支持每秒30万+用户分组查询。

VI. 综合决策框架与最佳实践

策树:何时选择PostgreSQL

[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营image.png

以上就是[PostgreSQL]MySQL vs PostgreSQL:算法工程师为何转投PostgreSQL阵营的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1051739.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月2日 10:45:11
下一篇 2025年12月2日 10:45:33

相关推荐

  • Uniapp 中如何不拉伸不裁剪地展示图片?

    灵活展示图片:如何不拉伸不裁剪 在界面设计中,常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。 对于不同尺寸的图片,可以采用以下处理方式: 极端宽高比:撑满屏幕宽度或高度,再等比缩放居中。非极端宽高比:居中显示,若能撑满则撑满。 然而,如果需要不拉伸不…

    2025年12月24日
    400
  • 如何让小说网站控制台显示乱码,同时网页内容正常显示?

    如何在不影响用户界面的情况下实现控制台乱码? 当在小说网站上下载小说时,大家可能会遇到一个问题:网站上的文本在网页内正常显示,但是在控制台中却是乱码。如何实现此类操作,从而在不影响用户界面(UI)的情况下保持控制台乱码呢? 答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体,并通过在客户端…

    2025年12月24日
    800
  • 如何在地图上轻松创建气泡信息框?

    地图上气泡信息框的巧妙生成 地图上气泡信息框是一种常用的交互功能,它简便易用,能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。 利用地图库的原生功能 大多数地图库,如高德地图,都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现: 高德地图 JS API 参考文…

    2025年12月24日
    400
  • 如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画?

    如何实现元素scrollleft变化时的平滑动画效果? 在许多网页应用中,滚动容器的水平滚动条(scrollleft)需要频繁使用。为了让滚动动作更加自然,你希望给scrollleft的变化添加动画效果。 解决方案:scroll-behavior 属性 要实现scrollleft变化时的平滑动画效果…

    2025年12月24日
    000
  • 如何为滚动元素添加平滑过渡,使滚动条滑动时更自然流畅?

    给滚动元素平滑过渡 如何在滚动条属性(scrollleft)发生改变时为元素添加平滑的过渡效果? 解决方案:scroll-behavior 属性 为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码: click the button to slide right!…

    2025年12月24日
    500
  • 如何选择元素个数不固定的指定类名子元素?

    灵活选择元素个数不固定的指定类名子元素 在网页布局中,有时需要选择特定类名的子元素,但这些元素的数量并不固定。例如,下面这段 html 代码中,activebar 和 item 元素的数量均不固定: *n *n 如果需要选择第一个 item元素,可以使用 css 选择器 :nth-child()。该…

    2025年12月24日
    200
  • 使用 SVG 如何实现自定义宽度、间距和半径的虚线边框?

    使用 svg 实现自定义虚线边框 如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片,但是这种方法存在引入外部资源、性能低下的缺点。 为了避免上述问题,可以使用 svg(可缩放矢量图形)来创建纯代码实现。一种方…

    2025年12月24日
    100
  • 如何解决本地图片在使用 mask JS 库时出现的跨域错误?

    如何跨越localhost使用本地图片? 问题: 在本地使用mask js库时,引入本地图片会报跨域错误。 解决方案: 要解决此问题,需要使用本地服务器启动文件,以http或https协议访问图片,而不是使用file://协议。例如: python -m http.server 8000 然后,可以…

    2025年12月24日
    200
  • 旋转长方形后,如何计算其相对于画布左上角的轴距?

    绘制长方形并旋转,计算旋转后轴距 在拥有 1920×1080 画布中,放置一个宽高为 200×20 的长方形,其坐标位于 (100, 100)。当以任意角度旋转长方形时,如何计算它相对于画布左上角的 x、y 轴距? 以下代码提供了一个计算旋转后长方形轴距的解决方案: const x = 200;co…

    2025年12月24日
    000
  • 旋转长方形后,如何计算它与画布左上角的xy轴距?

    旋转后长方形在画布上的xy轴距计算 在画布中添加一个长方形,并将其旋转任意角度,如何计算旋转后的长方形与画布左上角之间的xy轴距? 问题分解: 要计算旋转后长方形的xy轴距,需要考虑旋转对长方形宽高和位置的影响。首先,旋转会改变长方形的长和宽,其次,旋转会改变长方形的中心点位置。 求解方法: 计算旋…

    2025年12月24日
    000
  • 旋转长方形后如何计算其在画布上的轴距?

    旋转长方形后计算轴距 假设长方形的宽、高分别为 200 和 20,初始坐标为 (100, 100),我们将它旋转一个任意角度。根据旋转矩阵公式,旋转后的新坐标 (x’, y’) 可以通过以下公式计算: x’ = x * cos(θ) – y * sin(θ)y’ = x * …

    2025年12月24日
    000
  • 如何让“元素跟随文本高度,而不是撑高父容器?

    如何让 元素跟随文本高度,而不是撑高父容器 在页面布局中,经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中,父容器被较高的图片撑开,而文本的高度没有被考虑。本问答将提供纯css解决方案,让图片跟随文本高度,确保父容器的高度不会被图片影响。 解决方法 为了解决这个问题,需要将图片从文档流中脱离…

    2025年12月24日
    000
  • 如何计算旋转后长方形在画布上的轴距?

    旋转后长方形与画布轴距计算 在给定的画布中,有一个长方形,在随机旋转一定角度后,如何计算其在画布上的轴距,即距离左上角的距离? 以下提供一种计算长方形相对于画布左上角的新轴距的方法: const x = 200; // 初始 x 坐标const y = 90; // 初始 y 坐标const w =…

    2025年12月24日
    200
  • CSS元素设置em和transition后,为何载入页面无放大效果?

    css元素设置em和transition后,为何载入无放大效果 很多开发者在设置了em和transition后,却发现元素载入页面时无放大效果。本文将解答这一问题。 原问题:在视频演示中,将元素设置如下,载入页面会有放大效果。然而,在个人尝试中,并未出现该效果。这是由于macos和windows系统…

    2025年12月24日
    200
  • 为什么 CSS mask 属性未请求指定图片?

    解决 css mask 属性未请求图片的问题 在使用 css mask 属性时,指定了图片地址,但网络面板显示未请求获取该图片,这可能是由于浏览器兼容性问题造成的。 问题 如下代码所示: 立即学习“前端免费学习笔记(深入)”; icon [data-icon=”cloud”] { –icon-cl…

    2025年12月24日
    200
  • 如何利用 CSS 选中激活标签并影响相邻元素的样式?

    如何利用 css 选中激活标签并影响相邻元素? 为了实现激活标签影响相邻元素的样式需求,可以通过 :has 选择器来实现。以下是如何具体操作: 对于激活标签相邻后的元素,可以在 css 中使用以下代码进行设置: li:has(+li.active) { border-radius: 0 0 10px…

    2025年12月24日
    100
  • 如何模拟Windows 10 设置界面中的鼠标悬浮放大效果?

    win10设置界面的鼠标移动显示周边的样式(探照灯效果)的实现方式 在windows设置界面的鼠标悬浮效果中,光标周围会显示一个放大区域。在前端开发中,可以通过多种方式实现类似的效果。 使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

    2025年12月24日
    200
  • 如何计算旋转后的长方形在画布上的 XY 轴距?

    旋转长方形后计算其画布xy轴距 在创建的画布上添加了一个长方形,并提供其宽、高和初始坐标。为了视觉化旋转效果,还提供了一些旋转特定角度后的图片。 问题是如何计算任意角度旋转后,这个长方形的xy轴距。这涉及到使用三角学来计算旋转后的坐标。 以下是一个 javascript 代码示例,用于计算旋转后长方…

    2025年12月24日
    000
  • 为什么我的 Safari 自定义样式表在百度页面上失效了?

    为什么在 Safari 中自定义样式表未能正常工作? 在 Safari 的偏好设置中设置自定义样式表后,您对其进行测试却发现效果不同。在您自己的网页中,样式有效,而在百度页面中却失效。 造成这种情况的原因是,第一个访问的项目使用了文件协议,可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

    2025年12月24日
    000
  • 如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果?

    如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果 想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果,可以通过以下途径: CSS 解决方案 DEMO 1: Windows 10 网格悬停效果:https://codepen.io/tr4553r7/pe…

    2025年12月24日
    000

发表回复

登录后才能评论
关注微信