|
Розв’язання економетричних задач із застосуванням моделей генеративного штучного інтелекту: порівняльний аналіз ChatGPT та Gemini Сосновська Є. Р., Скіцько В. І.
Сосновська Є. Р., Скіцько В. І. Розв’язання економетричних задач із застосуванням моделей генеративного штучного інтелекту: порівняльний аналіз ChatGPT та Gemini. Проблеми економіки. 2025. №4. C. 428–442. https://doi.org/10.32983/2222-0712-2025-4-428-442
Розділ: Математичні методи та моделі в економіці
Стаття написана українською мовоюЗавантажень/переглядів: 0 | Завантажити статтю у форматі pdf -  |
УДК 004.8:519.86
Анотація: У статті здійснено комплексне дослідження та порівняльний аналіз компетентності сучасних моделей генеративного штучного інтелекту у контексті їх застосування для вирішення прикладних задач економетричного моделювання. Об’єктом дослідження обрано моделі різних архітектурних типів: «просунуті» версії з розширеними можливостями міркування – Google Gemini 2.5 Pro та ChatGPT-5 Thinking + Study, а також їхні оптимізовані «легкі» версії – Google Gemini 2.5 Flash та базова модель ChatGPT-5. Емпіричну базу дослідження сформовано на основі реальних даних ринку житлової нерухомості України, зокрема репрезентативної вибірки зі 100 об’єктів, що включає як кількісні, так і якісні змінні. Методологія експерименту передбачала послідовне виконання повного циклу економетричного дослідження: попередню обробку даних, розвідувальний аналіз та візуалізацію, побудову багатофакторної лінійної регресійної моделі, діагностику мультиколінеарності та гетероскедастичності, розрахунок показників еластичності для економічної інтерпретації, а також перевірку прогнозних властивостей моделі на тестовій вибірці. Верифікація отриманих за допомогою моделей генеративного штучного інтелекту результатів здійснювалася шляхом зіставлення з еталонними розрахунками, виконаними вручну в середовищі MS Excel. Результати проведеного експерименту виявили суттєву відмінність в результатах роботи досліджуваних моделей. Встановлено, що моделі класу Pro/Thinking (Gemini 2.5 Pro, ChatGPT-5 Thinking) демонструють абсолютну математичну точність, коректно розраховуючи коефіцієнти регресії, коефіцієнт детермінації, F-критерій та показники середньої й граничної ефективності. Натомість базові та «легкі» версії моделей (Gemini 2.5 Flash, ChatGPT-5) виявили схильність до критичних помилок, зокрема галюцинацій у вигляді генерації фіктивних даних, втрати контексту при обробці великих датасетів та нездатності до самостійної валідації вхідної інформації. Також виявлено спільну слабкість усіх протестованих моделей у задачах якісної класифікації типів гетероскедастичності та схильність ігнорувати макропоказники на користь мікроаналізу окремих змінних. На підставі отриманих даних зроблено висновок про те, що на сучасному етапі розвитку генеративний штучний інтелект не може повністю замінити людину, однак «просунуті» моделі можуть ефективно використовуватися як допоміжний інструмент для автоматизації рутинних операцій, написання коду та первинної обробки даних за умови обов’язкової верифікації результатів фахівцем.
Ключові слова: генеративний штучний інтелект, велика мовна модель, ChatGPT-5, Google Gemini 2.5, економетричне моделювання, аналіз даних, ринок нерухомості.
Рис.: 19. Табл.: 5. Бібл.: 18.
Сосновська Євгенія Романівна – студент, Київський національний економічний університет імені Вадима Гетьмана (просп. Берестейський, 54/1, Київ, 03057, Україна) Email: sosnovska.2310937546@kneu.edu.ua Скіцько Володимир Іванович – кандидат економічних наук, доцент, доцент, кафедра штучного інтелекту, моделювання та статистики, Київський національний економічний університет імені Вадима Гетьмана (просп. Берестейський, 54/1, Київ, 03057, Україна) Email: skitsko@kneu.edu.ua
Список використаних у статті джерел
Скіцько В. І. Аналіз даних із використанням генеративного штучного інтелекту: можливості та виклики. Проблеми економіки. 2023. № 4. C. 217–225. DOI: https://doi.org/10.32983/2222-0712-2023-4-217-225
ChatGPT // OpenAI. URL: https://chatgpt.com/
Gemini // Google. URL: https://gemini.google.com/
Kojima T., Gu S. S., Reid M., Matsuo Y., Iwasawa Y. Large Language Models are Zero-Shot Reasoners. NIPS’22: Proceedings of the 36th International Conference on Neural Information Processing Systems. Article No. 1613. P. 22199–22213. URL: https://proceedings.neurips.cc/paper_files/paper/2022/hash/8bb0d291acd4acf06ef112099c16f326-Abstract-Conference.html
Singhal K., Azizi S., Tu T. et al. Large Language Models Encode Clinical Knowledge. Nature. 2023. Vol. 620 (7972). P. 172–180. DOI: https://doi.org/10.1038/s41586-023-06291-2
Perry N., Srivastava M., Kumar D., Boneh D. Do Users Write More Insecure Code with AI Assistants? CCS’23: Proceedings of the 2023 ACM SIGSAC Conference on Computer and Communications Security. P. 2785–2799. DOI: https://doi.org/10.1145/3576915.3623157
Eloundou T., Manning S., Mishkin P., Rock D. GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models. arXiv preprint arXiv:2303.10130v5. 2023. URL: https://arxiv.org/pdf/2303.10130
Katz D. M., Bommarito M. J., Gao S., Arredondo P. GPT-4 passes the bar exam. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences. 2024. Vol. 382. No. 2270. Art. 20230254. DOI: https://doi.org/10.1098/rsta.2023.0254
Dell’Acqua F. et al. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. Harvard Business School Working Paper. 2023. No. 24-013. URL: https://www.hbs.edu/ris/Publication%20Files/24-013_d9b45b68-9e74-42d6-a1c6-c72fb70c7282.pdf
Valmeekam K., Sreedharan S., Marquez M., Olmo A., Kambhampati S. On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark). arXiv preprint arXiv:2302.06706. 2023. URL: https://arxiv.org/pdf/2302.06706
Ludwig J., Mullainathan S., Rambachan A. Large Language Models: An Applied Econometric Framework. arXiv preprint arXiv:2412.07031. 2024. URL: https://arxiv.org/pdf/2412.07031
Saab K. et al. Capabilities of Gemini Models in Medicine. arXiv preprint arXiv:2404.18416. 2024. URL: https://arxiv.org/pdf/2404.18416
Yu Y., Gan L., Hu Y., Wei B., Kuang K., Wu F. Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond. Findings of the Association for Computational Linguistics: EMNLP 2025. P. 13759–13781. DOI: https://doi.org/10.18653/v1/2025.findings-emnlp.742
Shetty P., Upadhayaya A., Shah P. M. et al. Advanced Financial Reasoning at Scale: A Comprehensive Evaluation of Large Language Models on CFA Level III. arXiv preprint arXiv:2507.02954. 2025. URL: https://arxiv.org/pdf/2507.02954
Bigeard A., Nashold L., Krishnan R., Wu S. Finance Agent Benchmark: Benchmarking LLMs on Real-world Financial Research Tasks. arXiv preprint arXiv:2508.00828. 2025. URL: https://arxiv.org/pdf/2508.00828
Huang K. A., Choudhary H. K., Hardin W. M., Prakash N. S. Comparative Analysis of ChatGPT-4o and Gemini Advanced Performance on Diagnostic Radiology In-Training Exams. Cureus. 2025. Vol. 17. No. 3. Art. e80874. DOI: https://doi.org/10.7759/cureus.80874
Modi A. et al. Evaluating Gemini in an Arena for Learning. arXiv preprint arXiv:2505.24477. 2025. URL: https://arxiv.org/pdf/2505.24477
ЛУН. URL: https://lun.ua/
|