-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path2024-10-24_last_log.txt
65 lines (65 loc) · 14.8 KB
/
2024-10-24_last_log.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
[24.10.2024 20:13] [Experimental] Generating an image for paper MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models.
[24.10.2024 20:13] [Experimental] Image for paper MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models already exists.
[24.10.2024 22:11] Read previous papers.
[24.10.2024 22:11] Get feed.
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17637
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18072
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17891
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18084
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18013
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17883
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.13924
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17434
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.13458
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.15522
[24.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18071
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 0. Visual preference alignment involves training Large Vision-Language Models (LVLMs) to predict human preferences between visual inputs. This is typically achieved by using labeled datasets of chosen/rejected pairs and employing optimization algorithms like direct preference optimization (DPO). Existi...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 1. Recent advancements in predictive models have demonstrated exceptional capabilities in predicting the future state of objects and scenes. However, the lack of categorization based on inherent characteristics continues to hinder the progress of predictive model development. Additionally, existing ben...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 2. Diffusion Language Models (DLMs) have emerged as a promising new paradigm for text generative modeling, potentially addressing limitations of autoregressive (AR) models. However, current DLMs have been studied at a smaller scale compared to their AR counterparts and lack fair comparison on language ...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 3. LiDAR scene generation has been developing rapidly recently. However, existing methods primarily focus on generating static and single-frame scenes, overlooking the inherently dynamic nature of real-world driving environments. In this work, we introduce DynamicCity, a novel 4D LiDAR generation frame...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 4. Direct Preference Optimization (DPO) has emerged as a powerful approach to align text-to-image (T2I) models with human feedback. Unfortunately, successful application of DPO to T2I models requires a huge amount of resources to collect and label large-scale datasets, e.g., millions of generated paire...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 5. This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as scree...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 6. The performance of neural networks scales with both their size and the amount of data they have been trained on. This is shown in both language and image generation. However, this requires scaling-friendly network architectures as well as large-scale datasets. Even though scaling-friendly architectu...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 7. Multimodal Large Language Models (MLLMs) have shown promising progress in understanding and analyzing video content. However, processing long videos remains a significant challenge constrained by LLM's context size. To address this limitation, we propose LongVU, a spatiotemporal adaptive compression...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 8. The integration of large language model (LLM) techniques in the field of medical analysis has brought about significant advancements, yet the scarcity of large, diverse, and well-annotated datasets remains a major challenge. Medical data and tasks, which vary in format, size, and other parameters, r...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 9. Reward models (RMs) have driven the state-of-the-art performance of LLMs today by enabling the integration of human feedback into the language modeling process. However, RMs are primarily trained and evaluated in English, and their capabilities in multilingual settings remain largely understudied. I...
[24.10.2024 22:11] ********************************************************************************
[24.10.2024 22:11] Abstract 10. Recently, multimodal large language models (MLLMs) have received much attention for their impressive capabilities. The evaluation of MLLMs is becoming critical to analyzing attributes of MLLMs and providing valuable insights. However, current benchmarks overlook the problem of prompt sensitivity - m...
[24.10.2024 22:11] Read previous papers.
[24.10.2024 22:11] Generating reviews via LLM API.
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый метод обучения больших визуально-языковых моделей (LVLM) под названием MIA-DPO. Этот подход эффективно работает с многоизображительными входными данными, решая проблему нехватки разнообразных обучающих данных. MIA-DPO расширяет однозображительные данные, добавляя
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый подход к оценке предиктивных моделей, называемый WorldSimBench. Эта система включает в себя явную перцептивную оценку и неявную манипулятивную оценку, охватывающие три сценария: открытую среду, автономное вождение и робототехнику. Авторы вводят датасет HF-Embodied
[24.10.2024 22:11] Using data from previous issue: {"desc": "Исследователи предлагают новый подход к созданию диффузионных языковых моделей (DLM), адаптируя существующие авторегрессионные модели. Они демонстрируют связь между целевыми функциями авторегрессионных и диффузионных моделей и вводят метод дообучения для создания DLM. Эксперименты показыва
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет DynamicCity - новую систему для генерации динамических 4D LiDAR сцен. Основу системы составляют VAE модель для создания компактного 4D представления HexPlane и DiT-based диффузионная модель для генерации HexPlane. Авторы предлагают ряд инновационных методов, включая Pro
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый подход к улучшению моделей генерации изображений по текстовому описанию (text-to-image). Авторы предлагают использовать синтетические наборы данных для обучения методом Direct Preference Optimization (DPO), что позволяет избежать трудоемкого процесса сбора предпоч
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новую архитектуру управления мобильными приложениями под названием 'app agents'. Предложенная система LiMAC использует текстовую цель и последовательность предыдущих наблюдений для генерации точных действий. Авторы вводят компактный Action Transformer (AcT) в сочетании
[24.10.2024 22:11] Using data from previous issue: {"desc": "Эта статья представляет ARKit LabelMaker - первый крупномасштабный набор данных реального мира с плотными семантическими аннотациями для задач 3D-зрения. Авторы расширили существующий инструмент LabelMaker, чтобы автоматически генерировать аннотации в больших масштабах. Они использовали со
[24.10.2024 22:11] Using data from previous issue: {"desc": "LongVU - это новый механизм адаптивного сжатия для анализа длинных видео мультимодальными большими языковыми моделями (MLLM). Он использует кросс-модальные запросы и межкадровые зависимости для уменьшения временной и пространственной избыточности в видео. LongVU применяет признаки DINOv2 д
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет MedINST - новый мета-датасет медицинских инструкций для обучения больших языковых моделей (LLM) в области биомедицинского анализа. MedINST включает 133 задачи и более 7 миллионов обучающих примеров, что делает его самым обширным биомедицинским инструкционным датасетом н
[24.10.2024 22:11] Using data from previous issue: {"desc": "Данная статья посвящена исследованию моделей вознаграждения (reward models) в многоязычном контексте. Авторы создали первый в своем роде многоязычный эталонный набор данных M-RewardBench для оценки таких моделей на 23 типологически разных языках. Проведя тщательную оценку различных моделей
[24.10.2024 22:11] Using data from previous issue: {"desc": "Статья посвящена проблеме чувствительности к промптам в мультимодальных больших языковых моделях (MLLM). Авторы предлагают новую систему оценки TP-Eval, которая использует метод настройки промптов для снижения предвзятости оценки и раскрытия потенциала моделей. TP-Eval переписывает исходны
[24.10.2024 22:11] Loading Chinese text from previous data.
[24.10.2024 22:11] Renaming data file.
[24.10.2024 22:11] Renaming previous data. hf_papers.json to ./d/2024-10-24.json
[24.10.2024 22:11] Saving new data file.
[24.10.2024 22:11] Generating page.
[24.10.2024 22:11] Renaming previous page.
[24.10.2024 22:11] Renaming previous data. index.html to ./d/2024-10-24.html
[24.10.2024 22:11] [Experimental] Generating Chinese page for reading.
[24.10.2024 22:11] Chinese vocab [{'word': '视觉偏好对齐方法', 'pinyin': 'shìjué piānhǎo duìqí fāngfǎ', 'trans': 'visual preference alignment method'}, {'word': '多图像输入', 'pinyin': 'duō túxiàng shūrù', 'trans': 'multi-image input'}, {'word': '单图像场景', 'pinyin': 'dān túxiàng chǎngjǐng', 'trans': 'single-image scenario'}, {'word': '难以有效处理', 'pinyin': 'nányǐ yǒuxiào chǔlǐ', 'trans': 'difficult to effectively handle'}, {'word': '多图像任务', 'pinyin': 'duō túxiàng rènwù', 'trans': 'multi-image task'}, {'word': '扩展单图像数据', 'pinyin': 'kuòzhǎn dān túxiàng shùjù', 'trans': 'extend single-image data'}, {'word': '注意力值', 'pinyin': 'zhùyìlì zhí', 'trans': 'attention value'}, {'word': '筛选错误响应', 'pinyin': 'shāixuǎn cuòwù xiǎngyìng', 'trans': 'screen out incorrect responses'}, {'word': '显著减少', 'pinyin': 'xiǎnzhù jiǎnshǎo', 'trans': 'significantly reduce'}, {'word': '多图像数据标注成本', 'pinyin': 'duō túxiàng shùjù biāozhù chéngběn', 'trans': 'multi-image data annotation cost'}, {'word': '五个多图像基准测试', 'pinyin': 'wǔ gè duō túxiàng jīzhǔn cèshì', 'trans': 'five multi-image benchmark tests'}, {'word': '优于现有方法', 'pinyin': 'yōu yú xiànyǒu fāngfǎ', 'trans': 'superior to existing methods'}, {'word': '平均性能提升', 'pinyin': 'píngjūn xìngnéng tíshēng', 'trans': 'average performance improvement'}, {'word': '对单图像理解能力影响较小', 'pinyin': 'duì dān túxiàng lǐjiě nénglì yǐngxiǎng jiào xiǎo', 'trans': 'minimal impact on single-image understanding capability'}]
[24.10.2024 22:11] Renaming previous Chinese page.
[24.10.2024 22:11] Renaming previous data. zh.html to ./d/2024-10-23_zh_reading_task.html
[24.10.2024 22:11] Writing result.
[24.10.2024 22:11] Writing Chinese reading task.
[24.10.2024 22:11] Renaming log file.
[24.10.2024 22:11] Renaming previous data. log.txt to ./logs/2024-10-24_last_log.txt