Application Changelog

Latest updates and features for StoryLLM.

StoryLLM v1.0.6 Sürüm Notları

v1.0.6

Released on April 23, 2025

Değişiklik Günlüğü v1.0.6


Türkçe

Önemli Güncelleme Notları

UYARI: Bu güncelleme önemli yapısal değişiklikler içermektedir. Güncelleme yapmadan önce mevcut config.json dosyanızı yedeklemeniz önemle tavsiye edilir. Güncelleme sırasında mevcut tüm dosyaların üzerine yazılacaktır.

Yeni bağımlılıklar eklendiği ve mevcut olanlar güncellendiği için paketlerin yeniden kurulması gerekmektedir. Lütfen aşağıdaki adımları takip edin:

  1. Conda Ortamını Aktifleştirin: Anaconda Prompt veya terminalinizi açın ve projenizin kurulu olduğu Conda ortamını aktifleştirin:
    conda activate storyllm
    (Eğer ortam adınız farklıysa, 'storyllm' yerine kendi ortam adınızı yazın.)
  2. Gerekli Paketleri Kurun: Proje ana dizinindeyken aşağıdaki komutu çalıştırarak tüm bağımlılıkları kurun veya güncelleyin:
    pip install -r requirements.txt
    Bu işlem, eklenen yeni kütüphaneleri (Coqui TTS gibi) ve güncellenen diğer paketleri kuracaktır.
  3. Yapılandırmayı Geri Yükleyin (İsteğe Bağlı): Eğer özel ayarlarınız varsa, yedeklediğiniz config.json dosyasındaki ilgili ayarları yeni oluşturulan config.json dosyasına dikkatlice aktarabilirsiniz.

Yeni Özellikler

  • Coqui TTS Entegrasyonu:
    • Metin okuma (TTS) motoru olarak Coqui TTS desteği eklendi.
    • Türkçe dahil olmak üzere Coqui TTS tarafından desteklenen tüm diller artık kullanılabilir.
    • Referans bir ses dosyası (.wav, .mp3 vb.) kullanarak, Coqui TTS ile üretilen sesin tonunu referans sese benzetme özelliği eklendi. Bu sayede daha doğal ve istenilen tonda seslendirmeler yapılabilir.
  • Video Yeniden Oluşturmada Geçiş Efektleri:
    • "Rebuild Video" (Videoyu Yeniden Oluştur) işlevine sahneler veya görseller arasına eklenebilecek çeşitli geçiş efektleri (örn. fade, slide vb.) eklendi. Bu, videoların görsel akıcılığını artırır.

İyileştirmeler

  • Geliştirilmiş FFmpeg Araçları (CUDA Desteği):
    • Video işleme (kodlama, yeniden boyutlandırma, efekt ekleme vb.) için kullanılan FFmpeg araçları optimize edildi.
    • Eğer sisteminizde uyumlu bir NVIDIA ekran kartı ve CUDA kütüphaneleri kurulu ise, video işleme görevleri otomatik olarak ekran kartı (GPU) üzerinden yapılarak işlem süresi önemli ölçüde kısaltılacaktır. CUDA yoksa işlem CPU üzerinden devam eder.
  • Kokoro ve Coqui TTS için CUDA Desteği:
    • Kokoro (varsa) ve yeni eklenen Coqui TTS motorlarının hesaplama yükü, CUDA kurulu sistemlerde ekran kartına (GPU) taşındı.
    • Bu sayede, özellikle Coqui TTS ile ses üretimi ve potansiyel olarak Kokoro işlemleri, CUDA destekli ekran kartları kullanılarak çok daha hızlı gerçekleştirilecektir. Ses üretim süresi belirgin şekilde azalır.
  • YouTube Planlama Geliştirmeleri:
    • Videoların YouTube'a yüklenmesi ve zamanlanması ile ilgili işlevlerde iyileştirmeler yapıldı. Daha stabil ve kullanıcı dostu bir deneyim hedeflendi.

Düzeltmeler

  • Hazır Çözünürlük Tutarsızlığı:
    • Video oluşturma için sunulan hazır çözünürlük ayarlarındaki (örn. 720p, 1080p) bazı tutarsızlıklar giderildi. Artık seçilen çözünürlükler doğru şekilde uygulanmaktadır.
  • YouTube Ses Kısılma Sorunu (YouTube Audio Mastering):
    • En Önemli Düzeltme: YouTube'a yüklenen videolarda yaşanan ve sesin platform tarafından otomatik olarak kısılarak kalitesinin düşmesine neden olan sorun giderildi. Bu, "YouTube Audio Mastering" teknikleri uygulanarak başarıldı. (Detaylı açıklama aşağıdadır.)

Detaylı Açıklama: YouTube Ses Mastering

Sorun Neydi? YouTube, platforma yüklenen tüm videoların ses seviyelerini belirli bir standarda getirmek için otomatik bir "normalizasyon" işlemi uygular. Bu işlem, sesin algılanan ortalama yüksekliğini (Loudness, LUFS cinsinden ölçülür) hedeflenen bir seviyeye (genellikle -14 LUFS civarı) ayarlar. Eğer videonuzun sesi bu hedeften çok daha yüksekse, YouTube sesi kısar. Çok düşükse biraz yükseltebilir. Ancak bu otomatik işlem genellikle şu sorunlara yol açar:

  • Ses Kısılması: Yüksek sesle mikslenmiş (master edilmiş) videoların sesi belirgin şekilde kısılır, bu da videonun etkisini azaltır.
  • Dinamik Alan Kaybı: YouTube'un algoritması bazen sadece genel seviyeyi ayarlamakla kalmaz, aynı zamanda sesin en yüksek ve en düşük kısımları arasındaki farkı (dinamik aralık) da sıkıştırabilir. Bu, sesin daha "düz" ve "cansız" duyulmasına neden olabilir.
  • Tutarsızlık: Farklı videolardaki ses seviyeleri arasında istenmeyen farklılıklar oluşabilir.

Çözüm (Uygulanan YouTube Audio Mastering): Bu sorunu çözmek için, video dosyası oluşturulurken ses kanalına özel bir "mastering" işlemi uygulanmıştır. Bu işlem şu adımları içerir:

  1. Loudness Normalizasyonu (LUFS Hedeflemesi): Sesin ortalama yüksekliği (Integrated Loudness) analiz edilir ve YouTube'un hedeflediği -14 LUFS (Loudness Units Full Scale) standardına getirilir. Bu sayede YouTube'un sesi tekrar ayarlamasına gerek kalmaz veya çok az ayarlama yapması sağlanır.
  2. True Peak Limiting: Sesin anlık en yüksek tepe noktalarının (True Peak) belirli bir seviyeyi (genellikle -1.0 dBTP ile -2.0 dBTP arası) aşması engellenir. Bu, dijital sinyalin kırpılmasını (clipping) ve YouTube'un veya diğer platformların kodlama (codec) süreçlerinde oluşabilecek bozulmaları önler.
  3. Dinamik Kontrol (Opsiyonel): Gerekirse, sesin dinamik aralığı hafifçe kontrol altına alınarak (hafif kompresyon ile) daha tutarlı bir dinleme deneyimi sağlanabilir, ancak asıl amaç YouTube'un agresif müdahalesini önlemektir.
  4. Temiz Ses Çıkışı: Genel ses kalitesinin temiz ve anlaşılır olması sağlanır.

Sonuç: Bu mastering işlemi sayesinde, oluşturulan videolar YouTube'a yüklendiğinde ses seviyeleri büyük ölçüde korunur, ses kısılması sorunu ortadan kalkar ve izleyicilere daha tutarlı, kaliteli bir ses deneyimi sunulur.



StoryLLM v1.0.6 Release Notes

v1.0.6

Released on April 23, 2025

English

Important Update Notes

WARNING: This update includes significant structural changes. It is strongly recommended that you back up your existing config.json file before proceeding with the update. All existing files will be overwritten during the update process.

Reinstallation of packages is required due to new dependencies being added and existing ones being updated. Please follow the steps below:

  1. Activate Conda Environment: Open your Anaconda Prompt or terminal and activate the Conda environment where your project is installed:
    conda activate storyllm
    (If your environment name is different, replace 'storyllm' with your actual environment name.)
  2. Install Required Packages: While in the project's main directory, run the following command to install or update all dependencies:
    pip install -r requirements.txt
    This process will install newly added libraries (like Coqui TTS) and update other packages.
  3. Restore Configuration (Optional): If you have custom settings, you can carefully transfer the relevant settings from your backed-up config.json file to the newly generated config.json file.

New Features

  • Coqui TTS Integration:
    • Added support for Coqui TTS as a text-to-speech (TTS) engine.
    • All languages supported by Coqui TTS, including Turkish, are now available.
    • Added the ability to use a reference audio file (.wav, .mp3, etc.) to clone the voice tone for the audio generated by Coqui TTS. This allows for more natural-sounding voiceovers matching a desired tone.
  • Transition Effects in Video Rebuild:
    • Added various transition effects (e.g., fade, slide) that can be inserted between scenes or images during the "Rebuild Video" function. This enhances the visual flow of the videos.

Improvements

  • Enhanced FFmpeg Tools (CUDA Support):
    • Optimized the FFmpeg tools used for video processing (encoding, resizing, adding effects, etc.).
    • If your system has a compatible NVIDIA graphics card and CUDA libraries installed, video processing tasks will automatically be handled by the GPU, significantly reducing processing time. If CUDA is not available, processing will fall back to the CPU.
  • CUDA Support for Kokoro and Coqui TTS:
    • The computational load for the Kokoro engine (if used) and the newly added Coqui TTS engine has been moved to the GPU on systems with CUDA installed.
    • This results in much faster audio generation, especially with Coqui TTS, and potentially faster Kokoro operations using CUDA-enabled graphics cards. Audio generation time is significantly reduced.
  • YouTube Scheduling Enhancements:
    • Improved the functionality related to uploading and scheduling videos on YouTube, aiming for a more stable and user-friendly experience.

Fixes

  • Preset Resolution Inconsistency:
    • Fixed inconsistencies found in the preset resolution settings (e.g., 720p, 1080p) for video creation. Selected resolutions are now applied correctly.
  • YouTube Audio Volume Reduction Issue (YouTube Audio Mastering):
    • Most Important Fix: Resolved the issue where audio volume was automatically reduced by YouTube after uploading, leading to degraded quality. This was achieved by implementing "YouTube Audio Mastering" techniques. (Detailed explanation below.)

Detailed Explanation: YouTube Audio Mastering

What Was the Problem? YouTube applies an automatic "normalization" process to the audio of all uploaded videos to bring them to a standard loudness level. This process adjusts the perceived average loudness (measured in LUFS) to a target level (usually around -14 LUFS). If your video's audio is significantly louder than this target, YouTube turns it down. If it's too quiet, it might slightly boost it. However, this automated process often leads to:

  • Volume Reduction: Videos mixed/mastered loudly have their volume noticeably reduced, diminishing the video's impact.
  • Loss of Dynamic Range: YouTube's algorithm might not only adjust the overall level but also compress the difference between the loudest and quietest parts (dynamic range). This can make the audio sound "flat" and "lifeless."
  • Inconsistency: Unwanted loudness differences could occur between different videos.

The Solution (Implemented YouTube Audio Mastering): To fix this, a specific audio "mastering" process is now applied to the audio track when creating the video file. This process includes:

  1. Loudness Normalization (LUFS Targeting): The average loudness (Integrated Loudness) of the audio is analyzed and adjusted to meet YouTube's target standard of -14 LUFS (Loudness Units Full Scale). This ensures that YouTube either doesn't need to readjust the audio or only needs to make minimal adjustments.
  2. True Peak Limiting: The highest instantaneous peaks of the audio signal (True Peak) are prevented from exceeding a specific level (typically between -1.0 dBTP and -2.0 dBTP). This prevents digital clipping and potential distortions that can occur during YouTube's or other platforms' encoding (codec) processes.
  3. Dynamic Control (Optional): If necessary, the audio's dynamic range might be gently controlled (using light compression) to provide a more consistent listening experience, but the primary goal is to prevent aggressive intervention by YouTube.
  4. Clean Audio Output: Ensures the overall audio quality is clean and intelligible.

The Result: Thanks to this mastering process, when the created videos are uploaded to YouTube, their audio levels are largely preserved, the volume reduction issue is eliminated, and viewers are provided with a more consistent and high-quality audio experience.


v1.0.5 Değişiklik Günlüğü

v1.0.5

Released on April 19, 2025

İyileştirmeler ve Yeni Özellikler:

  • Geçiş Efektleri Eklendi: Daha akıcı bir görsel akış için hem Hikaye Oluşturucu hem de Slayt Oluşturucu'da sahneler/slaytlar arasına geçiş efektleri eklendi.
  • Slayt Oluşturucu Video Süresi Ayarlaması: Slayt Oluşturucu videolarının süresi artık toplam resim gösterme süresine göre otomatik olarak ayarlanıyor. Anlatım bitse bile tüm görseller gösterilir.
  • Geliştirilmiş LLM Tutarlılığı: OpenAI, Ollama, Gemini gibi LLM'lerle etkileşimler, daha tutarlı ve güvenilir görsel istemleri (prompt) üretimi için iyileştirildi.
  • İyileştirilmiş Sistem İstemleri (Konseptler): LLM'lere sağlanan prompts_config.json dosyasındaki sistem istemleri (konseptler) önemli ölçüde geliştirildi, detaylandırıldı ve daha katı kurallarla güncellendi.
  • Kullanıcı Dostu Konsept Seçimi: Görsel konsept/stil seçimi arayüzü, tüm seçenekleri içeren aranabilir tek bir açılır menü ile daha kullanıcı dostu hale getirildi.

v1.0.5 Changelog

v1.0.5

Released on April 19, 2025

Enhancements & New Features:

  • Transition Effects Added: Introduced transition effects between scenes/slides in both the Story Generator and Slide Generator for smoother visual flow.
  • Slide Generator Video Pacing Adjustment: Slide Generator videos now automatically adjust their length to match the total duration of images, ensuring all visuals are displayed even if narration ends early.
  • Improved LLM Consistency: Enhanced interactions with LLMs (OpenAI, Ollama, Gemini) for more consistent and reliable image prompt generation according to the selected concept.
  • Refined System Prompts (Concepts): Significantly improved, detailed, and updated the system prompts (concepts) in prompts_config.json with stricter rules for better adherence to the chosen visual style.
  • User-Friendly Concept Selection: Revamped the concept/style selection interface with a single, searchable dropdown menu containing all options for better usability.

Enhanced YouTube Integration, New Configuration Options, and Bug Fixes

v1.0.4

Released on April 18, 2025

This release introduces significant updates focused on improving user experience, enhancing YouTube integration, and addressing critical bugs within the StoryLLM application.

Added Missing Configuration Key (external_metadata_default):
  • The external_metadata_default key was missing under the llm_models section for each API provider (Ollama, OpenAI, Gemini) in the configuration file (json/config.json).
  • This key is necessary for determining the default LLM model used for tasks like generating metadata for external video uploads or reading metadata from saved projects. This has been fixed, improving consistency in metadata creation.
New YouTube Settings (config.json):

A new main section youtube_settings has been added to config.json:

  • default_language: Sets the default language code for videos uploaded to YouTube (e.g., "en", "tr").
  • default_audio_language: Sets the default audio language for the video.
  • scheduling Sub-Settings:
    • default_morning_time: Defines the default local time (e.g., "09:00") for the "Tomorrow Morning" UI option.
    • default_evening_time: Defines the default local time (e.g., "20:00") for the "Tomorrow Evening" UI option.
  • These settings can be customized by editing config.json, simplifying YouTube upload workflows.
Improved YouTube Scheduling Options:

The "Publish Time" options in the YouTube upload interface have been expanded:

  • Immediately: Publish right away.
  • Tomorrow Morning (HH:MM): Schedule for the next day at the configured morning time.
  • Tomorrow Evening (HH:MM): Schedule for the next day at the configured evening time.
  • +1 Day: Schedule exactly 24 hours from now.
  • +3 Days: Schedule exactly 3 days from now.
  • +7 Days: Schedule exactly 7 days from now.
  • Custom: Allows specific date/time input.

This streamlines common scheduling scenarios.

Configurable Default YouTube Language:

You can now control how YouTube identifies the default language of your uploads by modifying the youtube_settings.default_language and default_audio_language values in config.json (e.g., setting them to "tr").

LLM JSON Output Bug Fix (json_repair):
  • Addressed an issue where some LLM models returned invalid or malformed JSON when generating metadata, causing errors.
  • Integrated the json_repair Python library to automatically attempt repairs on malformed JSON responses, enhancing application stability.
  • The requirements.txt file has been updated to include this new dependency.
Update and Installation Instructions:
  • To update, overwrite your existing StoryLLM project files with the newly downloaded ones.
  • Important: Before updating, **backup** your existing json/config.json file, especially to preserve your API keys. After updating, copy your keys into the new file. The new youtube_settings section will be created with defaults if it wasn't in your backup.
  • Do not delete the cache folder containing your downloaded AI models unless you intend to re-download them.
  • Note that default setup scripts target CUDA 12.4; check notes for CUDA 11.8 compatibility if needed.
  • After updating files, navigate to your project folder in a terminal/command prompt and run pip install -r requirements.txt to install any new or updated Python packages.

Gelişmiş YouTube Entegrasyonu, Yeni Yapılandırma Seçenekleri ve Hata Düzeltmeleri

v1.0.4

Released on April 18, 2025

Bu sürüm, StoryLLM uygulamasının kullanımını kolaylaştırmak ve YouTube entegrasyonunu geliştirmek için önemli güncellemeler içermektedir.

Eksik Yapılandırma Anahtarı Eklendi (external_metadata_default):
  • Yapılandırma dosyasında (json/config.json) LLM modelleri bölümünde, her API sağlayıcısı (Ollama, OpenAI, Gemini) için external_metadata_default anahtarı eksikti.
  • Bu anahtar, harici video yükleme veya kaydedilmiş projelerden metadata oluşturma gibi durumlarda hangi modelin kullanılacağını belirlemek için gereklidir. Eksiklik giderilerek metadata oluşturma süreçlerinde tutarlılık sağlandı.
Yeni YouTube Ayarları (config.json):

config.json dosyasına youtube_settings adlı yeni bir ana bölüm eklendi:

  • default_language: Videonun YouTube'daki varsayılan dilini belirler (örn: "tr", "en").
  • default_audio_language: Videonun ses dilini belirler.
  • scheduling Alt Ayarları:
    • default_morning_time: Arayüzdeki "Yarın Sabah" seçeneğinin varsayılan saatini (örn: "09:00") belirler.
    • default_evening_time: Arayüzdeki "Yarın Akşam" seçeneğinin varsayılan saatini (örn: "20:00") belirler.
  • Bu ayarlar, config.json üzerinden özelleştirilerek YouTube yükleme işlemlerini kolaylaştırır.
Geliştirilmiş YouTube Planlama Seçenekleri:

YouTube yükleme arayüzündeki "Publish Time" (Yayınlama Zamanı) seçenekleri genişletildi:

  • Immediately: Hemen yayınla.
  • Tomorrow Morning (HH:MM): Config'deki sabah saatine göre ertesi gün.
  • Tomorrow Evening (HH:MM): Config'deki akşam saatine göre ertesi gün.
  • +1 Day: Tam 24 saat sonra.
  • +3 Days: Tam 3 gün sonra.
  • +7 Days: Tam 7 gün sonra.
  • Custom: Özel tarih/saat girişi.

Bu, sık kullanılan planlama senaryolarını hızlandırır.

Varsayılan YouTube Dili Yapılandırılabilirliği:

Artık config.json dosyasındaki youtube_settings.default_language ve default_audio_language değerlerini değiştirerek (örn: "tr") yüklenen videoların YouTube tarafından varsayılan olarak hangi dilde algılanacağını belirleyebilirsiniz.

LLM JSON Çıktı Hatası Düzeltmesi (json_repair):
  • Bazı LLM modellerinin metadata üretirken geçersiz JSON döndürmesi sorunu giderildi.
  • Projeye json_repair Python kütüphanesi entegre edildi. Bu kütüphane, hatalı JSON yanıtlarını onarmaya çalışarak uygulamanın kararlılığını artırır.
  • requirements.txt dosyası bu yeni bağımlılığı içerecek şekilde güncellendi.
Güncelleme ve Kurulum Talimatları:
  • Projeyi güncellemek için indirdiğiniz yeni dosyaları mevcut proje klasörünüzdeki eski dosyaların üzerine yazın.
  • Önemli: Güncellemeden önce mevcut json/config.json dosyanızı yedekleyin (özellikle API anahtarlarınız için). Güncelleme sonrası anahtarlarınızı yeni dosyaya aktarabilirsiniz.
  • AI modellerinizin bulunduğu cache klasörünü silmeyin.
  • Varsayılan kurulum CUDA 12.4 içindir, CUDA 11.8 uyumluluğu için notları kontrol edin.
  • Güncelleme sonrası, terminalde proje klasörüne gidip pip install -r requirements.txt komutunu çalıştırarak eksik Python paketlerini kurun.

Added External Image Slideshow Creation for Low VRAM Users

v1.0.3

Released on April 15, 2025

This release introduces a significant enhancement, especially for users with low GPU VRAM: The Slide Generator tab now allows creating slideshows using images from an external folder.

By selecting the new 'Use Images from External Folder' option instead of 'Generate Images via Prompt', you can bypass the internal image generation step, making the process much more resource-friendly.

Additionally, several minor improvements and bug fixes have been implemented for better performance and user experience.

Windows Setup & Launch Script Updates

v1.0.2

Released on April 12, 2025

We have updated the setup and launch scripts specifically for Windows users to provide a smoother installation and running experience.

  • setup_windows.bat: Improved detection of Conda installations and added more robust error checking during dependency installation.
  • launch_storyllm.bat: Corrected an issue where the storyllm_env environment might not activate automatically in some specific PowerShell or Command Prompt configurations.

Recommendation: If you installed StoryLLM on Windows before April 12, 2025, we recommend downloading the latest project files from your user dashboard (User Dashboard -> Active License -> Download Button). This will ensure you have the improved scripts.

Users on Linux are not affected by this specific script update.

Minor Bug Fixes and Stability Improvements

v1.0.1

Released on April 10, 2025

This quick update addresses a few minor issues reported since our launch:

  • Fixed: Resolved an issue where the segment editor occasionally failed to load preview images for very long story videos.
  • Improved: Enhanced stability during the final video export process, reducing potential errors.
  • UI: Minor adjustments to button placements in the generator tabs for better consistency.

Thank you for your feedback! We continue to work on improving StoryLLM.

Initial Release of StoryLLM!

v1.0.0

Released on April 09, 2025

We are thrilled to announce the initial public release of StoryLLM! 🎉

This version brings you the power of local AI content creation, allowing you to generate unlimited videos and images right on your own computer.

Key features in this release include:

  • Story Generator: Turn your scripts into dynamic videos with AI-generated visuals and voiceovers.
  • Slide Generator: Create engaging slideshows with consistent timing and visuals.
  • Image Generator: Produce standalone AI images from text prompts.
  • Local AI Core: Utilizes Stable Diffusion for images and Kokoro TTS for free local voice generation.
  • Privacy Focused: Your content stays on your machine when using local models.
  • Optional integrations with cloud APIs (OpenAI, Gemini, ElevenLabs).
  • Advanced YouTube uploader with multi-language metadata support.

We are excited for you to explore the possibilities! Download the project files from your dashboard and start creating.