पृष्ठभूमि इस मुद्दे के साथ मैं काम कर रहा हूं: एक प्रयोग के संदर्भ में मैं अपने अनुसंधान के लिए डिजाइन कर रहा हूं, मैं बड़ी संख्या में बड़े (लंबाई 4 एम) सरणियों का उत्पादन करता हूं जो कुछ विरल हैं, और इस प्रकार < (उदाहरण के लिए अंतरिक्ष लाभ / हानि नहीं है)। Li> इनमें से प्रत्येक सरणियों को स्ट्रिंग (अर्थात् एक शब्द) के साथ जोड़ा जाना चाहिए, जो कि डेटा को समझने के लिए किया जाता है, क्योंकि वे अर्थ स्ट्रिंग हैं जो कि स्ट्रिंग के अर्थ का प्रतिनिधित्व करते हैं। मुझे इस युग्मन को संरक्षित करने की आवश्यकता है। सूची में प्रत्येक शब्द के वैक्टर एक-एक करके बनाए जाते हैं, और आगे बढ़ने से पहले डिस्क में संग्रहीत होते हैं अगले शब्द पर। उन्हें डिस्क में ऐसे तरीके से संग्रहित किया जाना चाहिए जो फिर से शब्दकोश-जैसी सिंटैक्स से प्राप्त किया जा सकता है उदाहरण के लिए यदि सभी शब्द डीबी की तरह फाइल में जमा हो जाते हैं, तो मुझे इस फाइल को खोलने और वर्तमान पहुंच मैं वर्तमान में क्या कर रहा हूं: प्रत्येक बार वेक्टर (वर्तमान में जब मैं चाहता हूं कि एक शब्द के लिए एक शब्द का निर्माण किया गया है, तो शेक्टर में वेक्टर को संचित कर: मूल्यांकन के दौरान वैक्टर का उपयोग करें, मैं रिवर्स करूँगा: शेल्फ को खोलें, और फिर प्रत्येक शब्द के लिए उपरोक्त 'समाधान' निर्दिष्ट की समस्या को सुलझाने के मामले में मेरी जरूरतों को पूरा करता है I मुद्दा यह है कि जब मैं बड़ी मात्रा में शब्दों के लिए वैक्टर बनाने और स्टोर करने के लिए इस पद्धति का उपयोग करना चाहता हूं, तो मैं बस डिस्क स्थान से बाहर निकलता हूं। यह, जहां तक मैं बता सकता हूं, समस्या इस प्रकार सवाल है: क्या मेरे सेट्स को सेट करने का एक तरीका है जो: मेरी आवश्यकता को पूरा करें कि डेटा को डिक्शन के रूप में पढ़ा जा सकता है, शब्दों और सरणियों के बीच संबंध बनाए रखना है? सज्जनों और देवियों, किसी भी मदद के लिए अग्रिम धन्यवाद या सुझाव जो आप कर सकते हैं। जोश के रूप में एडेल ने पहले ही सुझाया है, मैं एचडीएफ 5 के लिए जाता हूं, सबसे आसान तरीका है h5py का उपयोग करना है: आप सिंटैक्स जैसे शब्दकोश के साथ एक सरणी के लिए कई विशेषताओं को जोड़ सकते हैं: <पूर्व> जहां आपके डेटासेट कासेट है जिसे ठीक से एक अंडाकार सरणी के रूप में कटा किया जा सकता है, लेकिन पृष्ठभूमि में सभी सरणी को स्मृति में लोड नहीं करता।
vector = wordDB [word] जैसी बातें करने में सक्षम होना चाहिए।
प्रयोग के लिए < कोड>
wordDB
lil_matrix से
scipy का उपयोग कर रहा है
wordDB [word] = vector
vector = wordDB [word] करके वैक्टर को याद करें, ताकि सभी आवश्यक न हों वैक्टर को राम में रखा जाना चाहिए (जो असंभव होगा)।
समतल संग्रहित डेटा को अचार करता है, जो बड़े सरणियों को संचयित करने का एक कारगर तरीका नहीं है, इस प्रकार इस भंडारण की समस्या को
समतल के साथ असभ्य शब्दों के साथ प्रदान करने के लिए शब्दों से निपटने की आवश्यकता है ।
scipy.save
dset.attrs ["नाम"] = "मेरा डाटासेट"
Comments
Post a Comment